संगणक भाषा विज्ञान (सं.भा.) भाषा विज्ञान तथा कंप्यूटर विज्ञान
या संगणक विज्ञान का अन्तरविषयी क्षेत्र है जिसका संबंध मानव
भाषा दक्षता के संगणक पक्ष से है । इसका संबंध संज्ञानात्मक
विज्ञानों तथा यांत्रिक बुद्धिमत्ता से भी है । यांत्रिक बुद्धिमत्ता
जो संगणक विज्ञान की एक शाखा है और इसका संबंध मानव संज्ञान
के संगणक कम्प्यूटेशनल मार्डिलों से है । संगणक भाषा विज्ञान
की दो शाखाएँ हैं - अनुप्रयुक्त तथा सैद्धांतिक । संगणक भाषा
विज्ञान की अनुप्रयुक्त शाखा मानव भाषा प्रयोग के मार्डिल के
व्यवहारिक परिणामों में अधिक रूचि रखती है । इसका उद्देश्य ऐसे
सार्फ्टिवेयर उत्पाद तैयार करना है जिनका संबंध मानव भाषा के
ज्ञान से है । ऐसे उत्पादों की आवश्यकता मानव मशीन अंतरासंबंध
(अंतरापृष्ठ) में सुधार लाने के लिए है क्योंकि मानव तथा कम्प्यूटर
के अंतरासंबंध में मुख्य अवरोध संप्रेषण के कारण होता है ।
वाक् संश्लेषण प्रोग्राम स्वचालित संश्लेष्ट वाक् प्रजनन के
द्वारा लिखित निवेश को मौखिक निर्गत के रूप में परिवर्तित करते
हैं । वाक् संश्लेषण को पाठ से वाक् परिवर्तन (टी.टी.एस.) के
रूप में समझा जाता है ।
इसके कई एल्गोरिद्म हैं । किस का प्रयोग
कार्य के लिए किया जाता है, यह संबंधित पर निर्भर करता है सबसे
आसान तरीका होता कि वांछित पदबंधों को बोलनेवाले व्यक्ति की आवाज
में रिकार्ड जाए उपयोगी जब रेलवे स्टेशन संदेशों या फोन द्वारा
निर्धारित सूचनाओं सीमित वाक्यों ही इसकी गुणवत्ता इन सूचनाओं
की रिकार्डिंग पर निर्भर करती है । अधिक परिष्कृत किंतु गुणवत्ता
दृष्टि से खराब वे एल्गोरिथ्म हैं जो वाक् को छोटे टुकड़ों में
विभाजित इकाइयों जितनी छोटी होती हैं , उनकी संख्या उतनी ही कम
होती हैं, किंतु उनकी गुणवत्ता कम हो जाती है । आमतौर पर प्रयुक्त
हैं स्वनिम है जो सबसे छोटी भाषिक उन्हे है । प्रयोग की --- भाषा
के आधार पर, पश्चिम यूरोपीय भाषाओं में 35-50 स्वनिम होते हैं
अर्थात एकल रिकार्डिंग होती । ऊससे बोधगम्यता कम होती है किंतु
इसके लिए कम अपेक्षित स्मृति की आवश्यकता होती है । इस दुविधा
का समाधान द्वि-स्वनिकों के प्रयोग में निहित है । संक्रमणों पर
विखंडित करने की बजाए तथा उसे बरकरार बनाए रखने के लिए स्वनिम
को बीच में काटा जाता है इससे लगभग 400 (20 20) तत्व प्राप्त होते
हैं तथा गुणवत्ता बढ़ जाती है । इकाइयाँ जितनी बड़ी होंगी, तत्व
भी उतने ही अधिक होंगे । किंतु गुणवत्ता अपेक्षित स्मृति के साथ
साथ बढ़ती जाती है । अन्य इकाइयों में अर्ध अक्षरों, अक्षरों,
शब्दों या उनके समुच्चयों जैसे - शब्दों की धातुओं तथा रूप रचनात्मक
प्रत्ययों का प्रयोग किया जाता है । वाक् विश्लेषण तथा संश्लेषण
के संग्रहालय में पिछले 150 वर्षों के कृत्रिम वाक् तंत्रों के
चित्र सुरक्षित हैं जो अवलोकन करने योग्य हैं ।
लिंग्विस्टिक डेटा कंसोर्टियम के द्वारा व्यापक रूप से भाषा वैज्ञानिक
व्याख्या संबंधी उपकरण इस वैब पृष्ठ पर दिए गए हैं - http:// www.1dc.upenn.edu/annotation
भाषा प्रौद्योगिकी कंप्यूटर प्रणालियों के बारे में शोध करती
है जो मौखिक तथा लिखित मानवीय भाषाओं के बोधन तथा/या संश्लेषण
का कार्य करती है । इस क्षेत्र में वाक् संसाधन (पहचान, बोधन
तथा संश्लेषण) सूचना निष्कर्षण, हस्तलेख पहचान, मशीनी अनुवाद,
पाठ संश्लेषण तथा भाषा प्रजनन भी सम्मिलित हैं ।
भारतीय मानक ब्यूरो ने इस्की (सूचना विनिमय के लिए भारतीय मानक
कोड) नाम से एक मानक निर्मित किया है जिसे 7 या 8 बिट वर्णों
का प्रयोग करते हुए सभी कंप्यूटरों तथा संचार माध्यमों में प्रयोग
किया जा सकता है । 8 बिट परिवेश में निचले 128 वर्ण वही हैं
जो सूचना विनिमय के लिए IS10315:1982 (ISO 646 IRV)7-बिट वर्ण
सैट द्वारा परिभाषित हैं, जिन्हें एस्की वर्ण सैट के रूप में
भी जाना जाता है । ऊपर के 128 वर्ण सैट प्राचीन ब्राह्मी लिपि
पर आधारित भारतीय लिपियों की आवश्यकता की पूर्ति करते हैं ।
7 -बिट परिवेश में, नियंत्रक कोड एस.आई. को आस्की कोड के आह्वान
के लिए प्रयोग किया जा सकता है तथा नियंत्रक कोड एस.ओ. को एस्की
कोड सैट के पुनर्चयन के लिए प्रयोग किया जा सकता है । भारत में
15 मान्यता प्राप्त भाषाएँ हैं । फारसी-अरबी लिपियों के अतिरिक्त,
भारतीय भाषाओं के लिए प्रयुक्त अन्य 10 लिपियाँ प्राचीन ब्राह्मी
लिपि से उद्भूत हैं और इस्की कोड के अतिरिक्त वर्णों का प्रयोग
किया जा सकता है । इस्की कोड सारणी ब्राह्मी आधारित भारतीय लिपियों
में आवश्यक सभी वर्णों का एक सुपर सैट है । सुविधा के लिए, मान्यता
प्राप्त देवनागरी लिपि के वर्णों को मानक में प्रयुक्त किया
गया है । भारतीय मानक ब्यूरो द्वारा जारी मानक संख्या IS1319
:1991 सूचना विनिमय के लिए नवीनतम भारतीय मानक है । इसे भारतीय
भाषाओं में सूचना प्रौद्योगिकी उत्पादों के विकास के लिए व्यापक
रूप से प्रयोग किया जा रहा है ।
लिपि वर्ण सैट यह प्रमुख वर्ण सैट होता है जिसमें बहुधा प्रयुक्त
अधिकांश भाषाएं वर्ण, चिह्न, संख्याएँ आदि सम्मिलित होती हैं
। कुछ अपवादों को छोड़कर चिह्नों का यह सैट सभी 'इस्फोक' वर्ण
सैट में समान होगा । मैचिंग अंग्रेजी वर्ण सैट नीचे के आधे भाग
में 'एस्की' वर्णों से युक्त मैचिंग अंग्रेजी फोंट के लिए सहयोगी
वर्ण सैट होते हैं तथा उपर के आधे भाग में रोमन लिप्याँतरण के
लिए बलाघात वर्ण होते हैं । अनुपूरक वर्ण सैट अनुपूरक वर्ण सैट
मूलभूत लिपि वर्णों के सेट का एक विस्तृत सेट है जिसमें ऐसे
संयुक्ताक्षर तथा चिह्न सम्मिलित होते हैं जिनका प्रयोग सामान्यतया
नहीं होता ।
सूचना विनिमय के मानक के रूप में यूनिकोड की स्वीकृति संपूर्ण
विश्व में बढ़ती जा रही है । सूचना प्रौद्योगिकी क्षेत्र की
अधिकांश कंपनियों ने इसके पक्ष में अपने सहयोग की घोषणा कर दी
है । भारतीय भाषाओं के लिए यूनिकोड 'आइस्की 91' का प्रयोग न
करके 'इस्की 88' का प्रयोग करता है जो अद्यतन सरकारी मानक है
। यह आवश्यक समझा गया कि भारत सरकार, भारतीय भाषाओं के लिए कोड
में आवश्यक संशोधन के लिए यूनिकोड कंसोर्टियम के समक्ष अपना
पक्ष रखे । इस उद्देश्य से सूचना प्रौद्योगिकी मंत्रालय यूनिकोड
कंसोर्टियम का मताधिकार के साथ पूर्ण सदस्य बन गया है ।
16 बिट (2 बाइट) यूनिकोड - यूनिकोड मानक कंप्यूटर संसाधन के
उद्देश्य से पाठ निरूपण के लिए एक सार्वदेशिक वर्ण कोडांतरण
मानक है । यूनिकोड मानक विश्व कीलिखित भाषाओं के लिए प्रयुक्त
सभी वर्णों के कोडांतरण की क्षमता रखता है । यूनिकोड मानक वर्ण
तथा उसके प्रयोग के संबंध में सूचना प्रदान करता है । बहुभाषी
पाठों से संबंध रखने वाले व्यापारिक लोगों, भाषाविदों, शोधकर्ताओं,
विज्ञानियों, गणितज्ञों तथा तकनीकज्ञों जैसे कंप्यूटर प्रयोक्ताओं
के लिए यूनिकोड मानक बहुत ही उपयोगी है । यूनिकोड 16 बिट कोडांतरण
का उपयोग करता है जिसमें 65000 वर्णों (65536) से भी अधिक के
लिए कोड बिंदु उपलब्ध कराता है । यूनिकोड मानक प्रत्येक वर्ण
को एक निश्चत संख्यात्मक मूल्य तथा नाम निर्धारित करता है ।
यूनिकोड 16 बिट कोडिंग का प्रयोग करते हुए 65000 से अधिक वर्णों
(65536) के लिए कोड-बिंदु निश्चत करता है । यूनिकोड मानक प्रत्येक
वर्ण को एक विशिष्ट संख्यात्मक मूल्य तथा नाम प्रदान करता है
। यूनिकोड मानक विश्व की सभी लिखित भाषाओं में प्रयुक्त सभी
वर्णों की कोडिंग के लिए क्षमता प्रदान करता है । 'इस्की' 8बिट
कोड है जो 'एकी' के 7बिट कोड का विस्तृत रूप है जिसके अनुसार
ब्राह्मी लिपि से उद्भूत 10 भारतीय लिपियों के लिए मूलभूत वर्ण
सम्मिलित हैं । भारत में 15 मान्यता प्राप्त भाषाएँ हैं । फारसी-अरबी
लिपियों के अतिरिक्त, भारतीय भाषाओं के लिए प्रयुक्त अन्य सभी
10 लिपियाँ प्राचीन ब्राह्मी लिपि से विकसित हुई हैं तथा इसकी
ध्वन्यात्मक संरचना में समानता पाई जाती है जिससे समान वर्ण
सैट संभव हो सकता । 'आज इस्की' कोड सारणी ब्राह्मी आधारित भारतीय
लिपियों के लिए आवश्यक एक प्रकार का सुपर सैट है । सुविधा के
लिए मान्यता प्राप्त देवनागरी लिपि के वर्णों को मानक में प्रयोग
किया गया है ।
तीन कुंजीपटल विन्यास हैं -
1. रोमनीकृत विन्यास :रोमनीकृत विन्यासों में, हिंदी पाठ के
टंकण में अंग्रेजी ध्वन्यात्मक मैपिंग का प्रयोग किया है । उदाहरण
के लिए 'राम' टंकित करने के लिए raamaa (या rAmA) का प्रयोग
किया जा सकता है ।
2.टाइपराइटर विन्यास : यह विन्यास हिंदी टाइपराइटर विन्यास के
समान है तथा यह विन्यास हिंदी टंककों तथा हिंदी टाइपराइटर विन्यास
तथा कुंजीक्रम चार्ट के जानकार लोगों के लिए उपयोगी है ।
3. इलेक्ट्रॉनिकी विभाग ध्वन्यात्मक : यह विन्यास इलेक्ट्रॉनिकी
विभाग, भारत सरकार के द्वारा मानकीकृत किया गया है । इस विन्यास
का लाभ यह है कि यह सभी भारतीय भाषाओं के लिए समान है । उदाहरण
के लिए 'k' कुंजी का प्रयोग सभी भारतीय भाषाओं में 'क' वर्ण
के कुंजीयन के लिए किया जाता है । कुंजीपटल विन्यास तथा कुंजीक्रम
चार्ट का प्रयोग सही कुंजी संयोजकों के लिए किया जाता है ।
डी.पी.चिरानिया भाषाएँ देवनागरी गुजराती, पंजाबी मराठी, बंगाली
असमिया, उड़िया तमिल, तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क
: chiraniadp@yahoo.com
'गणपति ' डेटाबेस पैकेज
भाषाओं में है - हिंदी, गुजराती पंजाबी, मराठी बंगाली, उड़िया,
तमिल तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क : chiraniadp@yahoo.com
इस्की प्लग-इन का लक्ष्य
किसी लिपि, फोंट, प्लेटफार्मिर् (परिवेश), ब्राउजर को प्रयोग
करने की स्वतंत्रता प्रदान करना तथा कार्यकुशलता बलिदान या अतिरिक्त
लागत खर्च किए बिना भारतीय भाषाओं में वैब खोज संभव बनाना है
। इसका वर्तमान रूप यह प्रदर्शित करता है कि यदि भारतीय समुदाय
का सहयोग मिल जाए तो हम लक्ष्य से दूर नही हैं ।
जब क्लाइंट के स्तर पर ब्राउजर सर्वर को आस्की फाइल (extension.isc)
का अनुरोध करता है, तब सर्वर 'माइम टाईप ' के साथ डेटा भेज देता
है (text/iscii)क्लांट के स्तर पर ब्राउजर तथा इस 'इनपुट' धारा
की व्यवस्था के लिए इस्की प्लग-इन चलाता है । इस्की प्लग-इस
आनेवाली इस्की धारा को 'फोंट ग्लिफ क्रम' में परिवर्तन करता
है ताकि प्रयोक्ता द्वारा परिभाषित फोंट का प्रयोग किया जा सके
। आकार के संबंध में, इस्की प्लग-इन प्रयोक्ता द्वारा परिभाषित
फोंट के नाम प्रछन्न क्षेत्र को जोड़ देता है ता कि फार्म प्रस्तुत
करने पर, सर्वर का पता चलता जिसमें 'फील्ड वैल्यू' कोड की गई
है ।
 |
यह
कहाँ से प्राप्य है ? |
 |