संगणक भाषा शास्त्र, संगणक विज्ञान आणि भाषाशास्त्र यांचा संगम असून ज्याचा संबंध आनवी भाषा क्षेत्राच्या संगणकीय पैलूशी आहे, जे माहीती विज्ञान आणि संगणक विज्ञानाची शाखा असलेल्या कृत्रिम बुद्धिमत्ता व मानवी ज्ञानाचे संगणकीय मॉडेल्स यांच्याशी संबंधित आहे. संगणक भाषा शास्त्राच्या दोन शाखा आहेल व्यावहारिक आणि सैद्धांतिक. संगणकीय भाषा विज्ञानाची व्यावहारिक शाखा मानवी भाषा वापराच्या मॉडेलिंगच्या व्यावहारिक परिणामांमधे अधिक रूचि दर्शविते मानवी भाषांचे थोडेफार ज्ञान असलेल्या सॉफ्टवेअर उप्तादनाची निर्मिती हे उद्दीष्टं आहे.
वाणी संयोगीकरण प्रोगाममधे स्वयंचलित वाणी संयोगीकरणाद्वारे लिखित मजकूर वाणीमधे बदलला जातो.
याचे अनेक ऑलगॉरिदम्स आहेत. कोणत्या कामासाठी त्याचा वापर केला जात आहे त्यावर हे अवलंबून आहे. आवश्यक ते शब्द बोलणा-या व्यक्तिचा आवाज रेकॉर्ड करणं हा सर्वात सोपा मार्ग आहे. थोडेच शब्द किंवा वाक्य बोलणार असल्यांस हे जास्त अपयोगी आहे, अदाहरणार्थ रेल्वे स्टेशनवरचा संदेश, किंवा फोनवरून विशिष्ट माहिती. रेकॉर्डिंग कसं झालं आहे त्यावर दर्जा अवलंबून आहे. माहिती छोटया छोटया तुकडयांमधे विभाजित करणारे अलगॉरिदम्स खराब दर्जाचे असतात. भाग जितके छोटे तितकी त्यांची संख्या कमी, परंतु दर्जाही घसरतो. फोनेम हे भाषेचं सर्वात छोटं युनिट जास्त वेळा वापरलं जातं. कोणती भाषा वापरली जात आहे त्यानुसार पश्चिम युरोपिअन भाषांमधे 35-50 फोनेम्स आहेत. उदाहरणार्थ तिथे 35-50 सिंगल रेकॉर्डिंक्स आहेत. त्यामुळे अर्थबोध कमी होतो परंतु बुद्धिप्रामाण्य कमी असतं पण स्मृतीची गरज कमी असते. या समस्येचं समाधान तोडव्याऐवजी, फोनेमंच्या मध्यावर तोडलं जातं यामुळे संक्रमंण पूर्ण होतं. याच्यामुळे 400 मूल तत्वं मिळतात (20*20) आणि गुणवत्ता सुधारते. युनिट्स जेवढी मोठी तेवढी मूलतत्व जास्त, स्मृती बरोबर दर्जाही सुधारतो. अर्ध-अक्षरं, अक्षरं, शब्दं किंवा शब्दांचा गट यासारखी इतर ही युनिट्स मोढया प्रमाणावर वापरली जातात उदाहरणार्थ शब्दांचे धातुप्रयोग किंवा रचनात्मक प्रयोगांचा वापर केला जातो म्युझियक ऑफ स्पीच अनॅलिसीस अड सिंथेसिस इथं कृत्रिम वाणी प्रणालीचे 150 वर्षापूर्वीची जुनी चित्रं आहेत. नक्की वाचा.
लिंग्विस्टिक डेटा कन्सॉराशियम द्वारा वाणी विज्ञान व्याख्ये संबंधी पुढील वेबसाईटवर माहिती दिलेली आहे-
http:// www.1dc.upenn.edu/annotation
भाषा तंत्रज्ञान हे संगणक प्रणाली संबंधी शोध करते कि, जे माणसांची भाषा समजू आणि/किंवा वाकय संयोगीकरण आणि लिहू शकते. या क्षेत्रामधे वाक्य संसोधन (ओळख, वाणी, आणि संयोगीकरण) महिती मिळवणे, हस्ताक्षर ओळख, मशीन भाषांतर, पाठ सारांश, आणि भाषा प्रजनन येतांत.
भारतीय मानक ब्युरोने इस्की (माहीतीच्या देवाण घेवाणासाठी भारतीय स्क्रिप्टकोड) या नावाच्या मानकाची निर्मिती केली आहे, जे 7 किंवा 8 बिट वर्ण वापराच्या वेळी सर्व कॉम्प्युटर तसेच दळवळण माध्यमाने वापरात आणू शकतात. 8 बिट पर्यावरणात खालील 128 वर्ण तेच आहेत जे माहीती देवाण घेवाणीसाठी IS10315:1982 (आय एसओ 646 IRV) 7 बिट वर्ण सेट मार्फत परिभाषित ओह जो इस्की वर्ण सेट म्हणूनही ओळखला जातो. वरील 128 वर्णसेट प्राचीन ब्राम्ही लिपीवर आधारित भारतीय लिपिंची गरज पूर्ण करतात.
7-बिट पर्यावरणात नियंत्रक कोड एस आय ला आस्की कोड आमंत्रित करण्यासाठी वापरात आणता येईल तसेच नियंत्रक कोड एस ओला एस्को कोड संख्या पुर्ननिवडी करता वापरात आणता येइल भारतात 15 मान्यताप्राप्त भाषा आहेत. पार्शियन आणि अरबी लिपि खेरीज भारतीय भाषांसाठी 10 इतर लिप्या प्राचीन ब्राम्ही लिपिवरून विकसित करण्यात आल्या असून त्यांचे उच्चारही समान आहेत व त्यासाठी समान वर्ण संचाचा उपयोग शक्य आहे. इस्की कोड सारणी ब्राम्ही आधारित भारतीय लिपि साठी आवश्यक सर्व वर्णाचा सर्वोच्च सेट आहे
लिपी वर्ण सेट हा प्रमुख वर्ण सेट आहे ज्यामध्ये अधिकांश भाषेचे वारंवार वापरले जाणारे वर्ण चिह्न व संख्या असतात काही अपवाद सोइला तर चिन्हांचा हा सेट सगल्या इस्फोक वर्ण सेट साठी सारखा असेल. जुळणारा इंग्लिश सेट हा सहयोगी वर्ण सेट आस्की वर्ण सेटच्या खालच्या अर्ध्या वर्णाबरोबर इंग्लिश फोंट आणि वरिल वर्ण रोमन भाषा अनुवाद यासाठी वापरतात. पुरवणी वर्ण सेट पुरवणी वर्ण सेट हा एक असा वर्ण सेट आहे ज्यामध्ये मूळ वर्णामधे जोडाक्षरे व चिन्हे समावलेले असतात.
माहीती विनिमयाच्या मानकाच्या रूपात युनिकोडची जगभरातील मान्यता वाढत चालली आहे. माहीती तंत्रज्ञान क्षेत्रातल्या बहुसंख्य मोठया कंपन्यांनी त्याला आपला पाठींबा जाहीर केला आहे. भारतीय भाषांसाठी युनिकोड 91 चा वापर न करता इस्की 88 वापर करण्यात येतो जे आधुनिक सरकारीमानक आहे. हे अत्यंत गरजेचं मानण्यात आलं आहे की, भारतच्या सरकारनं, भारतीय भाषांसाठी कोडमधे आवश्यक त्या सुधारणा घडवून आणण्यासाठी युनिकोड मंचासमक्ष प्रतिनिधित्व करावं या उद्देशानेच माहीती तंत्रज्ञान विभाग, मताधिकारासह युनिकोड कंसोर्टियमचा (मंच) संपूर्ण सदस्य बनला आहे.
16 बिट (2 बाईट) युनिकोड-युनिकोड मानक हे जागतिक वर्ण कोडांतरण मानक आहे जे काम्प्युटर प्रक्रियेसाठी पाठ प्रतिनिधित्वासाठी वापरले जाते. युनिकोड मानक जगभरात लिहिल्या जाणा-या सर्व भाषांसाठी कोडांतरण करण्याची सर्व वर्णाचे क्षमता प्रदान करते. युनिकोड मानक वर्ण आणि त्याच्या वापरा संबंधीची सर्व माहीती पुरवते. बहुभाषि पाठांशी (test) संबंधीत लोक, व्यापारी वर्ग, भाषातज्ञ, संशोधक, शास्त्राज्ञ, गणिततज्ञ आणि तंत्रज्ञ या सर्वांसाठी युनिकोड मानक अत्यंत उपयुक्त आहे. युनिकोड 16 बिट कोडांतरणाचा वापर करते जे 65000 वर्णांपेक्षाही जास्त (65536) वर्णांसाठी कोडबिंदू पुखते युनिकोड मानक, प्रत्येक वर्णाचे संख्यात्मक मूल्य व नांव निर्धारित करते.
युनिकोड 16 बिट कोडांतरणाचा वापर करते जे 65000 पेक्षाही जास्त (65536) वर्णांना कोडबिंदू प्रदान करते युनिकोड मानक, प्रत्येक वर्णाचे संख्यात्मक मूल्य व नांव निर्धारित करते. युनिकोड मानक जगभरात लिहिल्या जाणान्या सर्व भाषांसाठी सर्व वर्णाचे कोडांतरण करण्याची क्षमता प्रदान करते.
इस्की 8 बिट कोडचा वापर करते जे 7 बिट अस्की कोडचे विस्तारित रूप आहे. ज्यामधे ब्राम्ही लिपिवरून विकसित झालेल्या 10 भारतीय लिप्यांसाठी आवश्यक असलेल्या मूलभूत बाराखडीचा समावेश आहे. भारतात 22 अधिकृत मान्यता प्राप्त भाषा आहेत फारसी अरेबिक खेरीज इतर भारतीय भाषांसाठी वापरण्यात येणा-या 10 लिप्या जुन्या ब्राम्ही लिपिवरून विकसित करण्यात आल्या आहेत तसच त्याचा ध्वनिशास्त्र ढाचाही समान असून त्यांचा समान वर्णसंचही तयार करणं शक्य आहे. इस्की कोड सारणी ब्राम्हीवर आधारित भारतीय लिप्यांसाठी आवश्यक असलेल्या सर्व वर्णांचा उत्तम संच आहे. सोयीसाठी अधिकृत देवनागरी लिपिच्या बाराखडीचा मानकात वापर करण्यात आला आहे.
तीन वेगवेगळया की बोर्ड मांडण्या पुढील प्रामणेः-
1. रोमन मांडणी- रोमनकृत मांडणीत हिंदी टेक्स्ट टाईप करण्यासाठी इंग्रजी ध्वनिशास्त्र मँपिंगचा उपयोग करण्यात आला आहे. उदा. ‘राम’ शब्द टाईप करण्यासाठी raamaa (किंवा rAmA) चा वापर करता येईल
2. टाईपरायटर मांडणी– ही मांडणी हिंदी टाईपरायटर मांडणी सारखीच असून ती हिंदी टायपिस्ट तसच हिंदी टाईपरायटर व कीबोर्ड अनुक्रम तक्ता समजत असलेल्या लोकांसाठीच उपयोगी आहे
3. इलेक्ट्रॉनिक विभाग ध्वनिशास्त्र – मांडणीला भारत सरकारच्या या इलेक्ट्रॉनिक्स विभागाची मान्यता आहे या मांडणीचे फायदे सर्व भारतीय भाषांसाठी सारखेच आहेत. उदा./या कीचा उपयोग भारतीय भाषांमधील ‘क’ या अक्षर टाईप करण्यासाठी वापरला जातो कीबोर्ड मांडणी आणि कीबोर्ड अनुक्रम तक्ताच्या योग्य की कॉम्बीनेशन शोधण्यासाठी करता येईल.
डी.पी. चिरानिया, भाषा-देवनागरी गुजराती, पंजाबी, मराठी, बंगाली,आसामी, उडिया, तमिळ, कन्नड, मल्याळम् नेपाळी संपर्कः
chiraniadp@yahoo.com
गणपति डेटाबेस पॅकेज पुढील भाषांमधे आहे- हिंदी, गुजराती, पंजाबी, मराठी, बंगाली, उडिया, तमिळ, कन्नड, मल्याळम नेपाली संपर्कः
chiraniadp@yahoo.com
इस्की प्लग इनचे उद्दीष्ट एखादी लिपि. फॉन्ट, प्लेटफॉर्मिट (परिवेश) ब्राऊजर वापरण्याचे स्वातंत्र्य प्रदान करणे तसच कार्यकौशल्य किंवा अतिरिक्त खर्च केल्या शिवाय शक्य करणे हे आहे. याच्या सध्याच्या स्वरूपावरून हेच स्पष्ट होत की भारतीय समुदायाच्या अगदी उद्दीष्टांच्या जवळ जाऊन पोहचलो आहोत.
जेव्हा क्लायंट पातळीवर ब्राऊजर सर्व्हरकडे आस्कीफाईल ( extension,isc ) ची मागणी करतो तेव्हा सर्व्हर ‘ माईम टाईपसह डेटा पाठवतो ( text/iscii) क्लायंट पातळीवर तसच ‘ इनपुटसाठी इस्की प्लग-इन वापरला जातो. इस्की प्लग या येणा-या इस्की प्रवाहाला ‘ फॉन्ट म्लिफ क्रम ’ मधे परिवर्तित करतो ज्यामुळे वापरकर्ता या परिवर्तित फॉन्टचा वापर करू शकेल आकारच्या बाबतीत इस्की प्लग-इन वापरकर्त्यामार्फत परिभाषित फॉन्टच्या नावे संबंधित क्षेत्रं जोडतो, ज्यामुळे फॉर्म सादर केल्यावर सर्व्हरचा पत्ता कळतो, ज्यामधे फील्ड वहॅल्यूं कोड करण्यात आली आहे.
 |
हा कसा अपलब्ध होतो? |
 |