സ്പീച്ച് സിന്തസിസ് പ്രോഗ്രാം എഴുത്ത് രൂപത്തിലുള്ള വിവരങ്ങളെ ശബ്ദ രൂപത്തിലേക്ക് സ്വയം മാറ്റും. സ്പീച്ച് സിന്തസിസ് സാധാരണയായി അറിയപ്പെടുന്നത് ""ടെക്സ്റ്റ്-ടു-സ്പീച്ച്''
കണ്വെര്ഷന് എന്നാണ്.
ഇതിനായി ധാരാളം അല്ഗോരിതങ്ങള് ഉണ്ട്. ചെയ്യേണ്ട ജോലികളെ ആസ്പദമാക്കിയാണ് അല്ഗോരിതങ്ങള് തിരഞ്ഞെടുക്കുന്നത്. ആവശ്യമുള്ള വാക്കുകളുടെ മനുഷ്യ ശബ്ദം റെക്കോര്ഡ് ചെയ്യുക എന്നുള്ളതാണ് ഏറ്റവും എളുപ്പമുള്ള വഴി. പരിമിതമായ വാക്കുകളോ, വാചകങ്ങളോ ഉപയോഗിക്കുന്പോള് മാത്രമാണ് ഇത് ഉപയോഗപ്രദമായിത്തീരുന്നത്. ഉദാ: റെയില്വേ സ്റ്റേഷനിലെ
സന്ദേശങ്ങള്, ടെലിഫോണ് വഴിയുള്ള വിവരങ്ങള്. റെക്കോര്ഡ്
ചെയ്യുന്ന രീതിയെ ആശ്രയിച്ചിരിക്കും ഇതിന്റെ ക്വാളിറ്റി. ശബ്ദങ്ങളെ ചെറുതായി ഭാഗിച്ചുകൊണ്ടുള്ള അല്ഗോരിതമാണ്
ഇതില് ഏറ്റവും സങ്കീര്ണ്ണവും ക്വാളിറ്റി കുറഞ്ഞതും ആയിട്ടുള്ളത്. ഏറ്റവും ചെറിയ ലിംഗ്വിസ്റ്റിക്ക് യൂണിറ്റായ സ്വനിമം ആണ് സാധാരണയായി ഉപയോഗിക്കുന്നത്.
ഉപയോഗിക്കുന്ന ഭാഷയെ അടിസ്ഥാനമാക്കി പാശ്ചാത്യ യൂറോപ്യന് ഭാഷകളില് ഏകദേശം 35-50 സ്വനിമം ഉണ്ട്.
ഇതുപോലുള്ള ശബ്ദശകലങ്ങളെ കൂട്ടിച്ചേര്ത്തുകൊണ്ട് തുടര്ച്ചയായ, ഒഴുക്കോടു കൂടിയുള്ള സംഭാഷണമാക്കി മാറ്റുക
എന്നത് ബുദ്ധിമുട്ടാണ്. ഇതിന് വ്യക്തത കുറവാണെങ്കിലും കുറച്ചു മെമ്മറി മതി. "Diphones' ഉപയോഗിച്ചുകൊണ്ട് ഈ പ്രതിസന്ധി ഒഴിവാക്കാം. പരിവര്ത്തന ഘട്ടത്തില് (ട്രാന്സിഷനില്) വിഘടിപ്പിക്കുന്നതിനു പകരം സ്വനിമത്തിന്റെ നടുവില് വിഘടിപ്പിച്ച്, ട്രാന്സിഷനുകളെ വെറുതെയിടുന്നു. ഇങ്ങനെ 400 ഘടകങ്ങളുണ്ടാവുകയും ഗുണം വര്ദ്ധിക്കുകയും ചെയ്യുന്നു. യൂണിറ്റുകളുടെ ദൈര്ഘ്യം കൂടുംതോറും ഘടകങ്ങളും കൂടുന്നു. പക്ഷെ ഗുണമാവശ്യമായ മെമ്മറിക്കനുസരിച്ചു മാത്രമേ വര്ദ്ധിക്കുകയുള്ളൂ. പകുതി-സിലബിളുകള്, സിലബിളുകള്, വാക്കുകള്, അവയുടെ സമ്മിശ്രണം. ഉദാ: വാക്കുകളിലെ മൂലപദം, വിഭക്തി പ്രത്യയങ്ങളില് അവസാനിക്കുന്നവ എന്നിവയാണ് വ്യാപകമായി ഉപയോഗിക്കുന്ന മറ്റു യൂണിറ്റുകള്. 'മ്യൂസിയം ഓഫ് സ്പീച്ച് അനാലിസിസ് ആന്ഡ് സിന്തസിസി'ല് കൃത്രിമ സംസാര രീതികളുടെ 150 വര്ഷം പഴക്കമുള്ള ചിത്രങ്ങളുണ്ട്: സന്ദര്ശന യോഗ്യം.
എല്ലാ കംപ്യൂട്ടറുകളിലും കമ്യൂണിക്കേഷന് മീഡിയകളിലും ഉപയോഗിക്കുന്നതിനു വേണ്ടി ""ബ്യൂറോ ഓഫ് ഇന്ഡ്യന് സ്റ്റാന്ഡേര്ഡ്'' ഉണ്ടാക്കിയിരിക്കുന്ന ഒരു സ്റ്റാന്ഡേര്ഡാണ് ISCII
(ഇന്ഡ്യന് സ്ക്രിപ്റ്റ് കോഡ് ഫോര് ഇന്ഫൊര്മേഷന് ഇന്റര്ചെയ്ഞ്ച്). ഏഴോ എട്ടോ ബിറ്റുകളോടു കൂടിയ കാരക്ടേറുകളുടെ ഉപയോഗം ഇതില് സാധ്യമാണ്. എട്ടു ബിറ്റുള്ള സാഹചര്യത്തില്, ആദ്യമുള്ള 128 അക്ഷരങ്ങളും വിവര വിനിമയത്തിനായുള്ള IS10315:1982(ISO 646 IRV) ഏഴു ബിറ്റില് രൂപീകരിച്ചിട്ടുള്ള അക്ഷരസെറ്റില് വിവരിച്ചിട്ടുള്ളവ തന്നെയാണ്. ബാക്കിയുള്ള 128 അക്ഷരങ്ങളില് പ്രാചീന ബ്രഹ്മി സ്ക്രിപ്റ്റില് അധിഷ്ഠിതമായ ഭാരതീയ സ്ക്രിപ്റ്റുകള് ഉള്പ്പെടുന്നു. ഒരു ഏഴു ബിറ്റ് സാഹചര്യത്തില് SI എന്ന കണ്ട്രോള് കോഡുപയോഗിച്ച് ISCII കോഡ് സെറ്റിനെ സംബോധന ചെയ്യാം. SO എന്ന കണ്ട്രോള് കോഡുപയോഗിച്ച് ASCII കോഡ് സെറ്റ് വീണ്ടും തിരഞ്ഞെടുക്കാം. ഭാരതത്തില് ഔദ്യോഗിഗമായി അംഗീകരിച്ച് 22 ഭാഷകളുണ്ട്. പേഴ്സോ-അറബിക് സ്ക്രിപ്റ്റുകളല്ലാതെ ഭാരതീയ ഭാഷകള്ക്കുപയോഗിച്ചിട്ടുള്ള 10 സ്ക്രിപ്റ്റുകളും പ്രാചീന/പുരാതന ബ്രഹ്മി സ്ക്രിപ്റ്റില് നിന്നും ഉണ്ടായതാണ്. അവയ്ക്ക് പൊതുവായ സ്വരസൂചക ഘടനയുമുണ്ട്. ഇത് അവയ്ക്ക് പൊതുവായ അക്ഷരം സാധ്യമാക്കുന്നു. വ്യത്യസ്തമായ ഭാരതീയ സ്ക്രിപ്റ്റുകളുടെ ഫോണ്ട്, ദൃശ്യ ആട്രിബ്യൂട്ടുകള് തിരഞ്ഞെടുക്കാനായി ഒരു ആട്രിബ്യുട്ട് മെക്കാനിസം (പ്രവര്ത്തന വിധം) നല്കപ്പെട്ടിട്ടുണ്ട്. ഒരു അനുബന്ധ പ്രവര്ത്തനം ISCII കോഡിനൊപ്പം കൂടുതല് അക്ഷരങ്ങളുടെ ഉപയോഗം സാധ്യമാക്കുന്നു. ISCII കോഡിനൊപ്പം കൂടുതല് വസ്തുക്കള് (characters) ഉപയോഗിക്കാന് ഒരു ചാര്ത്ത് സൂത്രം അനുവദിക്കുന്നു. ബ്രഹ്മി അടിസ്ഥാനമായി ഇന്ഡ്യന് സ്ക്രിപ്റ്റിനാവശ്യമുള്ള എല്ലാ അക്ഷരങ്ങളുടെയും ഒരു സൂപ്പര്സെറ്റാണ് ISCII കോഡ് സെറ്റ്. സൗകര്യത്തിനായി ദേവനാഗിരിയുടെ അക്ഷരമാലയാണ് ഇതിന്റെ മാനം. ISI1319:1991 ആണ് വിവരസാങ്കേതിക വിദ്യയുടെ ഭാരതീയ ഭാഷയിലുള്ള ഉല്പന്നങ്ങള്ക്ക് ഉപയോഗപ്പെടുത്തുന്നത്.
ആല്ഫബെറ്റിക് കോഡ് ഫോര് ഇന്ഫൊര്മേഷന് ഇന്റചേയ്ഞ്ച് (""എയ്-കീ'' ഉച്ചാരണം). ഇത് 8 ബിറ്റുകള് അടങ്ങുന്ന കോഡ് ആണ്. അതില് ആദ്യത്തെ പകുതിയില് ASCII അക്ഷരമാലകള്
ഉള്പ്പെടുത്തിയിട്ടുണ്ട്. രണ്ടാമത്തെ പകുതിയില് ACII സ്ക്രിപ്റ്റ്
കോഡിന്റെ പരിഭാഷ്യമാണ് pc-ACII സ്ക്രിപ്റ്റ് കോഡ്. അതിനെ
IBM PC ക്ക് അനുയോജ്യമായ തരത്തില് മുകളിലത്തെ പകുതിയില്
അക്ഷരങ്ങളെ വിഭജിച്ചിരിക്കുന്നു. മേല്പകുതിയുടെ മധ്യഭാഗത്തുള്ള
രേഖ രചനാക്ഷരങ്ങള് അതേപോലെ നിലനിര്ത്തുന്നതിന് ഈ വിഭജനം
അത്യന്താപേക്ഷിതമാണ്.
സങ്കീര്ണ്ണമായ സ്ക്രിപ്റ്റുകള്ക്ക് ഉചിതമായത് താഴെ പറഞ്ഞിരിക്കുന്ന ആശയങ്ങളാണ്.
ACII- ആല്ഫബെറ്റിക് കോഡ് ഫോര് ഇന്ഫൊര്മേഷന് ഇന്റചേയ്ഞ്ച് സ്ക്രിപ്റ്റിന്റെ അടിസ്ഥാന അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ഒരു കംപ്യൂട്ടര് കോഡാണ് ഇത്. ഒട്ടുമിക്ക സ്ക്രിപ്റ്റുകള്ക്കും ആവശ്യമായ അടിസ്ഥാന അക്ഷരങ്ങളും ചിഹ്നങ്ങളും 96നെക്കാളും കുറവായിരിക്കും (ചൈനീസ് പോലുള്ള
തത്വരേഖാചിത്ര സ്ക്രിപ്റ്റുകള് ഒഴിച്ച്). അടിസ്ഥാന അക്ഷരങ്ങളുടെ
കൂട്ടിച്ചേര്ക്കലിലൂടെയാണ് എല്ലാ സ്ക്രിപ്റ്റുകളുടെയും ആകൃതി പ്രകടിപ്പിക്കുന്നത്. ACII കീബോര്ഡ് ഓവര്േലയിലൂടെ ACII കോഡ് ടൈപ്പ് ചെയ്യാവുന്നതാണ്. നിലവാരമുള്ള ആംഗലേയ കീബോര്ഡാണ് ACII കീബോര്ഡ് ഓവര്േലയ്ക്ക് ഉചിതം. ഓരോ
ASCII അക്ഷരങ്ങള്ക്കും കീബോര്ഡ് ഓവര്ലേയില് ഓരോ അതുല്യമായ സ്ഥാനമാണ്. ഈ പ്രോഗ്രാമുകളാണ് സിദ്ധാന്തങ്ങളുടെ വിലയിരുത്തലിനും വീണ്ടുമുള്ള പുരോഗതിക്കും അടിസ്ഥാനമാകുന്നത്. ഭാഷാ ശാസ്ത്ര സിദ്ധാന്തങ്ങ ള് കൂടാതെ കോഗ്നിറ്റീവ് മനഃശാസ്ത്രത്തിലുള്ള കണ്ടുപിടിത്തങ്ങളും ഭാഷാ ശാസ്ത്ര ശേഷി അനുകരിക്കുന്നതില് പ്രധാന പങ്കു വഹിക്കുന്നു. മനഃശാസ്ത്രത്തില്, സൈക്കോ ലിംഗ്വിസ്റ്റിക്സ് ആണ് പ്രധാനമായും മാനുഷിക ഭാഷാ ഉപയോഗത്തിലെ കോഗ്നിറ്റീവ് (വിജ്ഞാനപരമായ) പ്രക്രിയകള് പരിശോധിക്കുന്നത്. കംപ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സിന്റെ പ്രത്യേക ആകര്ഷണം മാനവികവിഷയങ്ങള്, പ്രകൃതിശാസ്ത്രം, പെരുമാറ്റശാസ്ത്രം, എഞ്ചിനീയറിംഗ് മുതലായവയില് നിന്നുള്ള രീതികളും വൈദഗ്ദ്ധ്യവും ചേരുന്പോഴാണ്
ISFOC- ഇന്റലിജന്സ് ബേസ്ഡ് സ്ക്രിപ്റ്റ് ഫോണ്ട് കോഡ് ഒരു
സ്ക്രിപ്റ്റ് നിര്മ്മിക്കുന്നതിന് ആവശ്യമായ എല്ലാ അടിസ്ഥാന ആകൃതികളും ഉള്പ്പെട്ടിട്ടുള്ള ഒരു കോഡാണ് ISFOC. ഒരു സ്ക്രിപ്റ്റിലെ ഏതൊരു വാക്കുണ്ടാക്കുവാനും ഈ അടിസ്ഥാന ആകൃതികളെ വരിവരിയായി ചേര്ക്കാവുന്നതാണ്. ISFOC-ലെ ഓരോ അക്ഷരവും ഒരു jigsaw കടങ്കഥയിലെ ഒരു അടയാളം പോലെയാണ്; അത് അങ്ങനെതന്നെ നിന്നാല് ഒരു പൂര്ണ്ണമായ അക്ഷരമാവുകയില്ല. ഓരോ ISFOC അക്ഷരമാലയിലും അങ്ങേയറ്റം
188 അക്ഷരങ്ങള് ഉണ്ടാകാം. ഒട്ടുമിക്ക സ്ക്രിപ്റ്റുകള്ക്കും ഇത് മതിയാകും. എങ്ങനെയായാലും ചിലര്ക്ക് കൂടുതല് വേണമെന്നാണ്
ISFA- ഇന്റലിജന്സ് ബേസ്ഡ് സ്ക്രിപ്റ്റു ഫോണ്ട് അല്ഗോരിതം. ഒരു വാക്കിനെ എപ്പോഴും ടൈപ്പ് ചെയ്യുന്നത് അതിന്റെ അടിസ്ഥാന ACII അക്ഷരങ്ങളിലൂടെയാണ്. എങ്ങനെയായാലും, അടിസ്ഥാന ISFOC ആകൃതി ഉപയോഗിച്ചാണ്
കാണിക്കുന്നത്. ASCII കോഡുകളെ അനുയോജ്യമായ ISFOC
കോഡിലേക്ക് മാറ്റാന് ഒരു അല്ഗോരിതം വേണം. അതാണ് ISFA അല്ഗോരിതം.
ACII (ആല്ഫബെറ്റ് കോഡ് ഫോര് ഇന്ഫൊര്മേഷന് ഇന്റചേയ്ഞ്ച്) കോഡില് ACII കീബോര്ഡിലുള്ള എല്ലാ അടിസ്ഥാന അക്ഷരങ്ങളും ഉള്പ്പെടുത്തിയിട്ടുണ്ട്. ഉദാഹരണത്തിന്, ACII ഇന്ഡ്യന് കോഡ് & കീബോര്ഡ് 10 ഇന്ഡ്യന് സ്ക്രിപ്റ്റുകളുടെ ആവശ്യങ്ങള്ക്ക് ഇടം നല്കി: ആസാമീസ്, ബംഗാളി, ദേവനാഗരി, ഗുജറാത്തി, കന്നട, മലയാളം, ഒറിയ, പഞ്ചാബി, തമിഴ് & തെലുങ്ക്.
നേരിട്ടു ക്രമീകരിച്ചാല് ഫലം കിട്ടുന്ന രീതിയില് അടിസ്ഥാന അക്ഷരങ്ങളെ ക്രമീകരിച്ചിരിക്കുന്നു; ഇത് എല്ലാ സ്ക്രിപ്റ്റുകളിലും
ഏകദേശം ഒരുപോലെയായിരിക്കും. ഡിസ്പ്ലേ ചെയ്യുന്നതിനുവേണ്ടി
ACII കോഡുകളെ ISFOC-ലേയ്ക്കു മാറ്റേണ്ടതാണ്. സ്ക്രിപ്റ്റിനനുസരിച്ചുള്ള ഒരു ISFA അല്ഗോരിതം ഉപയോഗിച്ചാണ് ഇത് ചെയ്യുന്നത്. ഒരു ACII ടെക്സ്റ്റ് ഏതു സ്ക്രിപ്റ്റ് ഉപയോഗിച്ചും കാണാവുന്നതാണ്. ഒരു സ്ക്രിപ്റ്റിനെ
മറ്റൊന്നിലേക്ക് മാറ്റുവാന് വേണ്ടി ആ സ്ക്രിപ്റ്റിനെ ഒന്നു തിരഞ്ഞെടുത്താല് മതിയാകും. ACII കോഡ് ആശയവിനിമയ
മാധ്യമത്തില് ഉപയോഗിക്കുന്നു. ടെലക്സ് പോലെ, ഏറ്റവും നന്നായി
ടെക്സ്റ്റ് കൈമാറുന്നതിനു വേണ്ടി, പ്രത്യേകമായ അക്ഷരക്രമവും
അക്ഷരങ്ങള് തിരുത്തുന്നതിനും വേണ്ടി ALP വേര്ഡ് പ്രോസസ്സര് ACII കോഡ് ഉപയോഗിക്കുന്നു.
ഡിസ്പ്ലേക്ക് ഒരു ഇന്റലിജന്റ് അല്ഗോരിതം വേണമെന്നതിനാല്,
നിലവിലുള്ള വിന്ഡോസ് ആപ്ലിക്കേഷന്സിന് ACII കോഡ് കൈകാര്യം ചെയ്യാനാവില്ല. എന്നാല്, അവയ്ക്ക് ഇതിനുവേണ്ടി ഉണ്ടാക്കിയിട്ടുള്ള ISFOC കോഡ് കൈകാര്യം ചെയ്യാനാകും.
ഇതിനാല്, എപ്പോഴൊക്കെ ഒരു ALPയില് നിന്ന് വിന്ഡോസ് ആപ്ലിക്കേഷനിലേയ്ക്ക് ടെക്സ്റ്റ് കൈമാറുന്നുവോ അപ്പോഴൊക്കെ, ACII യില് നിന്ന് ISFOC-ലേയ്ക്ക് മാറ്റേണ്ടതായി വരും. ഒരു ACII കീബോര്ഡ് ഉപയോഗിച്ച്, ഒരു വിന്ഡോസ് ആപ്ലിക്കേഷനില്
നിന്ന് നേരിട്ട് ISFOC ടെക്സ്റ്റ് ടൈപ്പ് ചെയ്യാവുന്നതാണ്. ACII-യെ ISFOC-ലേയ്ക്ക് മാറ്റാന് കഴിയുന്ന ഒരു കീബോര്ഡ് ഡ്രൈവറുടെ സഹായത്താലാണ് ഇത് സാധ്യമാകുന്നത്.
സ്ക്രിപ്റ്റ് അക്ഷരമാല:
ഇടയ്ക്കിടെ ഉപയോഗിക്കാനിടയുള്ള മിക്ക അക്ഷരങ്ങളെയും ചിഹ്നങ്ങളെയും സംഖ്യകളെയും ഉള്പ്പെടുത്തിയിട്ടുള്ള പ്രാഥമിക അക്ഷരമാലയാണിത്. കുറച്ചു വ്യത്യാസത്തോടെ, ഈ അക്ഷരമാല എല്ലാ ISFOC അക്ഷരമാലകളിലും പൊതുവായി ഉള്പ്പെട്ടിരിക്കുന്നു
അനുബന്ധ ആംഗലേയ അക്ഷരമാല:
മേല് പകുതിയില് Roman Transliteration-വേണ്ടിയുള്ള accent അക്ഷരങ്ങളും താഴെ പകുതിയില് ASCII അക്ഷരങ്ങളും
വരുന്ന ആംഗലേയ അടയാളങ്ങളെ ചേര്ച്ചപ്പെടുത്തുന്നതിനുള്ള അക്ഷരമാല.
അനുബന്ധ അക്ഷരമാല:
സാധാരണയായി ഉപയോഗിക്കാത്ത കൂട്ടക്ഷരങ്ങളെയും ചിഹ്നങ്ങളെയും അടിസ്ഥാന അക്ഷരമാലയിലുള്പ്പെടുത്തി വിപുലമാക്കിയ അക്ഷരമാല.
ഈ പാഠം സങ്കീര്ണ്ണമായ സ്ക്രിപ്റ്റുകള് നിര്മ്മിക്കുന്നതിനുള്ള
അടിസ്ഥാനതത്ത്വങ്ങളെ ഓരോന്നായി വിശദീകരിക്കുന്നു.
സ്ക്രിപ്റ്റ് നിര്മ്മാണ തത്വം
സ്വാഭാവികയുക്തിയാല് ഒരു വാക്കിനെ ഉച്ചാരണമനുസരിച്ച് എഴുതാം.
അടിസ്ഥാന അക്ഷരങ്ങളെ ഉച്ചാരണക്രമമനുസരിച്ച് ഒരു വാക്കില്
ഉള്പ്പെട്ടിരിക്കുന്നു. അവശ്യ പ്രത്യേക അടയാളങ്ങളും, ചിഹ്നങ്ങളും,
ഒരു സ്ക്രിപ്റ്റിലെ അടിസ്ഥാന അക്ഷരങ്ങളും ചേര്ന്നതാണ് ACII
(ആല്ഫബെറ്റ് കോഡ് ഫോര് ഇന്ഫൊര്മേഷന് ഇന്റചേയ്ഞ്ച്) ACII-യിലെ അക്ഷരങ്ങളെ അക്ഷരമാലാക്രമമനുസരിച്ചാണ് ക്രമീകരിച്ചിരിക്കുന്നത്. ACII-യില് ASCII അക്ഷരമാലയും ഉള്പ്പെട്ടിട്ടുണ്ട്.
ഒരു സ്ക്രിപ്റ്റില് ലഭ്യമായ അടയാളങ്ങളെ വരിവരിയായി ചേര്ത്ത്
ഒരു വാക്ക് ഉണ്ടാക്കാവുന്നതാണ്.
ഒരു സ്ക്രിപ്റ്റിന്റെ ISFOC-ല് ഈ അടിസ്ഥാന അടയാളങ്ങള്/ആകൃതികള് ലഭ്യമാണ്. ഈ ആകൃതികള് നേരിട്ട് ടൈപ്പ്ചെയ്യുവാന് പ്രയാസമേറിയവയാണ്.
ഒരു ഇന്റലിജന്റ് സ്ക്രിപ്റ്റ് ടു ഫോണ്ട് അല്ഗോരിതത്തിന് ACII അക്ഷരക്രമം മനസ്സിലാക്കുവാനും, ആ വാക്ക് പ്രദര്ശിപ്പിക്കാനുമുള്ള
ISFOC കോഡ് അനുക്രമം ഉണ്ടാക്കുവാനും കഴിയും.
ഇംഗ്ലീഷ് പോലെ ലഘുവായ ഒരു സ്ക്രിപ്റ്റിന്, ASCII-യ്ക്കും, ISFOC-നും വേണ്ടി അതിന്റെ ASCII കോഡ് തന്നെ മതിയാകും.
എന്നാല്, ഭാരതീയ സ്ക്രിപ്റ്റ് പോലെ വളരെ സങ്കീര്ണ്ണമായതും വരിവരിയായി രേഖപ്പെടുത്തുവാന് കഴിയാത്തതുമായ സ്ക്രിപ്റ്റുകള്ക്ക് വെവ്വേറെ ACII,ISFOC-കോഡുകളും ഒരു
ISFA അല്ഗോരിതവും ആവശ്യമാണ്.
ISFOC സ്റ്റാന്ഡേര്ഡ്സ്
പ്രത്യേക ശൈലിയിലുള്ള ആകൃതികളുടെ രൂപരേഖ തയ്യാറാക്കുന്നതിനെ, അടിസ്ഥാന ആകൃതികള്ക്കും അവയുടെ ചേര്ക്കലുകളെയും സംബന്ധിച്ച സ്ക്രിപ്റ്റ് സ്റ്റാന്ഡേര്ഡ്സ് സഹായിക്കുന്നു.
ആവശ്യമായ അടിസ്ഥാന ആകൃതികളെ നിര്വചിക്കുന്നതുവഴി ISFOC ആധുനിക സ്ക്രിപ്റ്റ് നിര്മ്മാണശൈലിയെ പ്രതിനിധീകരിക്കുന്നു.
സ്ക്രിപ്റ്റില്, വിപുലവും വൈവിധ്യവുമാര്ന്ന ആകൃതിശൈലികളെ പ്രതിനിധീകരിക്കാവുന്ന തരത്തിലാണ് അടിസ്ഥാന ആകൃതികളെ തിരഞ്ഞെടുത്തിരിക്കുന്നത്.
ഒരു സ്ക്രിപ്റ്റിന്റെ ISFOC ഒരു ISFAയുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. അത്, അടിസ്ഥാന ആകൃതികള് ഉപയോഗിച്ച് ഒരു വാക്ക് ഉണ്ടാക്കുന്നതിനുള്ള ശാസ്ത്രീയമായ രീതി പ്രതിപാദിക്കുന്നു
ഒരു സ്ക്രിപ്റ്റിന്റെ എല്ലാ ആകൃതീശൈലികളും പരസ്പര അനുരൂപങ്ങളാണ്. ഒരാളിന് തനിക്ക് താത്പര്യമുള്ള ആകൃതീശൈലിയിലുള്ള ടെക്സ്റ്റ് കാണാന് സാധിക്കും.
ISFOC ആകൃതീശൈലികള്, വരിവരിയായി ചേര്ക്കാവുന്നതായതിനാല് അവയെ നിലവിലുള്ള ആംഗലേയ ആപ്ലിക്കേഷനുകള്ക്കുമൊപ്പം ഉപയോഗിക്കാവുന്നതും, നിലവിലുള്ള
ടൈപ്പ് സെറ്റേഴ്സും ലേസര് പ്രിന്റേഴ്സിനുമൊപ്പം ഉപയോഗിക്കാവുന്നതുമാണ്.
രേഖാചിത്രീകരണം ലക്ഷ്യമാക്കിയുള്ള MS-Windows-ലും Macintosh-ലുമുള്ള സങ്കീര്ണ്ണമായ സ്ക്രിപ്റ്റുകളെ ഉള്പ്പെടുത്തിയിട്ടുള്ള കോഡ് ISFOC നല്കുന്നു.
സ്വാഭാവികമായ രീതിയില് ഒരാളിന് ACII കീബോര്ഡ് ഉപയോഗിച്ച്
പ്രവര്ത്തിക്കാവുന്നതും മനോഹരവുമായ സ്ക്രിപ്റ്റ് നിര്മ്മാണരീതി ISFOC നല്കുന്നു.
മിക്കവാറും എല്ലാ പ്രമുഖ IT കന്പനികളും അവരുടെ പിന്തുണ പ്രഖ്യാപിച്ചിരിക്കുന്ന സാഹചര്യത്തില് ഇന്ഫൊര്മേഷന് ഇന്റചേയ്ഞ്ച് വേള്ഡ് വൈഡിന്റെ നിലവാരത്തിലേയ്ക്ക് യൂണികോഡിനെ കൂടുതലായി അംഗീകരിച്ചിരിക്കുന്നു. ഏറ്റവും പുതിയ ഔദ്യോഗിക നിലവാരമനുസരിച്ച് ഭാരതീയ ഭാഷകളിലെ യൂണിക്കോഡ് ഉപയോഗിക്കുന്നത് ISCII-88 ആണ്, അല്ലാതെ ISCII-91 അല്ല.
ഭാരതീയ ഭാഷാ സ്ക്രിപ്റ്റുമായി ബന്ധപ്പെട്ട കോഡില് ആവശ്യമായ വ്യത്യാസങ്ങള് വരുത്തുന്നതിനായി യൂണിക്കോഡ് കണ്സോര്ട്ടിയം ഭാരത സര്ക്കാര് പ്രതിനിധീകരിക്കേണ്ട ആവശ്യകത നിലനില്ക്കുന്നു. അതിനാല് വിവരസാങ്കേതിക വകുപ്പ് വോട്ടവകാശത്തോടു കൂടി യൂണിക്കോഡ് കണ്സോര്ട്ടിയത്തിന്റെ മുഴുവന് അംഗമായി.
16 ബിറ്റ് (2 ബൈറ്റ്) യൂണിക്കോഡ്
യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് എന്നത് യൂണിവേഴ്സല് ക്യാരക്ടര് എന്കോഡിങ് സ്റ്റാന്ഡേര്ഡ് ആണ്. കംപ്യൂട്ടര് പ്രക്രിയയില് ടെക്സ്റ്റിനെ പ്രതിനിധീകരിക്കാന് ഇതിനെ ഉപയോഗിക്കുന്നു. ലോകത്തിലെ ലിഖിത ഭാഷകളിലെ എല്ലാ അക്ഷരങ്ങളെയും ക്രോഡീകരിക്കാനുള്ള പ്രാപ്തി യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് നല്കുന്നു. അക്ഷരത്തിനെയും അതിന്റെ ഉപയോഗത്തിനെയും കുറിച്ചുള്ള വിവരങ്ങള് യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് നല്കുന്നു. വിവിധ ഭാഷാ ടെക്സ്റ്റുമായി ബന്ധപ്പെട്ട് കംപ്യൂട്ടര് ഉപയോഗിക്കുന്നവര്, വ്യാപാരികള്, ഭാഷാ ശാസ്ത്രജ്ഞര്, ഗവേഷകര്, ശാസ്ത്രജ്ഞര്, ഗണിതശാസ്ത്രജ്ഞര്, സാങ്കേതികവിദഗ്ദര് തുടങ്ങിയവര്ക്ക് യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ്
ഉപയോഗപ്പെടുന്നു. 65000 (65536)-ലധികം അക്ഷരങ്ങളെ ക്രോഡീകരിക്കാന് 16 ബിറ്റ് ക്രോഡീകരണം യൂണിക്കോഡ് ഉപയോഗിക്കുന്നു. ഓരോ അക്ഷരത്തിനും ഓരോ പ്രത്യേക വിലയും
പേരും യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് നിര്ദ്ദേശിച്ചിരിക്കുന്നു. മില്ലിയണ് കണക്കിന് ക്രോഡീകരണം അനുവദിക്കുന്ന UTF-16 എന്ന വിപുല പ്രക്രിയ, യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡും ISO10646 സ്റ്റാന്ഡേര്ഡും ചേര്ന്ന് നല്കുന്നു. ഇപ്പോള് 49194അക്ഷരങ്ങള്ക്കുള്ള കോഡ് യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് നല്കുന്നു.
അക്ഷരങ്ങളുടെ ക്രോഡീകരണ ദൃഢതയെ സംബന്ധിക്കുന്ന ചില നയങ്ങള് യൂണിക്കോഡ് കണ്സോര്ട്ടിയം നടപ്പാക്കിയിട്ടുണ്ട്. ഇതില്
അക്ഷരങ്ങള് കളയാനോ അക്ഷരത്തിന്റെ പേര് മാറ്റാനോ സാധിക്കുകയില്ല. അതിലെ വ്യാഖ്യാനങ്ങള് മാറ്റാന് മാത്രമേ സാധിക്കുകയുള്ളൂ.
1 ഒരിക്കല് ഒരു അക്ഷരം കോഡ് ചെയ്യപ്പെട്ടു കഴിഞ്ഞാല്, അതിനെ നീക്കാനോ മാറ്റാനോ കഴിയില്ല.
2. ഒരിക്കല് ഒരു അക്ഷരം കോഡ് ചെയ്യപ്പെട്ടു കഴിഞ്ഞാല്, അതിന്റെ അക്ഷരനാമം മാറ്റാന് കഴിയില്ല.
3. ഒരിക്കല് ഒരു അക്ഷരത്തിന്റെ കോട് രുപീകരണം കഴിഞ്ഞാല് അതിന്റെ നിയമപരമായി യോജിപ്പിക്കപ്പെട്ട വിഭാഗവും വിഘടനവും (നിയമപരമായതോ യോജിക്കുന്നതോ) സാധാരണാവസ്ഥയെ ബാധിക്കുന്ന രീതിയില് മാറുകയില്ല.
4. ഒരിക്കല് ഒരു അക്ഷരം കോഡ് ചെയ്യപ്പെട്ടു കഴിഞ്ഞാല്, അതിന്റെ
അടിസ്ഥാന സ്വഭാവത്തിന് മാറ്റം വരാത്ത രീതിയില് അതിന്റെ സ്വഭാവഗുണങ്ങള്ക്ക് മാറ്റം വരുത്താവുന്നതാണ്.
5. യൂണിക്കോഡ് അക്ഷര ഡേറ്റാബേസിലുള്ള ചില സ്വഭാവഗുണ വിലകളുടെ ഘടനയില് മാറ്റം വരുകയില്ല.
65000(65536)-ലധികം അക്ഷരങ്ങളെ ക്രോഡീകരിക്കാന് 16 ബിറ്റ് ക്രോഡീകരണം യൂണിക്കോഡ് ഉപയോഗിക്കുന്നു. യൂണിക്കോഡ്
സ്റ്റാന്ഡേര്ഡ് ഓരോ വസ്തുവിനും ഒരു പ്രത്യേക വിലയും നാമവും നല്കുന്നു. ലോകത്തിലെ എല്ലാ ഭാഷകളിലേയും അക്ഷരങ്ങളെ ക്രോഡീകരിക്കാന് യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ്
പ്രാപ്തമാണ്.
ISCII, 8ബിറ്റ് കോഡ് ഉപയോഗിക്കുന്നു. ഇത് 7 ബിറ്റ് ASCII കോഡിന്റെ അനുബന്ധമാണ്. ഇന്ഡ്യയില് ഔദ്യോഗികമായി അംഗീകരിച്ച 22 ഭാഷകളുണ്ട്. ഈ ഭാഷകളെല്ലാം പത്ത് പുരാതന
ബ്രഹ്മി ലിപികളില് നിന്നാണ് ആവിര്ഭവിച്ചത്. അതിനാല് ഇന്ഡ്യന് ഭാഷകള്ക്കെല്ലാം ഒരു പൊതു ശബ്ദഘടനയും അക്ഷരക്രമവും ഉണ്ട്. ASCII കോഡ് ആണ് ബ്രഹ്മി ലിപികളുടെ പേര്ഷ്യന്-അറബി ലിപികള് ഒഴികെ മൂലാക്ഷരങ്ങള് ഉണ്ടാക്കുവാനായി
ഉപയോഗിക്കുന്നത്. സൗകര്യാര്ത്ഥം ISCII കോഡ് ഔദ്യോഗിക ദേവനാഗരി ലിപിയിലെ അക്ഷരങ്ങളാണ് ഉപയോഗിച്ചിരിക്കുന്നത്.
 |
ഏതെല്ലാം കീബോര്ഡ് ലേഔട്ട്സ് ആണ് ഇന്ഡ്യന് ഭാഷകള് ടൈപ്പ്ചെയ്യുവാനായി ഉപയോഗിക്കുന്നത് ?? |
 |
മൂന്ന് വ്യത്യസ്തമായ കീബോര്ഡ് വിന്യാസമാണുള്ളത്.
1. റോമന് വിന്യാസം:- ഹിന്ദി വിവരണം ഇംഗ്ലീഷ് അക്ഷരങ്ങള്കൊണ്ട് ഉണ്ടാക്കുന്നു. ഉദാ: raama to type 'Rama'
2. ടൈപ്പ്റൈറ്റര് വിന്യാസം:- ഹിന്ദി ടൈപ്പ്റൈറ്റര് പോലെ, ഹിന്ദി അക്ഷരങ്ങളും സൂചികകളും ഉപയോഗിച്ച് ടൈപ്പ്റൈറ്റര് വിന്യാസവും കീക്രമചാര്ട്ടുകളും.
3. DOE ശബ്ദവിന്യാസം:- ഇന്ഡ്യ ഗവ: ന്റെ ഇലക്ട്രോണിക്സ് വിഭാഗം രൂപപ്പെടുത്തിയതാണ് ഇത്. എല്ലാ ഇന്ഡ്യന് ഭാഷകളിലേയും സമാന അക്ഷരങ്ങള് ഇത് ഉപയോഗിച്ച് എഴുതാം.
ഉദാ: 'k' for 'ka' in any language.
അതനുസരിച്ചാണ് അക്ഷരങ്ങളും സൂചികകളും ഒരുമിച്ചോ അല്ലാതെയോ ക്രമീകരിച്ചിരിക്കുന്നത്.