October 24, 2020

தமிழ் மொழியில் கணினித் தொழில் நுட்ப வளர்ச்சி

தமிழ் மொழியில் கணினித்  தொழில் நுட்ப வளர்ச்சி

முனைவர். க. ஜானகி

ஆய்வு வளமையர்

தமிழ் இணையக் கல்விக்கழகம்

கோட்டூர், சென்னை.25

மின்னஞ்சல்: janutamil1507@gmail.com

முன்னுரை

           தமிழ் மொழி அச்சு இயந்திரம் தோன்றிய காரணத்தால்தான் இன்று தமிழ் எழுத்துலகில் நீடித்து வளர்ந்து வந்துள்ளது. அதுபோன்று கணிப்பொறியில் உரிய இடத்தைத் தமிழ் பெற்றால்தான் அடுத்தக் கட்ட வளர்ச்சிக்குத் தமிழ் செல்லும் என்பதை நாம் நினைவில் கொள்ள வேண்டும். தமிழுக்கு எழுத்துருவை  உருவாக்கிக் கணிப்பொறியில் பார்ப்பதோடு நிறுத்திக்கொள்ளாமல், பல்வேறு உயர்நிலைத் தமிழ் மென்பொருள் உருவாக்கத்தில் கவனம் செலுத்தவேண்டும். எனவே, தமிழ் ஆய்வாளர்கள், தமிழ் ஆர்வலர்கள்  கணினி மொழியியல் மற்றும் மொழித் தொழில்நுட்பம் அடிப்படையில் தமிழ் ஆய்வை மேற்கொள்ள வேண்டும்.  உயர்நிலைத் தமிழ் மென்பொருட்கள் உருவாக்கத்திற்குத் தேவையான தமிழுக்கான அடிப்படை மொழித் தொழில்நுட்ப மென்பொருள் கருவிகள் உருவாக்கப்பட வேண்டும்.

தொடக்க காலத்தில்  ஒரு சிலர் மட்டுமே தமிழ்மொழியைக் கணினியில்  பயன்படுத்தி வந்துள்ளனர். ஆனால் இன்றைய சூழலில் தமிழ்மொழிக் கணினியில் எவ்வாறு வளர்ந்து வருகின்றது   என்பதை விளக்குவதே  இக்கட்டுரையின் நோக்கமாக அமைகிறது.

குறிப்புச் சொல் : கணினி மொழியியல், சொற் பகுப்பான், சொல் உருவாக்கி, தொடர் பகுப்பான்,  தொடர் உருவாக்கி,  விரிதரவு மொழியியல், பொருண்மையியல்

மொழித் தொழில்நுட்பம்

           தொழில்நுட்பம் என்பது மனித வாழ்க்கையின் நடைமுறை நோக்கங்களுக்கு அறிவியல்  அறிவைப் பயன்படுத்துதல் ஆகும். கணினித் துறையில் மனித மொழிகளின் பல்வேறு செயல்பாடுகளுக்காக மென்பொருள் மற்றும் வன்பொருள்களை உருவாக்கும் தொழில்நுட்பமே மொழித்தொழில் நுட்பம் என அழைக்கப்படுகிறது.  எடுத்துக்காட்டாக, கணினியில் தமிழைத் தட்டச்சு செய்து, அதைச் சொல் திருத்தி, இலக்கணத் திருத்தி போன்றவற்றின் மூலம் செம்மை செய்யும் சொல்லாளர் மென்பொருள் (Word Proessor)  மொழித் தொழில்நுட்பத்தின் ஒரு முதன்மைப் பொருளாகும்.

தமிழ்மொழித் தொழில் நுட்ப வளர்ச்சியின் இன்றைய நிலை

           ஆரம்பக் காலக்கட்டத்தில் கணினியில் தமிழை உள்ளீடுச் செய்ய எந்த வாய்ப்புகளும் இல்லை. தமிழ் எழுத்துருக்கள் (Fonts), விசைப்பலகைகள் (key board)  உருவாக்கப்படவில்லை.  முதலில், தமிழ் உரைகளை ரோமன் எழுத்துக்களில்  உள்ளீடுச் செய்த பின்னர்  தமிழ் எழுத்துருக்களில் மாற்ற ஒரு வாய்ப்பு ஏற்பட்டது.

           கணினிக்குக் கொடுக்கப்படும் எழுத்துக்கள் எம்மொழி எழுத்தாக இருந்தாலும் 0,1 என்ற எண்களை மட்டுமே உள்ளீடாகக் கணினி எடுத்துக்கொள்ளும். கணினியில் உள்ளீடுச் செய்யப்படும் கட்டளைகளை எழுத்துக்களாக மாற்றிக்காட்ட எழுத்துருக்கள் பயன்படுத்தப்பட்டன. அவை 7 பிட்டு (எ.கா. 1000001), 8 பிட்டு (00001111) என்ற இரும எண் குறியீட்டு முறையில் உள்வாங்கிக் கொள்ளப்பட்டுக் கணினி மொழிகளாக மாற்றம் பெற்றன. கணினி மொழியியல் ஒவ்வொரு  எழுத்தும் ஒரு பைட்டாகக் கணக்கிடப்பட்டது.  ஆங்கில எழுத்திற்கான எழுத்துரு வடிவமான ஆஸ்கி (ASCII) அமைப்பு உருவாக்கப்பட்டது. ஆஸ்கியில்  ஆங்கில எழுத்துக்கள்  போக மீதமுள்ள 128-255 வரையிலான இடங்களில் இந்திய மொழிகளின் எழுத்துக்களை ஒன்றிணைத்து பொதுவான முறை உருவாக்கப்பட்டது, இதற்கு இஸ்கி ( ISCII) என்று பெயரிட்டனர்.  இஸ்கி முறை தமிழ் விசைப்பலகையில் எழுத்துருக்களைக் கொண்டு வருவதற்கு முன்னோயாக அமைந்தது. இஸ்கியில் மென்பொருள் பொறியாளர்களின் உதவியுடன் தமிழறிஞர்களால் வடிவமைக்கப்பட்ட தமிழ் வடிவ எழுத்துக்கள் பயன்படுத்தப்பட்டன.

           தமிழ் லெசர், அணங்கு, ஆதமி, ஆதவின், திருவின், மயிலை, அஞ்சல், சரஸ்வதி, கணியன், வானவில் போன்ற எழுத்துருக்களைப் பல வல்லுநர்கள்  உருவாக்கினர். இதனால் ஒருவர் தட்டச்சு செய்வதை அதே எழுத்துரு இருப்பவர் வைத்திருந்தால் மட்டுமே கணினியில் பார்க்க முடியும்  என்ற நிலை ஏற்பட்டது. இந்நிலையில்தான், டிஸ்கி (TSCII) என்ற எழுத்துரு உருவாக்கப்பட்டது. இது தமிழ்மொழியில் ஏற்பட்ட அடுத்தக் கட்ட வளர்ச்சியாக இருந்தது.  தற்போது நடைமுறையில் யூனிக்கோடு  முறை அனைவராலும் ஏற்றுக்கொள்ளக்கூடியதாக உள்ளது.  இதுபோன்ற முயற்சிகளினால் கணிப்பொறிக்கும் நமக்கும் இடையில் தமிழ் பயன்படத் தொடங்கியது. பின்னர்தான், தமிழைக் கணிப்பொறியில் பார்க்கத் தொடங்கினோம். அதாவது பயன்பாட்டாளர் இடையூடகம் (User interface) என்ற அடிப்படையில் தமிழ்ப் பயன்படத் தொடங்கியது. பல கணினி  மென்பொருள்களில் தமிழ் எழுத்துக்கள் நடைபோடத் தொடங்கின. இந்த வளர்ச்சியைத் தமிழ் வாயிலாகக் கணிப்பொறியின் பயன்பாடு என்று அழைக்கலாம்.  தமிழுக்கு என்று சொல்லாளர்கள்  (Word Processor) பல உருவாக்கப்பட்டு பயன்பாட்டில் உள்ளன. பேச்சறிவான் (Speech recognizer), எழுத்து- பேச்சு மாற்றி (Text-to Speech transferer), இணையத் தேடுவான் (Search engine)  போன்ற பலமொழிசார் மென்பொருள்கள் தமிழுக்கு உருவாக்கப்பட்டு வருகின்றன. சொற்பிழை அல்லது இலக்கணப் பிழை ஏற்பட்டால் தானாக அவற்றைத் திருத்தித் தரும் சொல்லாளர்கள் உருவாக்கப்பட்டு வருகின்றன. இதுபோன்ற தமிழ் மென்பொருள்களைத் (Software) தமிழுக்கான மென்பொருட்கள் என்று அழைக்கலாம். இவ்வகை மென்பொருட்கள் உருவாக்கப்படுவதில் இருந்த தடைகள் தற்போது நேர் செய்யப்பட்டுள்ளன.    தமிழுக்கு ஒரு நல்ல சொல்திருத்தி (Spell  checker)  உருவாக்கப்படவேண்டும் என்றால் தமிழ்ச் சொற்களின் பண்பு மற்றும் அமைப்பைப் பற்றி தெளிவாகத் தமிழ்மொழி அறிஞர்கள் முன்வைக்கும்போதுதான், அதை அடிப்படையாகக் கொண்டு,  கணிப்பொறித்துறை வல்லுநர்கள்  சொல்திருத்தி மென்பொருளைத் தமிழுக்கு உருவாக்க முடியும். தமிழில் பெயர்ச்சொற்கள் எந்தெந்த விகுதிகளை எடுக்கும், எந்த வரிசையில் எடுக்கும், எவ்வாறு அவற்றை இணைத்து ஒரு முழுச் சொல்லை உருவாக்குவது, எவ்வாறு தமிழ்ச் சொற்களைப் பகுபத உறுப்புகளாகப் பிரிப்பது போன்ற உண்மைகளை எல்லாம் தெள்ளத் தெளிவாக அறிவியல் பூர்வமாகத் தமிழ் மொழி அறிஞர்கள் எடுத்துச்சொன்னால், கணிப்பொறித்துறை வல்லுநர்கள் அவற்றை அடிப்படையாகக் கொண்டு சொல்திருத்தி மென்பொருட்களை உருவாக்க இயலும். மொழி அறிஞர்கள் தாங்கள் கண்டறிந்த உண்மைகளைக் கணிப்பொறிக்குப் புரியும் வகையில் மாற்றி அமைத்துக்கொடுத்தால் தான் கணிப்பொறி வல்லுநர்களின் வேலை எளிதாகும். இதுபோன்ற இலக்கணங்களைக் கணினி இலக்கணம் (Computational grammar) என்று அழைப்பார்கள். தமிழில் இத்தகைய முயற்சி மேற்கொள்ளப்பட்டு வெற்றி அடைந்துள்ளன. தற்போது பல்வேறு நோக்கில் பல கணினி இலக்கணங்கள் உருவாக்கப்பட்டுள்ளன. இதன் காரணமாக நல்ல சொல்லாளர்கள், பேச்சறிவாளர்கள், எழுத்து- பேச்சு மாற்றிகள், இணையத் தேடுவான்கள், இயந்திர மொழிபெயர்ப்பிகள் போன்ற மென்பொருட்கள் உருவாக்கப்பட்டு செயல்படுத்தப்பட்டு வருகின்றன. இவ்வாறு  கணிப்பொறி நோக்கில் மொழியாய்வு செய்யப்படுவதால் இவ்வாய்வு கணினிமொழியியல் என்று அழைக்கப்படுகிறது. தமிழ்க் கணினிமொழி மொழியியல் வளர்ச்சி அடைந்து தமிழுக்கான பல மென்பொருட்கள் உருவாக்கப்பட்டு வருகின்றன. இதுவே கணிப்பொறியில் உயர்நிலைத் தமிழ்மொழிப் பயன்பாடாகும். தமிழ் எழுத்துருக்களை (fonts)  உருவாக்கி, கணிப்பொறியில் பிற மென்பொருட்களோடு உறவாடும் நிலையிலிருந்து (User interface) அடுத்தக் கட்ட நிலைக்கு நாம் சென்று கொண்டிருக்கின்றோம்.  மொழித் தொழில்நுட்பம் இன்று உலகளவில்  நன்கு  வளர்ச்சி அடைந்துள்ளது. இதற்கு என்று தனித்துறைகள் பல்வேறு பல்கலைக்கழகங்களில் உருவாக்கப்பட்டுச் செயல்பட்டு வருகின்றன.  

தமிழ் மொழியிலும், கணினி மொழியியல் கோட்பாடுகளின் அடிப்படையில்  பல ஆய்வுகள் மேற்கொள்ளப்பட்டு வருகின்றன. தமிழுக்குச் சொற்பகுப்பான் (morphological parser), சொல் உருவாக்கி (Word generator), தொடர் பகுப்பான் (Syntactic parser), தொடர் உருவாக்கி  (Sentence generator)  போன்ற அடிப்படை மொழித் தொழில்நுட்ப மென்பொருள் கருவிகள் உருவாக்கப்படுவதும் பௌதிக ஒலியியல் அடிப்படையிலான தமிழ்ப்பேச்சொலி ஆய்வு, பொருண்மையியல் (Semantics) அடிப்படையிலான ஆய்வு, விரிதரவு மொழியியல் ஆய்வு (corpus linguistics) போன்றவை மேற்கொள்ளப்படுவதும் கணினித் தமிழ் வளர்ச்சிக்கு இன்றியமையாதன.  இக்கூறுகள் இன்றி தமிழுக்கு உயர்நிலையில் மென்பொருட்கள் உருவாக்க முடியாது. கணிப்பொறி மயமாக உள்ள இன்றைய உலகில், உயர்நிலைத் தமிழ் மென்பொருட்கள் தமிழுக்கு உருவாக்கப்படாமல் உலக அளவில் மற்ற மொழிகளுக்கு இணையாகத் தமிழ் அடுத்தக் கட்ட வளர்ச்சியை எட்ட இயலாது.

மொழி ஆய்விற்குத் தேவைப்படும் கருவிகள்

மொழியாய்விற்குத் தேவைப்படும் கருவிகளாகப் பின்வருவனவற்றைப்    பட்டியலிடலாம்: அகராதிகள், சொற்களஞ்சியங்கள், சொல்வலை, சொல்வங்கி, தகவல்தளம், கிளைப்பட வங்கி, பெருந்தரவு இவற்றையெல்லாம் அடிப்படையாகக் கொண்டு  ஒரு உரையின் சொல்லடைவைக் கணிப்பொறியில் தயாரிக்கலாம். 

முடிவுரை

           தமிழைப் பொதுபயன்பாட்டின் அடிப்படையில் கணினியில்  உள்ளீடுச் செய்தால்தான் தமிழின் இலக்கண இலக்கியங்களின்  நிலைப்புத் தன்மையை உலகறியச் செய்யமுடியும்.

துணை நூற்பட்டியல்

  1. இராஜேந்திரன், ச.,  மொழி ஆய்வில் கணிப்பொறியின் பயன்பாடு, அன்னை அகரம் பதிப்பகம், தஞ்சாவூர்
  2. பாஸ்கரன், ச., 2004 தமிழில் கணிப்பொறியியல், கணிப்பொறியில் தமிழ், உமா பதிப்பகம், தஞ்சாவூர்
  3. பொன்னவைக்கோ, மு., இணையத் தமிழ் வரலாறு
  4. இராதா செல்லப்பன், தமிழும் கணினியும், கவிதை அமுதம் வெளியீடு, திருச்சி.

error: Content is protected !!