இயற்கை மொழிச் செயலாக்கங்களின் தற்போதைய போக்குகள் மற்றும் சவால்கள்

முனைவர்.மோ.ஜெயகார்த்திக்

உதவி இயக்குநர்

உதவி இயக்குநர் (கல்வி) தமிழ் இணையக் கல்விக்கழகம் கோட்டூர், சென்னை.25

Summary

இயற்கை மொழி செயலாக்கம் (Natural Language Processing) என்பது கணினி விஞ்ஞானத்தில் அதிக ஆராய்ச்சிகளை உள்ளடக்கிய ஒரு துறையாகும். NLP கணினிகள் மற்றும் மனித மொழிகளுக்கிடையில் ஒரு பரஸ்பர தொடர்பினை ஏற்படுத்துகின்றது. இயற்கை மொழி ஆய்வு குறியீடுகள் மற்றும் செயற்பாட்டு தொகுப்புகள் மற்றும் மாதிரி தரவுகள் என்பனவற்றைத் தன்னகத்தே உள்ளடக்கி இருப்பதால் இயற்கை மொழி செயலாக்கத்தை (Natural Language Processing) எளிதில் நடைமுறைப்படுத்த முடியும். பொதுவாக இயற்கை மொழி செயலாக்கத்திற்குத் (NLP) தேவையான முக்கிய செயற்பாடுகளைப் பற்றி விளக்குவதாக இவ்வாய்வுக் கட்டுரை அமைந்துள்ளது.

முன்னுரை

இயற்கை மொழி செயலாக்கம் (Natural Language Processing)  என்பது கணினி விஞ்ஞானத்தில் அதிக ஆராய்ச்சிகளை உள்ளடக்கிய  ஒரு துறையாகும். NLP கணினிகள்  மற்றும் மனித மொழிகளுக்கிடையில் ஒரு  பரஸ்பர தொடர்பினை ஏற்படுத்துகின்றது. இயற்கை மொழி ஆய்வு குறியீடுகள் மற்றும் செயற்பாட்டு  தொகுப்புகள் மற்றும் மாதிரி தரவுகள்  என்பனவற்றைத் தன்னகத்தே உள்ளடக்கி இருப்பதால் இயற்கை மொழி செயலாக்கத்தை (Natural Language Processing) எளிதில் நடைமுறைப்படுத்த  முடியும். பொதுவாக   இயற்கை மொழி செயலாக்கத்திற்குத் (NLP) தேவையான முக்கிய செயற்பாடுகளைப் பற்றி விளக்குவதாக இவ்வாய்வுக் கட்டுரை அமைந்துள்ளது. 

குறிப்புச் சொல் ; இயற்கை மொழி ஆய்வு, இயற்கை மொழி உருவாக்கம், இயந்திர கற்றல்.

தமிழில் இயற்கை மொழி ஆய்வுக்கான முன்னேற்பாடுகள்

இந்திய மொழிகள் அனைத்தும் கணிப்பொறி அறிவியலில் உரிய இடத்தைப் பெறுவதற்காக நடுவண் அரசும் மாநில அரசும் பல்கலைக்கழகங்களும் ஆராய்ச்சி நிறுவனங்களும் தனியார் நிறுவனங்களும் பல்வேறு முயற்சிகளில் ஈடுபட்டுவருகின்றன. நடுவண் அரசின் தகவல் தொழில்நுட்ப வளர்ச்சி (TDIL- Technology Development of Indian Language) என்ற திட்டத்தை உருவாக்கிச் செயல்பட்டு வருகிறது. இதற்காக  நாடு முழுவதும் 13 பல்கலைக்கழகங்கள் மற்றும் ஆய்வு நிறுவனங்களைத் தேர்ந்தெடுத்து, பல கோடி ரூபாய் நிதி உதவி அளித்து வருகிறது. இத்திட்டத்தின் கீழ் பல இந்திய மொழிகளின் தொழில்நுட்ப வளர்ச்சிக்கான பல்வேறு ஆய்வுகள் நடைபெற்று வருகின்றன. 

கடந்த ஐந்தாண்டுகளில் தமிழகத்திலும் மாநில அரசானது தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சிக்காகப் பல்வேறு திட்டங்களைச் செயல்படுத்தியுள்ளது. தமிழ் மென்பொருள் வளர்ச்சிக்கான பல திட்டங்களை அறிவித்துச் செயல்படுத்தி வருகிறது. இதனடிப்படையில் தமிழ் இணைய மாநாடுகள் நடைபெற்று, தமிழ் இணையக் கல்விக்கழகமும் நிறுவப்பட்டது. சென்னைப் பல்கலைக்கழகம், அண்ணா பல்கலைக்கழகம், அண்ணாமலைப் பல்கலைக்கழகம், தமிழ்ப் பல்கலைக்கழகம், பாரதியார் பல்கலைக்கழகம் முதலான பல்கலைக்கழகங்களும் தமிழ்மென்பொருள் உருவாக்கத்திற்காக மானிய உதவியைப் பெற்றுள்ளன என்பது குறிப்பிடத்தக்கது.  

மொழி உருவாக்கம் (Language formulation)

மொழியியல் என்பது மொழியை அறிவியல் பூர்வமாக ஆராய்வது. ஒலியனியல் நிலை, உருபனியல் நிலை, பொருண்மையியல் நிலை ஆகியப் படிநிலை அமைப்பில் வரும் மொழி அலகுகளாகப் பிரித்தாய்ந்து மொழியின் கட்டமைப்பைப் புரிந்துக் கொள்ளக் கணிப்பொறியைப் பயன்படுத்தலாம்.  மேலும், சிறிய மொழிக் கூறுகளிலிருந்து பெரிய மொழிக் கூறுகளை ஆக்கலாம். இதனை மொழிப் பகுப்பாய்வு என்றும் மொழி ஆக்கம் என்றும் அழைக்கலாம்.  

இலக்கண விதிகளை எளிமைபடுத்தி கணினிக்கு உரை வைக்க மொழியியல் கோட்பாடுகள் அவசியமாகின்றன. இவை ஒரு சொல்லையோ அல்லது அதன் பகுதியையோ கணினி அறிய பயன்படுகின்றது. கணினியுடன் தொடர்புகொள்வதற்கு துணை நிற்பது நிரல்மொழி. ஜாவா, பேர்ல், சி, சி++, பைத்தான் போன்ற நிரல்களை இயற்கை மொழி ஆய்வுகளுக்கு ஆய்வாளர்கள் தேர்வு செய்கிறார்கள். இவற்றின் மூலம் உருபனியல் பகுப்பாய்வியை உருவாக்குவது என்பது எளிதாக நடைமுறைப்படுத்தப்படுகிறது. மேலும் இதன் வெளியீடானது தொடரியல் பகுப்பாய்வுக்கு உள்ளீடாகக் கொடுக்கப்படுகிறது. இது  இயந்திர மொழிபெயர்ப்புக்கு உதவியாக அமைகின்றது. 


இயற்கை மொழி ஆய்வு

கணிப்பொறி ஒரு மொழியாய்வுக் கருவி. செய்திகளை 1,0 என்ற எண்களால் ஆய்வது தான் கணிப்பொறி. மனித மூளை 0,1 என்ற அடிப்படை எண்களை வைத்துக்கொண்டு இயந்திர மொழி மூலம் எழுத்துக்களும், எண்களும் தனித்தன்மையான குறியீடுகளும்  (Special Symbols)  உருப்படுத்தம் செய்யப்படுகின்றன. மொழியியலார் கணினியை மொழியின் கடினமாக செயல்பாடுகளைச் செய்யும் கருவியாகப் பயன்படுத்தும் காலம் வந்துவிட்டது. மொழியியல் சார் கணிப்பொறி ஆய்வைக் கணினி மொழியியல் ஆய்வு அல்லது இயற்கை மொழி ஆய்வு என்பர். இவ்வாய்வுப் பேச்சைத் தெரிந்துகொள்ளுதல், பேச்சை உருவாக்குதல், உரைகளை பேச்சாக்குதல், பேச்சுகளை உரை ஆக்குதல், இயந்திர மொழிபெயர்ப்பு, விரிதரவுகளை ஆய்தல், உரைகளை ஆய்தல், மொழி அலகுகளைப் பகுப்பாய்வு செய்தல் என்பனவற்றை உள்ளடக்கும். மொழியாய்வு மொழியைப் புரிந்துக் கொள்ளுதல் என்பதுடன் உரை அல்லது பேச்சுச் செய்திகளைப் பொருள் கொண்டுப் புரிந்துக்கொள்ளுதல், மொழிபெயர்த்தல், உரைகள் அல்லது பேச்சுச் செய்திகளை உருவாக்குதல் முதலானவற்றையும் ஆய்வதாக அமைகின்றது. 

இயற்கை மொழி ஆய்வின் அணுகுமுறைகள்

இயற்கை மொழி செயலாக்க அடிப்படையில் இரண்டு பகுதிகளாக வகைப்படுத்தலாம்.  1. இயற்கை மொழி புரிதல் என்பது, இயற்கை மொழியில் கொடுக்கப்படுகின்ற உள்ளீட்டைப் பயனுள்ள அமைப்புகளாக அல்லது குறியீடுகளாகப் பொருத்துவது, மற்றும் மொழியின் பல்வேறு அம்சங்களைப் பகுப்பாய்வு செய்தல் என்பதைக் குறிக்கின்றது. 2. இயற்கை மொழி உருவாக்கம் என்பது இயற்கை மொழியின் உள்ளீட்டு குறியீடுகளிலிருந்து பொருண்மைப் பொதிந்த சொற்றொடர்களையும் வாக்கியங்களையும் உருவாக்கும் செயல்முறையாகும். இச்செயல்முறை  உரை திட்டமிடல், வாக்கிய திட்டமிடல், உரை உணர்தல் என்ற உட்கூறுகளில் செயல்படுகிறது. மேலும், இயற்கை மொழியை புரிந்துக்கொள்ளுதல் என்பது இயற்கை மொழி உருவாக்கத்தைவிட கடினமானது ஆகும்.

இயற்கை மொழி ஆய்வின் படிநிலைகள்

இயற்கை மொழி ஆய்வில் ஐந்து படிநிலைகள் உள்ளன.  1. சொல் பகுப்பாய்வு என்பது சொற்களையும், சொற்களஞ்சியத்தையும் உள்ளடக்கிய மொழி ஆய்வு சொல் பகுப்பாய்வு ஆகும். 2. தொடரியல் பகுப்பாய்வு என்பது வாக்கியங்களைத் தொடர்களாகவும், சொற்களாகவும் பிரித்து அவற்றின் தொடரியல் மற்றும் சொல் வகையிலான பண்புகளை அடையாளப்படுத்தும் நடைமுறையாகும்.3.  பொருண்மையியல் ஆய்வானது மொழியில் உள்ள சொற்களின் பொருண்மையை அறிவியல் நோக்கில் ஆராய்வதாகும். 4.சொல்லாடல் என்பது மொழியில் பொருண்மையைக் கொடுப்பதும் பெறுவதுமாக நிகழும் பரிமாற்றமாகும். 5.  சூழ்பொருளியல் ஆய்வானது சொற்றொடரின் பொருளுக்கும், பேசுபவரின் பொருளுக்கும் இடையே உள்ள தொடர்புகளை ஆராய்வது. 

இயற்கை மொழி ஆய்வின் போக்குகள்

இயற்கை மொழியை மற்றொரு மொழிக்கு மொழிபெயர்ப்பு செய்யும் போது, சிக்கலான மொழி பழக்கத்திற்கு உட்படுகின்றது.  ஒலியனியல் பகுப்பாய்வு, உருபனியல் பகுப்பாய்வு, பொருண்மையியல் பகுப்பாய்வு, பயன்வழியியல் பகுப்பாய்வு, கருத்தாடல் பகுப்பாய்வு ஆகியவை கணினி மொழியியலுக்கு அடிப்படை ஆய்வுகளகும். 

ஒலியனியல் பகுப்பாய்வு ஒலி அடையாள குறிகளிடமிருந்து அல்லது கேட்கும் அடையாளக் குறிகளிடமிருந்து சொற்களைப் பிரித்தெடுக்கும் பேச்சைத் தெரிந்துகொள்ளும்.

ஒலிகள் சொற்கள்

      /b/+/ɔ:/ +t bɔ:t/ ‘boat’

  க் + ஆ+க்+அ+ம்                  காலம்

உருபன்களிலிருந்து சொற்களைப் பெறல் சொற்களை உருபன்களாகப் பகுத்தல் என்பனவற்றை உள்ளடக்கும்.

உருபன்கள்   சொற்கள்

சிலை+கள் சிலைகள்

தொடரியல் பகுப்பாய்வில் சொற்களின் வரிசை அமைப்பிலிருந்து வாக்கிய அமைப்பைப் பெறுவது அல்லது  வாக்கியங்களைச் சொற்களாகப் பிரித்தல் என்பனவற்றை உள்ளடக்கும். 

சொல்வரிசை      வாக்கிய அமைப்பு

இராமன் சீதையை மணந்தான் என்ற சொல் வரிசையில், 

இராமன் +  சீதை யை+  மணந்தான்

(பெ.தொ.)  (வே.தொ.)  (வி.தொ.)

(பெ.)+        (பெ.)+(வே.உ)+  (வி.)

பொருண்மையியல் பகுப்பாய்வு என்பது வாக்கிய அமைப்பு சொற்பொருண்மையில் இருந்து வாக்கிய பொருண்மையைப் பெறலாம். எ.கா. இராமன் சீதையை மணந்தான் என்று பகுப்பில் இருந்து மணந்தான் இராமன், சீதை என்பதைப் பெறமுடியும். 

பயன்மொழியியல் பகுப்பாய்வில் வாக்கியப்பொருள் மற்றும் சூழல் இவற்றிலிருந்து சரியானப் பொருளைப் பெறமுடியும். இது பொது அறிவையும் முன்னர் வந்த கூற்றின் அறிவையும் உள்ளடக்கும்.  எ.கா. அவன் சீதையை மணந்தான் என்ற வாக்கியத்தில் வரும் பதிலீடுப் பெயர் (அவன்) முன்னர் வந்த வாக்கியத்தின் அறிவால் அவன்= ராமன் என்று புரிந்து கொள்ளப்படும். 

முடிவுரை

மொழி ஆய்வில் கணினிப் பெரிதும் பயன்பட்டு வருகின்றது.  கணினியில் தமிழைக் கையாளுதல் என்பது சில சமயங்களில் சிக்கலுக்குரிய செயலாக உள்ளது. அச்சிக்கலைக் களைவதற்கு மொழியியல் அறிஞர்களும் கணினித் தொழில்நுட்ப வல்லுநர்கள் இணைந்து செயல்பட்டால் இயற்கை மொழி ஆய்வில் ஏற்படும்  இடர்பாடுகளைக் களையலாம். 



பார்வை நூல்கள்

  1. Agesthialingom, S. 1967, Generative Grammar of Tamil, Annamalai University, Annamalai Nagar.

  2. Chomsky, N. 1965, Aspects of theory of Syntax, MIT Press, Cambridge.

  3. அரங்கன், கி. 1975, தொடரியல் மாற்றிலக்கண அணுகுமுறை, தமிழ் பல்கலைக்கழகம், தஞ்சாவூர்.

  4. இராசேந்திரன், ச. 2019, கணினி மொழியியலும் தமிழ்மொழியின் தொழில் நுட்ப வளர்ச்சியும், கோயம்புத்தூர்.

  5. சண்முகம், செ. 1998, சாம்ஸ்கியின் புது மாற்றிலக்கணம், கவிதா பதிப்பகம், சென்னை.

Author
கட்டுரையாளர்

முனைவர்.மோ.ஜெயகார்த்திக்

உதவி இயக்குநர்

உதவி இயக்குநர் (கல்வி) தமிழ் இணையக் கல்விக்கழகம் கோட்டூர், சென்னை.25