October 24, 2020

இயற்கை மொழிச் செயலாக்கங்களின் தற்போதைய போக்குகள் மற்றும் சவால்கள்

இயற்கை மொழிச் செயலாக்கங்களின் தற்போதைய போக்குகள் மற்றும் சவால்கள்

               முனைவர்.மோ.ஜெயகார்த்திக்

உதவி இயக்குநர் (கல்வி)

தமிழ் இணையக் கல்விக்கழகம்

கோட்டூர், சென்னை.25

மின்னஞ்சல்: jeya_karthic@yahoo.com

முன்னுரை

          இயற்கை மொழி செயலாக்கம் (Natural Language Processing)  என்பது கணினி விஞ்ஞானத்தில் அதிக ஆராய்ச்சிகளை உள்ளடக்கிய  ஒரு துறையாகும். NLP கணினிகள்  மற்றும் மனித மொழிகளுக்கிடையில் ஒரு  பரஸ்பர தொடர்பினை ஏற்படுத்துகின்றது. இயற்கை மொழி ஆய்வு குறியீடுகள் மற்றும் செயற்பாட்டு  தொகுப்புகள் மற்றும் மாதிரி தரவுகள்  என்பனவற்றைத் தன்னகத்தே உள்ளடக்கி இருப்பதால் இயற்கை மொழி செயலாக்கத்தை (Natural Language Processing) எளிதில் நடைமுறைப்படுத்த  முடியும். பொதுவாக   இயற்கை மொழி செயலாக்கத்திற்குத் (NLP) தேவையான முக்கிய செயற்பாடுகளைப் பற்றி விளக்குவதாக இவ்வாய்வுக் கட்டுரை அமைந்துள்ளது.

குறிப்புச் சொல் ; இயற்கை மொழி ஆய்வு, இயற்கை மொழி உருவாக்கம், இயந்திர கற்றல்.

தமிழில் இயற்கை மொழி ஆய்வுக்கான முன்னேற்பாடுகள்

       இந்திய மொழிகள் அனைத்தும் கணிப்பொறி அறிவியலில் உரிய இடத்தைப் பெறுவதற்காக நடுவண் அரசும் மாநில அரசும் பல்கலைக்கழகங்களும் ஆராய்ச்சி நிறுவனங்களும் தனியார் நிறுவனங்களும் பல்வேறு முயற்சிகளில் ஈடுபட்டுவருகின்றன. நடுவண் அரசின் தகவல் தொழில்நுட்ப வளர்ச்சி (TDIL- Technology Development of Indian Language) என்ற திட்டத்தை உருவாக்கிச் செயல்பட்டு வருகிறது. இதற்காக  நாடு முழுவதும் 13 பல்கலைக்கழகங்கள் மற்றும் ஆய்வு நிறுவனங்களைத் தேர்ந்தெடுத்து, பல கோடி ரூபாய் நிதி உதவி அளித்து வருகிறது. இத்திட்டத்தின் கீழ் பல இந்திய மொழிகளின் தொழில்நுட்ப வளர்ச்சிக்கான பல்வேறு ஆய்வுகள் நடைபெற்று வருகின்றன.

          கடந்த ஐந்தாண்டுகளில் தமிழகத்திலும் மாநில அரசானது தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சிக்காகப் பல்வேறு திட்டங்களைச் செயல்படுத்தியுள்ளது. தமிழ் மென்பொருள் வளர்ச்சிக்கான பல திட்டங்களை அறிவித்துச் செயல்படுத்தி வருகிறது. இதனடிப்படையில் தமிழ் இணைய மாநாடுகள் நடைபெற்று, தமிழ் இணையக் கல்விக்கழகமும் நிறுவப்பட்டது. சென்னைப் பல்கலைக்கழகம், அண்ணா பல்கலைக்கழகம், அண்ணாமலைப் பல்கலைக்கழகம், தமிழ்ப் பல்கலைக்கழகம், பாரதியார் பல்கலைக்கழகம் முதலான பல்கலைக்கழகங்களும் தமிழ்மென்பொருள் உருவாக்கத்திற்காக மானிய உதவியைப் பெற்றுள்ளன என்பது குறிப்பிடத்தக்கது. 

மொழி உருவாக்கம் (Language formulation)

          மொழியியல் என்பது மொழியை அறிவியல் பூர்வமாக ஆராய்வது. ஒலியனியல் நிலை, உருபனியல் நிலை, பொருண்மையியல் நிலை ஆகியப் படிநிலை அமைப்பில் வரும் மொழி அலகுகளாகப் பிரித்தாய்ந்து மொழியின் கட்டமைப்பைப் புரிந்துக் கொள்ளக் கணிப்பொறியைப் பயன்படுத்தலாம்.  மேலும், சிறிய மொழிக் கூறுகளிலிருந்து பெரிய மொழிக் கூறுகளை ஆக்கலாம். இதனை மொழிப் பகுப்பாய்வு என்றும் மொழி ஆக்கம் என்றும் அழைக்கலாம். 

இலக்கண விதிகளை எளிமைபடுத்தி கணினிக்கு உரை வைக்க மொழியியல் கோட்பாடுகள் அவசியமாகின்றன. இவை ஒரு சொல்லையோ அல்லது அதன் பகுதியையோ கணினி அறிய பயன்படுகின்றது. கணினியுடன் தொடர்புகொள்வதற்கு துணை நிற்பது நிரல்மொழி. ஜாவா, பேர்ல், சி, சி++, பைத்தான் போன்ற நிரல்களை இயற்கை மொழி ஆய்வுகளுக்கு ஆய்வாளர்கள் தேர்வு செய்கிறார்கள். இவற்றின் மூலம் உருபனியல் பகுப்பாய்வியை உருவாக்குவது என்பது எளிதாக நடைமுறைப்படுத்தப்படுகிறது. மேலும் இதன் வெளியீடானது தொடரியல் பகுப்பாய்வுக்கு உள்ளீடாகக் கொடுக்கப்படுகிறது. இது  இயந்திர மொழிபெயர்ப்புக்கு உதவியாக அமைகின்றது.

இயற்கை மொழி ஆய்வு

          கணிப்பொறி ஒரு மொழியாய்வுக் கருவி. செய்திகளை 1,0 என்ற எண்களால் ஆய்வது தான் கணிப்பொறி. மனித மூளை 0,1 என்ற அடிப்படை எண்களை வைத்துக்கொண்டு இயந்திர மொழி மூலம் எழுத்துக்களும், எண்களும் தனித்தன்மையான குறியீடுகளும்  (Special Symbols)  உருப்படுத்தம் செய்யப்படுகின்றன. மொழியியலார் கணினியை மொழியின் கடினமாக செயல்பாடுகளைச் செய்யும் கருவியாகப் பயன்படுத்தும் காலம் வந்துவிட்டது. மொழியியல் சார் கணிப்பொறி ஆய்வைக் கணினி மொழியியல் ஆய்வு அல்லது இயற்கை மொழி ஆய்வு என்பர். இவ்வாய்வுப் பேச்சைத் தெரிந்துகொள்ளுதல், பேச்சை உருவாக்குதல், உரைகளை பேச்சாக்குதல், பேச்சுகளை உரை ஆக்குதல், இயந்திர மொழிபெயர்ப்பு, விரிதரவுகளை ஆய்தல், உரைகளை ஆய்தல், மொழி அலகுகளைப் பகுப்பாய்வு செய்தல் என்பனவற்றை உள்ளடக்கும். மொழியாய்வு மொழியைப் புரிந்துக் கொள்ளுதல் என்பதுடன் உரை அல்லது பேச்சுச் செய்திகளைப் பொருள் கொண்டுப் புரிந்துக்கொள்ளுதல், மொழிபெயர்த்தல், உரைகள் அல்லது பேச்சுச் செய்திகளை உருவாக்குதல் முதலானவற்றையும் ஆய்வதாக அமைகின்றது.

இயற்கை மொழி ஆய்வின் அணுகுமுறைகள்

          இயற்கை மொழி செயலாக்க அடிப்படையில் இரண்டு பகுதிகளாக வகைப்படுத்தலாம்.  1. இயற்கை மொழி புரிதல் என்பது, இயற்கை மொழியில் கொடுக்கப்படுகின்ற உள்ளீட்டைப் பயனுள்ள அமைப்புகளாக அல்லது குறியீடுகளாகப் பொருத்துவது, மற்றும் மொழியின் பல்வேறு அம்சங்களைப் பகுப்பாய்வு செய்தல் என்பதைக் குறிக்கின்றது. 2. இயற்கை மொழி உருவாக்கம் என்பது இயற்கை மொழியின் உள்ளீட்டு குறியீடுகளிலிருந்து பொருண்மைப் பொதிந்த சொற்றொடர்களையும் வாக்கியங்களையும் உருவாக்கும் செயல்முறையாகும். இச்செயல்முறை  உரை திட்டமிடல், வாக்கிய திட்டமிடல், உரை உணர்தல் என்ற உட்கூறுகளில் செயல்படுகிறது. மேலும், இயற்கை மொழியை புரிந்துக்கொள்ளுதல் என்பது இயற்கை மொழி உருவாக்கத்தைவிட கடினமானது ஆகும்.

இயற்கை மொழி ஆய்வின் படிநிலைகள்

          இயற்கை மொழி ஆய்வில் ஐந்து படிநிலைகள் உள்ளன.  1. சொல் பகுப்பாய்வு என்பது சொற்களையும், சொற்களஞ்சியத்தையும் உள்ளடக்கிய மொழி ஆய்வு சொல் பகுப்பாய்வு ஆகும். 2. தொடரியல் பகுப்பாய்வு என்பது வாக்கியங்களைத் தொடர்களாகவும், சொற்களாகவும் பிரித்து அவற்றின் தொடரியல் மற்றும் சொல் வகையிலான பண்புகளை அடையாளப்படுத்தும் நடைமுறையாகும்.3.  பொருண்மையியல் ஆய்வானது மொழியில் உள்ள சொற்களின் பொருண்மையை அறிவியல் நோக்கில் ஆராய்வதாகும். 4.சொல்லாடல் என்பது மொழியில் பொருண்மையைக் கொடுப்பதும் பெறுவதுமாக நிகழும் பரிமாற்றமாகும். 5.  சூழ்பொருளியல் ஆய்வானது சொற்றொடரின் பொருளுக்கும், பேசுபவரின் பொருளுக்கும் இடையே உள்ள தொடர்புகளை ஆராய்வது.

இயற்கை மொழி ஆய்வின் போக்குகள்

          இயற்கை மொழியை மற்றொரு மொழிக்கு மொழிபெயர்ப்பு செய்யும் போது, சிக்கலான மொழி பழக்கத்திற்கு உட்படுகின்றது.  ஒலியனியல் பகுப்பாய்வு, உருபனியல் பகுப்பாய்வு, பொருண்மையியல் பகுப்பாய்வு, பயன்வழியியல் பகுப்பாய்வு, கருத்தாடல் பகுப்பாய்வு ஆகியவை கணினி மொழியியலுக்கு அடிப்படை ஆய்வுகளகும்.

          ஒலியனியல் பகுப்பாய்வு ஒலி அடையாள குறிகளிடமிருந்து அல்லது கேட்கும் அடையாளக் குறிகளிடமிருந்து சொற்களைப் பிரித்தெடுக்கும் பேச்சைத் தெரிந்துகொள்ளும்.

ஒலிகள்                                   சொற்கள்

      /b/+/ɔ:/ +t ® bɔ:t/ ‘boat’

                    க் + ஆ+க்+அ+ம்                  காலம்

          உருபன்களிலிருந்து சொற்களைப் பெறல் சொற்களை உருபன்களாகப் பகுத்தல் என்பனவற்றை உள்ளடக்கும்.

உருபன்கள்                            சொற்கள்

                    சிலை+கள்                     சிலைகள்

          தொடரியல் பகுப்பாய்வில் சொற்களின் வரிசை அமைப்பிலிருந்து வாக்கிய அமைப்பைப் பெறுவது அல்லது  வாக்கியங்களைச் சொற்களாகப் பிரித்தல் என்பனவற்றை உள்ளடக்கும்.

சொல்வரிசை                                  வாக்கிய அமைப்பு

இராமன் சீதையை மணந்தான் என்ற சொல் வரிசையில்,

இராமன் +  சீதை யை+  மணந்தான்

(பெ.தொ.)  (வே.தொ.)  (வி.தொ.)

(பெ.)+        (பெ.)+(வே.உ)+  (வி.)

          பொருண்மையியல் பகுப்பாய்வு என்பது வாக்கிய அமைப்பு சொற்பொருண்மையில் இருந்து வாக்கிய பொருண்மையைப் பெறலாம். எ.கா. இராமன் சீதையை மணந்தான் என்று பகுப்பில் இருந்து மணந்தான் இராமன், சீதை என்பதைப் பெறமுடியும்.

          பயன்மொழியியல் பகுப்பாய்வில் வாக்கியப்பொருள் மற்றும் சூழல் இவற்றிலிருந்து சரியானப் பொருளைப் பெறமுடியும். இது பொது அறிவையும் முன்னர் வந்த கூற்றின் அறிவையும் உள்ளடக்கும்.  எ.கா. அவன் சீதையை மணந்தான் என்ற வாக்கியத்தில் வரும் பதிலீடுப் பெயர் (அவன்) முன்னர் வந்த வாக்கியத்தின் அறிவால் அவன்= ராமன் என்று புரிந்து கொள்ளப்படும்.

முடிவுரை

          மொழி ஆய்வில் கணினிப் பெரிதும் பயன்பட்டு வருகின்றது.  கணினியில் தமிழைக் கையாளுதல் என்பது சில சமயங்களில் சிக்கலுக்குரிய செயலாக உள்ளது. அச்சிக்கலைக் களைவதற்கு மொழியியல் அறிஞர்களும் கணினித் தொழில்நுட்ப வல்லுநர்கள் இணைந்து செயல்பட்டால் இயற்கை மொழி ஆய்வில் ஏற்படும்  இடர்பாடுகளைக் களையலாம்.

பார்வை நூல்கள்

Agesthialingom, S. 1967,          Generative Grammar of Tamil, Annamalai University, Annamalai Nagar.

  • Chomsky, N.         1965,          Aspects of theory of Syntax, MIT Press, Cambridge.
  • அரங்கன், கி. 1975, தொடரியல் மாற்றிலக்கண அணுகுமுறை, தமிழ் பல்கலைக்கழகம், தஞ்சாவூர்.
  • இராசேந்திரன், ச. 2019, கணினி மொழியியலும் தமிழ்மொழியின் தொழில் நுட்ப வளர்ச்சியும், கோயம்புத்தூர்.
  • சண்முகம், செ. 1998, சாம்ஸ்கியின் புது மாற்றிலக்கணம், கவிதா பதிப்பகம், சென்னை.
error: Content is protected !!