கணினி வளங்களும் தமிழிலக்கியப் பகுப்பாய்வு முறைகளும்

கணினி வளங்களும் தமிழிலக்கியப் பகுப்பாய்வு முறைகளும்

Computer resources and Tamil language analysis Methods

செ.ஸ்டாலின்,

உதவிப்பேராசிரியர், தமிழ்த்துறை, சென்னைக் கிறித்தவக் கல்லூரி (தன்னாட்சி) தாம்பரம், சென்னை-600 059,

stalin.s@mcc.edu.in

 

 

ஆய்வுச்சுருக்கம்

மொழி, மொழியியல் ஆய்வுகளின் நவீனப்போக்கு என்பது கணினி பயன்பாட்டில் செயலாற்றுவது என்று உறுதிப்படலாம். ஓலைச்சுவடிகளில் இருந்த தமிழ் இலக்கியங்களை தாள்களின் வழியே பதிப்பித்தது ஒரு மைல்கல் என்றால் பதிப்பிக்கப்பட்ட அவற்றைக் கணினியில் பதிவேற்றம் செய்து அனைவருக்குமானதாகவும் எளிமைப்படுத்தப்பட்டிருப்பதும் மற்றொரு மைல்கல். இவ்வாறு தமிழ் மொழியும் தமிழ் இலக்கியங்களும் காலத்துக்கு ஏற்ப தம்மைத் தகவமைத்துக் கொண்டே வருகின்றன. அதன் தொடர்ச்சியாகத் தமிழிலக்கியங்களை வளப்படுத்த சில பல்கலைக்கழகங்கள், ஆராய்ச்சி நிறுவனங்கள் ஆகியன தமிழ் இலக்கியத்தினை ஆய்வு நோக்கில் இட்டுச்செல்ல கணினி வளங்களைப் பயன்படுத்துகின்றன. அகராதி, செவ்வியல் இலக்கியங்களைப் பதிவேற்றல் உள்ளிட்ட மின்நூலக அமைப்பை உருவாக்கியுள்ளன. மேலும் சொற்களின் வகைகள், பொருண்மை ஆகியவற்றையும் கணினி வளங்கள் வாயிலாகப் பதிவேற்றம் செய்ப்பட்டுள்ளன. அவ்வாறு இடப்பட்டுள்ளனவற்றுள் சொல்களின் வகைகளை இனம் காண்பதற்கும் பொருண்மை உறவுகளை இனம் காண்பதற்கும் தொடரமைப்பினை இனம் காண்பதற்கும் பகுப்பாய்வு முறைகள் எவ்வாறு இயங்குகின்றன என்றும் இன்னும் மேற்கொள்ள வேண்டியவற்றைப் பற்றியும் முன்னிறுத்துகிறது இக்கட்டுரை.

திறவுச்சொற்கள்: கணினி வளங்கள், பகுப்பாய்வு முறைகள், மொழியியல், பொருண்மையியல், தொடரியல்

Keywords: computer resource, analysis methods, linguistics, semantic, syntax

முன்னுரை:

அறிவியல் துறையின் வளர்ச்சிக்கு முதன்மை அடையாளமாக இருப்பது கணினி. பொதுவாக அறிவியல் துறையின் கீழ் இயங்குவன காலந்தோறும் வளர்ந்து மாற்றமடைபவை. அவற்றின் அடிப்படையிலே ஆய்வுகளும் நிகழ்த்தப்படுகின்றன. குச்சிகள், கற்கள், மணிச்சட்டம், நேப்பியர் சட்டங்கள், மடங்கை சட்டங்கள், கணக்கு எந்திரங்கள் கணக்கீட்டுக் கருவிகள் போன்றனவும் இதன் தொடர்ச்சியாக 1944-ல் கண்டறியப்பட்ட கணினி, முதல்  தலைமுறை (first generation),  இரண்டாம் தலைமுறை (second generation) என வளர்ந்து பதினோராம் தலைமுறை (eleventh generation) கணினி வரை தேவைக்கேற்ப புதிய உள்ளீடுகள், மென்பொருள்கள், எழுத்துருக்கள் வைத்து வளர்ந்து கொண்டே இருக்கின்றன.

இணையப் பதிப்பில் இலக்கியங்கள், மின் அகராதிகள், இணைய இதழ்கள், வலைப்பூக்கள் என அதன் பரப்பு நீள்கிறது. இவைகள் இணையத்தில் வருவதற்கு முன்பு தமிழ் மொழியை, கணினி மொழியாக இடம்பெற செய்தது அளப்பரிய பணி. அதற்கான மொழி தொழில்நுட்பம் (language technology) எனப்படும். மின்னணு மொழிக் கருவிகளை உருவாக்கல் தொடங்கி மென்பொருள் உருவாக்கம், எழுத்துணரி (OCR) மற்றும் விசைப்பலகை உருவாக்கம் போன்றன நிகழ்ந்தன என்பது தமிழ் கணினி உருவாக்கத்தின் சுருக்கமான முன்னுரை. 1990-ஆம் ஆண்டுக்கு பின்னர் இதன் சிந்தனை வலுப்பெற்று உருப்பெறத் தொடங்கியது அதன் பின்னர் படிப்படியாக இணையத்தில் தமிழ் மொழியின் தமிழ் இலக்கியத்தின் ஆளுமை அதிகரித்து வருகிறது.

பகுப்பாய்வு:

பகுப்பாய்வு என்பது சிக்கலான ஒரு பொருளையோ சொல்லையோ சிறு அலகாகப் பிரித்து ஆராய்வதாகும். ஆங்கிலத்தில் (analysis) என்பர். இது மொழி ஆய்வுக்கும் அறிவியல் ஆய்வுக்கும் ஏற்ற ஆய்வு முறையாக உள்ளது. ஒரு பொருளின் தன்மை அதன் பண்புகள் அதன் நிலை என அனைத்து காரணிகளையும் சிறுசிறு அழகின் வழி விரிவானதொரு புரிதலுக்கு உதவுகிறது. குறிப்பாக கணினி மொழி ஆய்வுக்கு ஒரு மொழியிலுள்ள இலக்கியங்களின் ஆய்வுக்குப் பயன்படுத்தப்படும் அணுகுமுறையாகவும் தற்போது பயன்படுத்தப்படுகிறது. சொல் பகுப்பு, உருபன் பகுப்பு, ஒலியமைப்பு பகுப்பாய்வு, தொடரியல் பகுப்பாய்வு, பொருண்மை பகுப்பாய்வு எனப் பகுப்பாய்வு முறை மொழியின் இலக்கியத்தின் தொடர்கிறது. கணினி வளங்களின்வழி தமிழ் இலக்கியங்கள் உள்ளீடு செய்யப்பட்டு உள்ளன. அவற்றினை எளிதில் அணுக, இப்பகுப்பாய்வு பயன்படுகிறது.

இணையத்தில் தமிழிலக்கியங்கள்

சங்க இலக்கியங்கள் தமிழ் இலக்கியங்களின் முதல் நிலை. ஓலைச்சுவடிகளில் இருந்த இவை, அச்சு இயந்திரத்தின் வரவால் தொகுக்கப்பட்டு அச்சேறின. அதன்பின் தொழில்நுட்ப வளர்ச்சிக் காலத்திற்கு ஏற்ப இணையத்தில் ஏறி இன்று எளிமையாகப் கிடைக்கப்பெறுகின்றன. சங்க இலக்கியங்கள் மட்டுமின்றி இலக்கணங்கள், அகராதிகள், நவீன இலக்கியங்கள் என அனைத்தும் இணையத்தில் கிடைக்கின்றன, ஆய்வுக்கட்டுரைகளுடன் தனித்த நிலையில் வலைப்பூக்கள் வழியேயும் புதிய தமிழ் இலக்கியங்கள், கட்டுரைகள், விமரிசனங்கள், ஆய்வுகள் மின் இதழ்கள் என வந்துகொண்டே இருக்கின்றன. இப்பணிகள் அரசு மற்றும் தனியார் நிறுவனங்கள் பலவும் செய்து வருகின்றன. தமிழ் தட்டச்சுப் பலகை, எழுத்துருக்கள் உருவாக்கம் மற்றும் உள்ளீடு, மென்பொருள் உருவாக்கம் போன்றவற்றுடன் கலைச்சொற்களும் உருவாக்கப்பட்டுள்ளன.

உத்தமம், கணினித் தமிழ்ச்சங்கம், மதுரைத் திட்டம் உட்பட பல அமைப்புகள் வழி தமிழ் நூல்கள், அகராதிகள் ஆகியன இலவசமாகப் பயனாளிகளுக்குக் கிடைக்கப்பெறுகின்றன. தமிழ் இணையக் கல்விக் கழகம், உலகத் தமிழ் ஆராய்ச்சி நிறுவனம், செம்மொழி மத்திய ஆய்வு நிறுவனம் உள்ளிட்ட அரசு நிறுவனங்களும் இதில் தீவிரமாக பணியாற்றுகின்றன. இவற்றின் சிறப்பு என்னவென்றால் ஓலைச்சுவடிகள், கல்வெட்டுகள், செப்பேடுகள் போன்றவற்றையும் பதிவேற்றி உள்ளன. இவற்றில் உள்ள தகவல்களைத் தேடுபொறி வாயிலாக நம் மொழியின் மூலமே உள்ளீடு செய்யப்பட்ட அவற்றிலிருந்து பெறமுடியும்.

இணையத்தின் வழியே தமிழிலக்கியங்கள் உள்ளீடு செய்யப்பட்டிருப்பதன் நோக்கம் தமிழகத்திற்கு வெளியே அதாவது உலகின் எந்த நிலப்பரப்பிலிருந்தும் தமிழைக் கற்கவும் ஆராயவும் வழிவகை செய்வதே ஆகும். இணையத்தில் தமிழ் மொழியின் வியத்தகு வளர்ச்சியாக எண்ணற்ற கலை, இலக்கிய மின் இதழ்களும் ஆய்வுகளும் வலைப்பூக்களும் உருவாகிக் கொண்டே இருப்பதை கூறலாம். குறிப்பாக, தமிழுக்காக மூன்றாயிரத்திற்கும் அதிகமான இணைய அமைப்புகளும் சுமார் பத்து லட்சம் இணையப் பக்கங்களும் இன்று இணையத்தில் காண முடிகிறது.(26.12.2021)

 

தமிழ் இலக்கிய பகுப்பாய்வு முறைகள்

இணையத்தில் எண்ணற்ற/கட்டற்ற நிலையில் தமிழ் இலக்கியங்களும் ஆய்வுகளும் இருக்கும் நிலையில், அமைப்பு சார்ந்து முறையான தொகுப்புகளை வழங்கும் பணியை அரசு நிறுவனங்களும் அரசு சாரா நிறுவனங்களும் செய்து வருகின்றன.

தமிழிலக்கியங்கள் உள்ளீட்டு
பல்கலைக் கழகங்கள்
அரசு சாரா நிறுவனம்

 

 

 

 

 

 

 

இணையத்தில் தமிழ்ப்பணி (தமிழிலக்கியங்கள்)
தமிழ்ப்பல்கலைக் கழகம் தமிழ்க் கணிமை அமைப்பு
உலகத்தமிழ் ஆராய்ச்சி நிறுவனம் மதுரைத் திட்டம்
செம்மொழித் தமிழாய்வு மத்திய நிறுவனம் உத்தமம்

இந்த அமைப்புகள், உலக நாடுகளில் வாழும் தமிழர் மற்றும் தமிழரல்லாத தமிழ் மொழி ஆர்வலர் அல்லது ஆய்வாளர்களுக்கு உதவுகின்றன. தேமதுர தமிழோசையைத் திக்கெட்டும் பரவச் செய்கின்றன. இவ்வமைப்புகள் சில பகுப்பாய்வு முறைகளையும் மக்கள் வழங்குகின்றன. இதனால் எது தேவையோ அதனை மட்டும் எளிமையாக பெற முடியும் எனும் சூழலும் உள்ளது. எனவே கணினிவழி கற்றல், கற்பித்தல் போன்றனவும் எளிமையாக நடைபெறுகின்றன. இவை தவிர கலைச்சொல் பேரகராதி, (technical glosury) வாணி (தமிழ் எழுத்துப்பிழை திருத்தி) யாப்பு (அவலோதிகம்) மென்பொருள் ஆகியனவும் குறிப்பிடத்தக்கவை.

தமிழிலக்கியத்தை வழங்கும் இவற்றினை பகுப்பாய்வு முறைகளாக எங்கனம் நிகழ்த்துகின்றன என்றால், உள்ளீடு செய்யப்பட்டுள்ள தமிழ் இலக்கியங்களின்

  1. சொல்வகை பகுப்பாய்வு
  2. சொல்லடைவுகள்
  3. பொருண்மைப் பகுப்பாய்வு
  4. உரைப் பகுப்பாய்வு
  5. சொல் அகரவரிசை
  6. இலக்கணக்குறிப்பு
  7. தொடரியல் விரிதரவு

உள்ளிட்ட பல்வேறு பகுப்புகளைச் செய்துள்ளன.

 

சான்று 1:

இணைய வழித் தமிழ் தரவகம் என்னும் வலைப் பகுதியை செம்மொழித் தமிழாய்வு மத்திய நிறுவனம் (CICT), மொழி தொழில்நுட்பத்துறையின்கீழ் உருவாக்கியுள்ளது.  உ.வே.சா செம்மொழித்தமிழ் தரவகம் எனும் பகுதியில் ”சொல்லடைவி” என்பது ஒரு நூலின் சொல்லடைவை உருவாக்கித் தரக்கூடிய ’கணினி நிரல்’. இதனுள் பதிவிறக்கம் செய்து கொள்ளலாம்.

இணையவழிச் செவ்வியல் தமிழ்த் தொடரடைவு எனும் பகுதியில் சொல், நூல்கள், தேடு ஆகியன அமைந்துள்ளது. உதாரணம் கோடு எனும் சொல்லைச் செவ்வியல் இலக்கியங்களில் தேடினால் 152 இடங்களில் இருப்பதை கொண்டு வந்து காட்டிவிடுகிறது. ’இமய’ எனும் சொல்லைத் தேடினால்,

எந்தெந்த இலக்கியங்களில் இருக்கின்றது என்பதைக் காட்டுவதுடன் மூலப்பாடம், சொற்கள் பிரித்த பாடல், சந்திபிரித்த பாடல், பாடல் இடம் பெற்ற நூல் ஆகியன காட்டும் வசதிகளுடன் உள்ளது.

மேற்கூறிய சான்றின்வழி, சொல் வகைகளை இனம் காண்பதற்கும் பொருண்மை உறவுகளை இனம் காண்பதற்கும் எளிதாகிறது. கணினி/இணையம் என்பதன் அடுத்தடுத்த வளர்ச்சி என்பது எளிமைப்படுத்துவதே. இதன் அடிப்படையில் தமிழ் இலக்கியங்களை, குறிப்பாக சங்க இலக்கியங்களை வகைதொகை செய்யவும் மொழியின் அடிப்படையில் தொடரியல், உருபனியல் உள்ளிட்டவற்றை எடுத்துக்காட்டவும் வடிவமைக்கப்பட்டுள்ளது.

சொல் பகுப்பாய்வைப் பொருத்தமட்டில் தொடக்க நிலையில் இருந்தது போன்று தற்போது இல்லை. ஒரு உருபனாகவோ அல்லது ஒன்றுக்கு மேற்பட்ட உருபன்களைக் கொண்டதோ ஆக்கப்படுகின்ற சொற்கள், வேர்ச் சொல்லாக அடுத்தடுத்து வரும் இடைநிலை, சந்தி, விகுதி போன்றவற்றை உள்ளடக்கியதாக இருந்தன. அவ்வாறே உள்ளீடும் செய்யப்பட்டிருந்தன.

எடுத்துக்காட்டு: தொழுதான்= தொழு+த்+ஆன். தொழு என்பது வேர்ச்சொல்லாக வரும் போது ஏவலாக ஆகிறது. முன்பிருந்த உள்ளீட்டுமுறையில் தொழு எனும் ஏவலில் இருந்தவற்றைக் கொண்டுவரும். தற்போது அது தொடர்புடையவற்றை, செவ்விலக்கியங்களில் எங்கெங்கு உள்ளவோ அனைத்தையும் கொண்டு வந்து விடுகிறது. இதனை,

“சொல் பகுப்பாய்வு, அட்டவணை, சொல்லடைவு, இணைப்பாக்கம், புணர்ச்சி விதிகள், சொற்களில் உள்ள ஒட்டுகளை நீக்கி, அகராதித் தொகுக்க உதவும். தலைப்புச் சொற்களான அகராதியை (LEXEME) இனம் காணுதல் போன்ற நிலைகளில் நிகழ்த்தப்படுகின்றன. இந்நிகழ்வுகளை நிகழ்த்தத் தேவையான உருபனியல் ஆய்வினை வடிவமைக்க வேண்டும்” (பக்.23) என்ற சுப்பையா பிள்ளையின் கூற்றுக்கு, தற்காலத்தில் தீர்வு காணப்பட்டுள்ளது.

“பொருண்மைப் பகுப்பாய்வும் இத்தகைய நிலைப்பாட்டில் வழங்கப்படுகின்றன. Semantic Analysis எனப்படும் சொற்பொருள் பகுப்பாய்விற்கு உட்பொருள் பொதித்த கருத்து அவசியம் என்கிறார்”(பக்.3)  செ.சண்முகம்.

விரிதரவு அல்லது பெருந்தரவு (CORPUS)

சான்று 2:

எனும் பகுதியில்,

இலக்கண குறிப்பு விரிதரவு என்பது 2011-2012 ஆம் ஆண்டு திட்டத்தின் கீழ் ”தமிழ் இலக்கியங்களுக்கு மொழியியல் அடிப்படையிலான இலக்கணக் குறிப்புடன் கூடிய விரிதரவு (Linguistically Annotated corpus for tamil literature)” என்ற திட்டம் நடைபெற்றது.

இதனுள் இலக்கண குறிப்புடன் கூடிய தேடுதல்

தொடரியல் மற்றும் பொருண்மையியல் விளக்கத்துடன் கூடிய தமிழ் விரிதரவு

சொல், இலக்கணம், பொருளுடன் தமிழ் இலக்கியங்கள்

ஆகிய பிரிவுகள் உள்ளன.

இதன்வழி மேலும் பல உள்ளீடுகளை பணியில் தொடர்ந்து ஈடுபட்டு வருகின்றது.

பெருந்தரவு ஆய்வுகளை மென்பொருள்களாக, அகரவரிசை ஆய்வி (sorting tool), புள்ளியியல் ஆய்வி(statistics tool), சொல்லடைவு ஆய்வி(word index tool), தொடரடைவு ஆய்வி(concordance tool), முக்கியச்சொல் காணும் ஆய்வி(key word index tool), அகராதிச் சொல்லாய்வி(lexigraphy tool), உருபனியல் ஆய்வி(morphological analysis), சொல் வகைப்பாடு அடையாளப்படுத்தும் ஆய்வி(word annotation tool), இலக்கண அடையாளப்படுத்தல்(grammatical tagger tool), தலைச்சொல் ஆக்கம்(head word identifier tool), குறிப்புரை செய்தல்(text annotation tool), பகுத்துக் குறித்தல்(word Libranation tool) ஆகியவற்றை வரிசைப்படுத்தலாம்.

சான்று 3: இணையவழித் தமிழ்ப்பணியில் ஈடுபடும் இணையத் தளங்கள்

எதிர்நோக்கும் தேவைகள்: (முடிவுரை)

இலக்கணத்தில் தொல்காப்பியம் மற்றும் நன்னூல், இலக்கியங்கள், காப்பியங்கள், சமய இலக்கியங்கள் பலவும் சிற்றிலக்கியத்தில் மூவருலாவும் தமிழ் இணையக் கல்விக்கழகத்தால் உள்ளீடு செய்யப்பட்டு உள்ளன. மேலும் பல இலக்கியங்களையும் உள்ளீடு செய்யும் பணி நடைபெற்று வருகின்றது.

  • இவை போன்றே வட்டார வழக்குகளில் எழுதப்பட்ட சிறுகதைகள், புதினங்கள் ஆகியவற்றை உள்ளீடு செய்யப்படுவதுடன் செவ்விலக்கியங்களுக்கான ஆய்வு முறையின்படியே விரிதரவுகளைச் செய்தல் வேண்டும். செவ்விலக்கியங்களில் முன்னோடியான முன்னோடியாக கருதப்படும் வாய்மொழி இலக்கியங்களுக்கும் இத்தகைய ஆய்வுமுறையை எதிர்காலத்தில் செய்யப்படுதல் வேண்டும். காலம்தோறும் தோன்றும் புதிய இலக்கிய வகைகளுக்கும் அவ்வாறு செய்யப்படுதல் வேண்டும்.சொற்கள் பகுப்பாய்வு, பொருண்மைப் பகுப்பாய்வு ஆகியவற்றுடன் பெருந் தரவுகளும் உள்ளீடு செய்யப்படும் போது, தமிழ்மொழியின் வளங்கள் ஓர்மைப்பட்டதன்று எனவும் பல்வேறு நிலைகளில் வளமைப் பெற்றது எனவும் பிற மொழிகளை விடவும் சிறப்புப்பெற்றது எனவும் நிறுவ முடியும். அதற்கு இத்தகைய தமிழிலக்கியப் பகுப்பாய்வு முறைகளைக் கணினி வளங்களின் துணைக் கொள்ளல் வேண்டும்.அவ்வாறு செய்யும் போது அயலகத்தார் இங்குள்ள வட்டாரவழக்குகளை அறிய வாய்ப்பளிக்கும்.

Reference

  1. தமிழ் வளர்ச்சியில் இணையத்தின் பயன்பாடு கட்டுரை,
  2. https://www.happidaisy.com/2021/07/blog-post_28.html (26.12.2021)
  3. http://218.248.27.196:90/CICT_Concordance/Default.aspx (26.12.2021)
  4. சுப்பையாபிள்ளை,கு.(2003). இயற்கை மொழியாய்வு-தமிழ், உலகத்தமிழாய்வு நிறுவனம், தரமணி, சென்னை. (பக்.23)
  5. சண்முகன், செ.(1989)பொருண்மையியல், அனைத்திந்தியத் தமிழ் மொழியியல் கழகம், அண்ணாமலை நகர், சிதம்பரம். (பக்.3)
  6. http://www.tamilvu.org/ta/%E0%AE%86%E0%AE%AF%E0%AF%8D%E0%AE%B5%E0%AF%81%E0%AE%AE%E0%AE%B1%E0%AF%8D%E0%AE%B1%E0%AF%81%E0%AE%AE%E0%AF%8D%E0%AE%89%E0%AE%B0%E0%AF%81%E0%AE%B5%E0%AE%BE%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%AE%E0%AF%8D (26.12.2021)
  7. https://www.infitt.org/category/press/ (26.12.2021)
  8. https://www.projectmadurai.org/pmworks.html (26.12.2021)
  9. https://kanithamizh.org/ (26.12.2021)
error: Content is protected !!