முனைவர் சி.முத்துச்செல்வி
உதவிப்பேராசிரியர்
இளநிலைத் தமிழ்த்துறை
அய்ய நாடார் ஜானகி அம்மாள் கல்லூரி
சிவகாசி
ABSTRACT
Tamil is a Dravidian language predominantly spoken by the Tamil people of India and Sri Lanka. It is one of the longest-surviving classical languages in the world. A recorded Tamil literature has been documented for over 2000 years. When we started to creating innovative software for the Tamil language, it can involve a variety of applications ranging from language processing and translation to educational tools and content creation. Predicting the exact software needs for the future is challenging, as it depends on technological advancements, emerging trends, and specific applications. However, we can anticipate that future software development for the Tamil language may involve cutting-edge technologies and tools (AI Machine Learning, NLP, and CLTK). Here I aimed to search some quality software needs for the future of Tamil language development.
Keywords :
Software – மென்பொருள், Transformers – மின் மாற்றிகள், Ecosystem – சுற்றுச் சூழல் அமைப்பு, Tokenizing – அடையாளப்படுத்துதல், Morphological – உருவவியல், NLP – இயற்கைமொழி செயலாக்கம், Artificial Intaligent- செயற்கையான அறிவுத்திறம், GPT2-Tamil Transformer – செயற்கை நுண்ணறிவு தொழில்நுட்பம், OpenNMT – Open Source Neturl Machine Translation – நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் , BLEU – Bilingual Evaluation Understudy – இருமொழி மதிப்பீடு கீழ்ப்படிப்பு, POS – Part of Speech Tagging – கீழ்ப்படிப்பு, பேச்சு குறிச்சொல்லின் ஒரு பகுதி, Morphology – உருவவியல் பகுப்பாய்வு
ஆய்வுச்சுருக்கம்
தமிழ்மொழி இந்தியா மற்றும் இலங்கையில் உள்ள தமிழ் மக்களால் பெரும்பாலும் பேசப்படும் ஒரு திராவிட மொழியாகும். உலகிலேயே மிக நீண்ட காலம் வாழும் செம்மொழிகளில் இதுவும் ஒன்று. பதிவு செய்யப்பட்ட தமிழ் இலக்கியம் 2000 ஆண்டுகளுக்கும் மேலாக ஆவணப்படுத்தப்பட்டுள்ளது. நாம் தமிழ் மொழிக்கான புதுமையான மென்பொருளை உருவாக்கத் தொடங்கியபோது, மொழி செயலாக்கம் மற்றும் மொழிபெயர்ப்பில் இருந்து கல்விக் கருவிகள் மற்றும் உள்ளடக்க உருவாக்கம் வரை பல்வேறு பயன்பாடுகளை உள்ளடக்கியது. எதிர்காலத்திற்கான சரியான மென்பொருள் தேவைகளை கணிப்பது சவாலானது, ஏனெனில் இது தொழில்நுட்ப முன்னேற்றங்கள், வளர்ந்து வரும் போக்குகள் மற்றும் குறிப்பிட்ட பயன்பாடுகளைப் பொறுத்தது. இருப்பினும், தமிழ் மொழிக்கான எதிர்கால மென்பொருள் உருவாக்கம் அதிநவீன தொழில்நுட்பங்கள் மற்றும் கருவிகளை உள்ளடக்கியதாக இருக்க வேண்டும். எதிர்காலத்தில் தமிழ் மொழி வளர்ச்சிக்கான சில தரமான மென்பொருள்களின் தேவைகள் குறித்து ஆராய்வதே இவ்ஆய்வின் நோக்கமாகும்.
தமிழ் மொழி வளர்ச்சிக்கான மென்பொருள்கள்:
செயற்கையான அறிவுத்திறம் (ARTIFICIAL INTALIGENT) மற்றும் இயந்திர கற்றல் கட்டமைப்புகளைப் பயன்படுத்துதல்
பல செயற்கையான அறிவுத்திறம்(AI) மற்றும் இயந்திர கற்றல் கட்டமைப்புகள் உள்ளன, அவை மொழி-அஞ்ஞானம் மற்றும் தமிழ் உட்பட பல்வேறு மொழிகளில் பயன்பாடுகளை உருவாக்க பயன்படுகிறது. இந்த கட்டமைப்புகள் இயற்கை மொழி செயலாக்கம் (NLP), இயந்திர மொழிபெயர்ப்பு மற்றும் பேச்சு அங்கீகாரம் போன்ற பணிகளுக்கான கருவிகள் மற்றும் நூலகங்களை வழங்குகின்றன. தமிழ் மொழிக்கான செயற்கையான அறிவுத்திறம் (AI) மற்றும் இயந்திர கற்றல் பயன்பாடுகளை உருவாக்க பயனுள்ள சில கட்டமைப்புகள் இவ்ஆய்வில் தரப்பட்டுள்ளன.
ஹக்கிங் ஃபேஸில் டிரான்ஸ்ஃபார்மர்ஸ
ஹக்கிங் ஃபேஸி என்ற செயலியில் இருந்து டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரி பல்வேறு இயற்கை மொழி செயலாக்கம் (NLP) பணிகளுக்கு முன் பயிற்சியளிக்கப்பட்ட மாதிரிகளை வழங்குகிறது, இதில் உரை வகைப்பாடு, பெயரிடப்பட்ட நிறுவன அங்கீகாரம் மற்றும் இயந்திர மொழிபெயர்ப்பு ஆகியவை அடங்கும். இந்த மாதிரிகள் தமிழில் குறிப்பிட்ட பணிகளுக்கு நன்றாக வடிவமைக்கப்படலாம் செயற்கை நுண்ணறிவு தொழில்நுட்பம் (GPT2-Tamil Transformer) மாதிரி. இது சுய-கண்காணிப்பு முறையில் தமிழ் தரவுகளின் ஒரு பெரிய லைப்ரரி நன்றாக டியூன் செய்யப்பட்டுள்ளது. இதன் பொருள் இது மூல நூல்களில் மட்டுமே தொடர்புடையது, அந்த உரைகளிலிருந்து உள்ளீடுகள் மற்றும் லேபிள்களை உருவாக்க ஒரு தானியங்கி செயல்முறையுடன் எந்த மனிதர்களும் அவற்றை எந்த வகையிலும் லேபிளிடவில்லை. இன்னும் துல்லியமாக, வாக்கியங்களில் அடுத்த வார்த்தையை யூகிக்க பயிற்சியளிக்கப்பட்டது மற்றும் உள்ளீடுகள் ஒரு குறிப்பிட்ட நீளத்தின் தொடர்ச்சியான உரையின் வரிசைகள் மற்றும் இலக்குகள் ஒரே வரிசையில் உள்ளன. ஒரு வார்த்தை அல்லது வார்த்தையின் துண்டு வலப்புறமாக மாற்றியது. டோக்கனுக்கான கணிப்புகளை 1 முதல் I (I – Infinitive முடிவில்லாதது) வரையிலான உள்ளீடுகளை மட்டுமே பயன்படுத்தப்படுகிறது. ஆனால் எதிர்கால டோக்கன்களைப் பயன்படுத்துவதில்லை என்பதை உறுதிப்படுத்த, உள்நாட்டில் மறைக்கும் பொறிமுறையைப் பயன்படுத்துகிறது
நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் (OpenNMT – Open Source Neturl Machine Translation)
தமிழ் மற்றும் இலக்கு மொழியில் (எ.கா. ஆங்கிலம்) ஜோடி வாக்கியங்களைக் கொண்ட இணையான தரவுத்தொகுப்புகளைத் தயாரிக்கவும்.
• உங்கள் தரவை பயிற்சி, சரிபார்ப்பு மற்றும் சோதனைத் தொகுப்புகளாகப் பிரிக்கவும்.
அடையாளப்படுத்துதல் (டோக்கனைசேஷன்) என்பது நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றலுக்கான (OpenNMT ) ஒரு திறந்த மூல சுற்றுச்சூழல் அமைப்பு ஆகும். தமிழுக்கான இயந்திர மொழிபெயர்ப்பு மாதிரிகளை உருவாக்க நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் (OpenNMT) ஐப் பயன்படுத்தலாம், தமிழிலிருந்து உரையை வேறு மொழிக்கு அல்லது அதற்கு நேர்மாறாக மொழிபெயர்க்க அனுமதிக்கிறது.
நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் (OpenNMT) ஐப் பயன்படுத்தி தமிழ் மொழி வளர்ச்சிக்கான படிகள்:
தரவு தயாரிப்பு
நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் (OpenNMT) அடையாளப்படுத்துதல் (டோக்கனைசரை) முறையைப் பயன்படுத்தி நம் தரவை துணைச்சொற்களாக அடையாளப்படுத்த முடியும்.
onmt_tokenize –mode aggressive –joiner_annotate < source.txt > source_tokenized.txt
onmt_tokenize –mode aggressive –joiner_annotate < target.txt > target_tokenized.txt
கட்டமைப்பு
மாதிரி கட்டமைப்பு, பயிற்சி அளவுருக்கள் மற்றும் தரவு பாதைகள் ஆகியவற்றைக் குறிப்பிடும் ஒரு உள்ளமைவு கோப்பை ((YAML வடிவம்) உருவாக்கவும். நரம்பியல் இயந்திர மொழிபெயர்ப்பு மற்றும் நரம்பியல் வரிசைக் கற்றல் (OpenNMT) வழங்கிய மாதிரி உள்ளமைவு கோப்பை நாம் பயன்படுத்தலாம் அல்லது நம் தேவைகளின் அடிப்படையில் தனிப்பயனாக்கலாம்.
பயிற்சி
இவ்வகையில் தயாரிக்கப்பட்ட தரவு மற்றும் உள்ளமைவு கோப்பைப் பயன்படுத்தி எங்கள் மாதிரியைப் பயிற்றுவிக்கவும்.
onmt_train -config your_config_file.yaml
உங்கள் தரவு மற்றும் மாதிரி தேவைகளின் அடிப்படையில் பயிற்சி படிகளின் எண்ணிக்கை, கற்றல் வீதம் மற்றும் தொகுதி அளவு போன்ற அளவுருக்களை சரிசெய்யவும்.
மொழிபெயர்ப்பு
பயிற்சி பெற்ற மாதிரியைப் பயன்படுத்தி வாக்கியங்களை மொழிபெயர்க்கவும்.
onmt_translate -model model_step_10000.pt -src source_test.txt -output pred.txt -replace_unk –verbose
மதிப்பீடு
இருமொழி மதிப்பீடு கீழ்ப்படிப்பு (BLEU – Bilingual Evaluation Understudy) மதிப்பெண் போன்ற அளவீடுகளைப் பயன்படுத்தி எங்கள் மாதிரியின் செயல்திறனை மதிப்பிடவும்.
onmt_translate -model model_step_10000.pt -src source_test.txt -output pred.txt -replace_unk -verbose
ஃபைன்-டியூனிங் (விரும்பினால்)
தேவைப்பட்டால், அதன் செயல்திறனை மேம்படுத்த, களம் சார்ந்த தரவுகளில் உங்கள் மாதிரியை நன்றாகச் சரிசெய்யலாம்.
onmt_train -config your_finetuning_config.yaml
வரிசைப்படுத்தல்
நிகழ்நேர மொழிபெயர்ப்பிற்காக நம் பயிற்சி பெற்ற மாதிரியை நம் பயன்பாடு அல்லது சேவையில் வேண்டும்.
ஸ்டான்போர்ட் இயற்கை மொழி செயலாக்கம் (NLP) நூலகங்கள்:
ஸ்டான்போர்ட் இயற்கை மொழி செயலாக்கம் (NLP) கருவித்தொகுப்பு என்பது ஸ்டான்போர்ட் இயற்கை மொழி செயலாக்கம் (NLP) குழுமத்தால் உருவாக்கப்பட்ட இயற்கை மொழி செயலாக்க கருவிகளின் தொகுப்பாகும். இந்த கருவிகள், அடிப்படை அடையாளப்படுத்துதல் (டோக்கனைசேஷன்) மற்றும் ஒரு பகுதி-பேச்சு குறியிடல் முதல் பெயரிடப்பட்ட நிறுவன அங்கீகாரம் மற்றும் உணர்வு பகுப்பாய்வு போன்ற மேம்பட்ட பணிகள் வரை பல்வேறு மொழியியல் பணிகளைச் செய்ய வடிவமைக்கப்பட்டுள்ளன. கருவித்தொகுப்பு ஜாவாவில் செயல்படுத்தப்பட்டுள்ளது மற்றும் பயனர் நட்பு இடைமுகத்தைக் கொண்டுள்ளது, இது அனைத்து ஆராய்ச்சியாளர்களுக்கும் டெவலப்பர்களுக்கும் அணுகக்கூடியதாக உள்ளது.
அடையாளப்படுத்துதல் (டோக்கனைசிங்)
அடையாளப்படுத்துதல் (டோக்கனைசேஷன்) என்பது உரை உள்ளடக்கத்தை டோக்கன்கள் எனப்படும் அர்த்தமுள்ள கூறுகளாக உடைக்கும் செயல்முறையாகும். இந்த டோக்கன்கள் வார்த்தைகள், விதிமுறைகள், குறியீடுகள் போன்றவையாக இருக்கலாம். பொதுவாக, அடையாளப்படுத்துதல் (டோக்கனைசேஷன்) செயல்முறை வார்த்தை அளவில் நடக்கும், ஆனால் சில நேரங்களில் ‘வார்த்தை’ என்றால் என்ன என்பதை வரையறுப்பது கடினமாக இருக்கும். நிலையான அடையாளப்படுத்துதல் (டோக்கனைஸ்கள்) போன்ற எளிய ஹூரிஸ்டிக்ஸைப் பயன்படுத்துகின்றன,
• நிறுத்தற்குறிகள் மற்றும் இடைவெளிகள் டோக்கன்களுடன் வழங்கப்படலாம் அல்லது வழங்கப்படாமல் இருக்கலாம்.
• அகரவரிசை எழுத்துகள் அல்லது எண்களின் தொடர்ச்சியான சரங்கள் ஒற்றை டோக்கனாகக் கருதப்படுகின்றன.
• டோக்கன்கள் இடைவெளி எழுத்துகள் அல்லது நிறுத்தற்குறி எழுத்துகளைப் பயன்படுத்தி பிரிக்கப்படுகின்றன.
பேச்சு குறிச்சொல்லின் ஒரு பகுதி (POS – Part of Speech Tagging)
பேச்சு குறிச்சொல்லின் குறியிடல் என்பது ஒரு வாக்கியத்தின் பொருளைப் புரிந்துகொள்வதில் ஒரு முக்கிய செயல்முறையாகும், இது அண்டை சொற்கள் மற்றும் ஒரு வார்த்தையைச் சுற்றி பின்னப்பட்ட தொடரியல் அமைப்பு பற்றிய சாத்தியமான அறிவை ஊகிக்க உதவுகிறது. என்எல்பி கருவியின் துல்லியம் அதன் பேச்சு குறிச்சொல்லின் (POS – Part of Speech Tagging) டேக்கரைப் பொறுத்தது என்பதால் பேச்சு குறிச்சொல் டேக்கிங் முக்கியமானது.
ஆங்கிலம் போன்ற மொழிகளுக்கு பல நன்கு நிறுவப்பட்ட பேச்சு குறிச்சொல் டேக்கிங் கருவிகள் உள்ளன. இருப்பினும், தமிழ் போன்ற வளம் குறைந்த மொழிக்கு, குறைந்த எண்ணிக்கையிலான பணிகள் மேற்கொள்ளப்பட்டுள்ளன மற்றும் பல்வேறு அணுகுமுறைகள் இன்னும் சோதிக்கப்படவில்லை. குறிப்பாக, தமிழ் போன்ற மிக உயர்ந்த மொழிக்கு குறிச்சொல்லின் சிக்கலான தன்மை அதிகரிக்கிறது.
தமிழ் மொழிக்கான பேச்சு குறிச்சொல்லை RDRPOSTAGGER ஆதரிக்கிறது. இது ஒரு சிற்றலை-கீழ் விதி அடிப்படையிலான பேச்சு குறிச்சொல் டேக்கர் ஆகும், இது முன் பயிற்சி பெற்ற பேச்சு குறிச்சொல் டேக்கிங் மாட்யூல்களுடன் வருகிறது. இந்த நூலகம் தமிழ் மொழிக்கான யுனிவர்சல் பேச்சு குறிச்சொல்லின் குறிச்சொற்களை மட்டுமே ஆதரிக்கிறது என்பதை நினைவில் கொள்ளவும்.
ஆங்கிலம் போன்ற மொழிகளுக்கு பல நன்கு நிறுவப்பட்ட பேச்சு குறிச்சொல்லின் டேக்கிங் கருவிகள் உள்ளன. இருப்பினும், தமிழ் போன்ற வளம் குறைந்த மொழிக்கு, குறைந்த எண்ணிக்கையிலான பணிகள் மேற்கொள்ளப்பட்டுள்ளன மற்றும் பல்வேறு அணுகுமுறைகள் இன்னும் சோதிக்கப்படவில்லை. குறிப்பாக, தமிழ் போன்ற மிக உயர்ந்த மொழிக்கு குறிச்சொல்லின் சிக்கலான தன்மை அதிகரிக்கிறது.
உருவவியல் பகுப்பாய்வு (Morphology)
ஸ்டெம்மிங் என்பது ஒரு கணக்கீட்டு செயல்முறையாகும், அங்கு ஒரே வேரைக் கொண்ட சொற்கள் பொதுவான வடிவத்திற்குக் குறைக்கப்படுகின்றன, பொதுவாக ஒவ்வொரு வார்த்தையும் அதன் வழித்தோன்றல் மற்றும் ஊடுருவல் பின்னொட்டுகளை அகற்றுவதன் மூலம். பெரும்பாலான தரவுகளை வாசித்தல் (IR – Instruction Reader) அமைப்புகள் மூலச் சொற்களை அடையாளம் காணவும், மீட்டெடுப்பு செயல்திறனை மேம்படுத்தவும் ஸ்டெம்மிங் செயல்முறையைப் பயன்படுத்துகின்றன.
உருவவியல் பகுப்பாய்வு ஒரு வார்த்தையின் உருவவியல் பண்புகள் பற்றிய தகவலை உருவாக்குகிறது. இயந்திர மொழிபெயர்ப்புகளைச் செய்வதற்கு இது மிகவும் முக்கியமான அங்கமாகும்.
ஸ்டெம்மிங் என்பது உருவவியல் பகுப்பாய்வு விட எளிமையான செயல்முறையாகும். ஆனால் ஸ்டெம்மிங் மட்டுமே வார்த்தைகளை ஊடுருவினால் வேர் வார்த்தைகளை அடையாளம் காண முடியாது. ஸ்டெம்மிங்கால் ஆதரிக்கப்படாத கூடுதல் பகுப்பாய்வைக் கவனித்துக்கொள்ளும் திறனின் காரணமாக MA (AU) ஸ்டெம்மிங்கை விட சிறப்பாக செயல்படுவதாக நிரூபிக்கப்பட்டுள்ளது. ஸ்டெம்மிங் குறைவான சொல் ஊடுருவல்களைக் கொண்ட மொழிகளுக்கு அதிக துல்லியத்தை அளிக்கிறது. ஆனால் சிக்கலான உருவவியல் கொண்ட மொழிகளின் அடிப்படையில் அல்காரிதம் ஸ்டெம்மர்களை விட உருவவியல் பகுப்பாய்வு சிறப்பாக செயல்படுகிறது. தமிழ் உருவவியல் ரீதியாக வளமான மொழியாக இருப்பதால், பொதுவாக ஸ்டெமர்களை விட உருவவியல் பகுப்பாய்வு (Morphology) பொருத்தமானது.
முடிவுரை
மேலே பட்டியலிடப்பட்டுள்ள குறிப்புகள் எதிர்காலத்தின் தேவையை நிறைவேற்றுவதில் அதன் முயற்சிகளை நிறுவுகின்றன. தமிழ் மொழி வளர்ச்சியின் எதிர்காலத்திற்கான சாத்தியமான மென்பொருள் தேவைகள் மொழியியல் ஆராய்ச்சி மற்றும் கல்வி முதல் செயற்கை நுண்ணறிவு போன்ற மேம்பட்ட தொழில்நுட்பங்கள் வரை பல்வேறு களங்களில் பரந்து விரிந்துள்ளன. வரலாற்று மற்றும் சமகால சூழல்களில் தமிழ் மொழியின் முக்கியத்துவத்தை உணர்ந்து, புதுமையான மென்பொருளின் உருவாக்கம் மொழியைப் பாதுகாப்பதற்கும், மேம்படுத்துவதற்கும், முக்கியமானது.
குறிப்புகள்
1.செயற்கை நுண்ணறிவு: ஸ்டூவர்ட் ரஸ்ஸல் மற்றும் பீட்டர் நார்விக் ஆகியோரின் நவீன அணுகுமுறை
2.ஹாப்சன் லேன், ஹான்ஸ் ஹாப்கே மற்றும் கோல் ஹோவர்ட் ஆகியோரால் இயற்கை மொழி செயலாக்கம்
3.சௌமியா வஜ்ஜாலா மற்றும் பலர் மூலம் நடைமுறை இயற்கை மொழி செயலாக்கம்