Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Rimkutė, Erika; Daudaravičius, Vidas

Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Direct Link:

Open Access (CC) BY 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Straipsnis / Article

Language:

Lietuvių kalba / Lithuanian

Title:

Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Alternative Title:

Morphologically annotated corpus of contemporary Lithuanian language

Authors:

In the Journal:

Kalbų studijos [Studies About Languages]. 2007, Nr. 11, p. 30-35

Subject Category:

Morfologija / Morphology.

Summary / Abstract:

LTStraipsnyje pristatomi didelio lietuvių kalbos tekstyno automatinio morfologinio vienareikšminimo tyrimai ir anotavimo rezultatai. Didėjant informacinių technologijų plėtrai, spartėjant kalbos kompiuterizavimo darbams, iškilo būtinybė kurti didelius anotuotus tekstynus tam, kad būtų galima pasinaudoti jų duomenimis pereinant į aukštesnius kalbos kompiuterizavimo lygmenis (pvz., automatinę sintaksinę ir semantinę analizę, mašininį vertimą). Remiantis statistiniais metodais, pavyko sukurti lietuvių kalbos morfologinio anotavimo priemonę, kurios vienareikšminimo tikslumas siekia 94 proc., ir taip išspręsti didelį lietuvių kalbos morfologinį daugiareikšmiškumą. Pateikiami statistiniai duomenys apie kalbos dalių pasiskirstymą anotuotame tekstyne, dažniausias žodžių formas ir dažniausias lemas, išvardintos dažniausios kaitomos kalbos dalys, išrinktos iš morfologiškai anotuoto „Dabartinės lietuvių kalbos tekstyno“. Naudojant Paslėptuosius Markovo modelius buvo gautas 94 proc. visiško morfologinio anotavimo tikslumas, kuris atitinka kitoms kalboms taikomų modelių tikslumą mokymui naudojant 1 mln. morfologiškai anotuotą tekstyną. Taip pat buvo pasiektas 99 proc. tikslumas nustatant antraštines lietuvių kalbos žodžių formas (lemas). Neatpažintų žodžių vartosenos kiekis sudaro 5,6 proc. (apie 800 tūkst. žodžių formų). Norint automatiškai sėkmingai išanalizuoti šias žodžių formas reikia automatinės morfologinės analizės priemonės žodyną papildyti 100-150 tūkst. naujų antraštinių žodžių. 1 mln. morfologiškai anotuoto tekstyno užtenka nagrinėjant pagrindinius lietuvių kalbos dėsningumus.Reikšminiai žodžiai: Daugiareikšmiškumas; Morfologinis anotavimas; Morfologinis vienareikšmiškumas; Morfologinė analizė; Statistinis morfologinis vienareikšminimas; Tekstynas; Ambiguity; Corpus; Morphological analysis; Morphological analysis of the ambiguity; Morphological annotation; Morphological disambiguation; Polysemy; Statistical morphological disambiguation; The statistical morphological disambiguation.

ENResearch of morphological disambiguation and morphological annotation of the 100 million word Lithuanian corpus are presented in the article. Statistical methods enabled to develop the automatic tool of morphological annotation for Lithuanian. The method of Hidden Markov models for morphological annotation has allowed achieving the precision of 94%, which is comparable to the precision achieved for other languages, when the 1 mln. word training corpus is used. The precision of 99% is reached for establishing headwords of Lithuanian words. The precision measure estimates only the process of disambiguation, while unrecognised words are not included in the precision test. The amount of unrecognised words makes up 5,6% of all used word-forms (more than 800,000 different word-forms). 1 million word morphological corpus is enough for the analysis of morphological phenomena in the Lithuanian language, as distribution of parts of speech in the whole 100 million word corpus does not differ significantly from the distribution in the training corpus. [text from author]

ISSN:

1648-2824; 2029-7203

Subject:

Kalbotyra / Linguistics

Related Publications:

A Comparison of approaches for sentiment classification on Lithuanian internet comments / Jurgita Kapočiūtė-Dzikienė, Algis Krupavičius, Tomas Krilavičius. Proceedings of the 4th biennial international workshop on Balto-Slavic natural language processing. Stroudsburg (PA): Association for Computational Linguistics, 2013. P. 2-11.
Corpus of contemporary Lithuanian language - the standardised way / Erika Rimkutė, Jolanta Kovalevskaitė, Vida Melninkaitė, Andrius Utka, Daiva Vitkutė-Adžgauskienė. Human language technologies - the Baltic perspective : proceedings of the fourth International Conference Baltic HLT 2010 / edited by Inguna Skadiņa and Andrejs Vasiļjevs. Amsterdam: IOS Press, 2010. P. 154-160.
Experiments on Lithuanian term extraction / Gintarė Grigonytė, Erika Rimkutė, Andrius Utka, Loic Boizou. Proceedings from 18th Nordic Conference of Computational Linguistics, NODALIDA 2011, Riga, Latvia / editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. Riga: Northern European Association for LanguageTechnology (NEALT), 2011. P. 82-89.
Grožinės literatūros sakinių sudėtingumo analizė / Karolina Piaseckienė. Taikomieji tyrimai studijose ir praktikoje 2015, 11, p. 134-139.
Improving topic classification for highly inflective languages / Jurgita Kapočiūtė-Dzikienė, Frederik Vaassen, Walter Daelemans, Algis Krupavičius. Proceedings of COLING 2012: technical papers. Bombay: Indian Institute of Technology, 2012. P. 1393-1410.
Learner corpus annotation in Latvia and Lithuania / Inga Znotiņa. Darnioji daugiakalbystė. 2015, No. 7 p. 145-159.
"Lemuoklis" - morfologinei analizei / Vytautas Zinkevičius. Darbai ir dienos. 2000, t. 24, p. 245-274.
Lietuviškų tekstų stilių palyginimas remiantis universalių kiekybinių charakteristikų statistine analize / Karolina Piaseckienė, Marijus Radavičius, Raimundas Stiklius. Lietuvos matematikos rinkinys. 2010, t. 51, p. 307-312.
Lietuvių kalbos dvižodžių junginių morfologinių ir sintaksinių ypatybių sąsajos / Loïc Boizou, Jolanta Kovalevskaitė, Erika Rimkutė. Darbai ir dienos. 2015, t. 64, p. 115-131.
Lietuvių kalbos leksemų morfologinis anotavimas: ypatumai ir sunkumai / Erika Rimkutė, Vidas Valskys, Jolanta Vaskelienė. Kalbų studijos. 2009, Nr. 15, p. 63-70.
Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne : disertacija / Erika Rimkutė. Kaunas, 2006. 203 p.
Morfologiškai daugiareikšmių formų atsiradimo priežastys / Miglė Žemrietė. Bendrinė kalba 2023, 96, p. 107-137.
Tekstynais paremti vertimų kalbos tyrimai ir šaltiniai / Jurgita Vaičenonienė, Jolanta Kovalevskaitė, Teresė Ringailienė. Kalbų studijos. 2017, Nr. 30, p. 42-55.
Tekstų nehomogeniškumo tyrimas naudojant žymeklius / Monika Lapėnaitė-Gedvilė, Karolina Piaseckienė, Marijus Radavičius. Lietuvos statistikos darbai. 2015, 54, 1, p. 92-100.
The Morphologically annotated Lithuanian Corpus / Vytautas Zinkevičius, Vidas Daunaravičius, Erika Rimkutė. Second Baltic Conference on Human Language Technologies : Proceedings : April 4-5, 2005, Talinn, Estonia / editors Margit Langemets, Priit Penjam. Tallinn: Institute of Cybernetics, 2005. P. 365-370.

Permalink:

https://www.lituanistika.lt/content/17493

Updated:

2025-02-28 13:44:07

Metrics:

Views: 191 Downloads: 21

Export:

Choose type:

Download

User ID:
User Password: