The Morphologically annotated Lithuanian Corpus

Zinkevičius, Vytautas; Daudaravičius, Vidas; Rimkutė, Erika

The Morphologically annotated Lithuanian Corpus

Direct Link:

©InC – Lituanistika

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygos dalis / Part of the book

Language:

Anglų kalba / English

Title:

The Morphologically annotated Lithuanian Corpus

Authors:

In the Book:

Second Baltic Conference on Human Language Technologies: Proceedings: April 4-5, 2005, Talinn, Estonia. P. 365-370.. Tallinn: Institute of Cybernetics, 2005

Subject Category:

Kaunas. Kauno kraštas; Lietuva (Lithuania); Morfologija / Morphology; Žodžių daryba. Žodžio dalys / Word formation. Parts of a word.

Summary / Abstract:

LTStraipsnyje pristatytas VDU Kompiuterinės lingvistikos centre parengtas morfologiškai anotuotas tekstynas, sudarytas iš 1 mln. žodžių. Aprašytas morfologiškai anotuoto tekstyno rengimas, tvarkymo procesas, naudota automatinės morfologinės analizės programa, teksto anotavimo etapai; pateikta tekstyno žanrinė sudėtis, naudojamos kalbinės ir nekalbinės pažymos, statistiniai duomenys apie tekstyną sudarančius žodžius. Šis tekstynas palygintas su kitais panašaus pobūdžio anotuotais tekstynais. Aptartas automatinės morfologinės analizės metu išryškėjęs morfologinis daugiareikšmiškumas, jo atsiradimo priežastys ir galimybės jį sumažinti. Pateikti duomenys apie kaitybinių formų ir kalbos dalių vartoseną morfologiškai anotuotame tekstyne. Tekstyne kiekvienam žodžiui pateiktas antraštinis pavidalas (lema) ir gramatinė pažyma (kalbos dalis ir atitinkamos gramatinės kategorijos). Straipsnyje pateiktas naudotų pažymų sąrašas. Automatiškai anotuojant tekstus naudojama morfologinės analizės programa, kurios leksikonas sudarytas iš 70 tūkst. šaknų ir skaitmeninių kaitybos bei darybos modelių. Morfologiškai anotuoto tekstyno rengimo procesas yra toks: programa anotuoja pirminius tekstus ir pateikia lemas bei gramatines kategorijas. Po automatinės analizės gaunami morfologiškai daugiareikšmiai anotuoti tekstai, todėl reikalingas rankinis vienareikšminimas. Po jo automatiškai generuojami XML formato failai. Morfologiškai anotuotas tekstynas svarbus kalbinei ir statistinei analizei, norint toliau kompiuterizuoti kalbą: kurti automatinės sintaksinės ir semantinės analizės programas.

ENThe article is about the morphologically annotated text data base of 1 million words put together by the Computer Linguistics Centre of VDU (Vytautas Didysis University), Kaunas. The article describes the preparation of the morphologically annotated text data base, the management process, the automated morphological analysis program used, and the phases of annotating the texts. The genre composition of the text data base is stated, likewise the linguistic and non-linguistic markers used, and statistical data about the words in the data base. This text data base is compared to other similar annotated text data bases. The article discusses the morphological ambiguity that emerged during the automated morphological analysis, the reasons for its occurrence and the options for minimising it. Data is given about the use of inflected forms and parts of speech in the morphologically annotated text data base. In the text data base, each word is annotated with a heading (‘lema’) and grammatical indicator (part of speech and matching grammatical categories). The article lists grammatical indicators used. For automatic annotation of the text, a morphological analysis program was used, the lexicon of which is composed of 70,000 word roots and digital inflectional and derivational (word-formation) models. The process of preparing a morphologically annotated text data base is this: the program annotates the primary texts and assigns lemas and grammatical indicators to them. After automated analysis, morphologically polyvalent annotated texts are obtained, therefore manual disambiguation is required. After that, XML format files are automatically generated. The morphologically annotated text data base is important for the further linguistic and statistical analysis that is required in the computerisation of language, namely, the creation of automated syntactical and semantic analysis programs.

Subject:

Kalbotyra / Linguistics

Related Publications:

Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas. Kalbų studijos 2006, 9, 30-37.
Corpus of contemporary Lithuanian language - the standardised way. Human language technologies - the Baltic perspective: proceedings of the fourth International Conference Baltic HLT 2010. Amsterdam: IOS Press, 2010. P. 154-160.
Dabartinės lietuvių kalbos gramatinių formų vartosena morfologiškai anotuotame tekstyne. Lituanistica 2006, 2, 34-55.
Dabartinės rašomosios lietuvių kalbos dažninis žodynas ir jo bazė. Acta linguistica Lithuanica 2002, 46, 19-37.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Lietuvių kalbos vardažodžių vartosena morfologiškai anotuotame tekstyne. Valoda - .... Valoda dažādu kultūru kontekstā 2006, 189-195.
Morfologinio daugiareikšmiškumo tipologija. Lituanistica 2003, 4, 60-78.
Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas. Kalbų studijos 2007, 11, 30-35.
Multiword expressions as discourse markers in Hebrew and Lithuanian. MoTra 2021. Proceedings of the first workshop on modelling translation - translatology in the digital age, 31 May, 2021 Saarland University, Saarbrücken, Germany. Stroudsburg : Association for Computational Linguistics, 2021. P. 46-56.
Priklausomybių gramatika pagrįstų lietuvių kalbos sintaksinių taisyklių išgavimas iš "Dabartinės lietuvių kalbos tekstyno". 10-osios tarpuniversitetines magistrantų ir doktorantų konferencijos "Informacinės technologijos '05'" pranešimų medžiaga. Kaunas: Technologija, 2005. P. 65-67.
Priklausomybių gramatika pagrįstų lietuvių klabos sintaksinių taisyklių išgavimas iš dabartinės lietuvių kalbos tekstyno. Informacinės technologijos: X tarpuniversitetinė magistrantų ir doktorantų konferencija: konferencijos pranešimų medžiaga. Kaunas: Technologija, 2005. P. 65-67.
Statistiniai, loginiai ir kompiuterių mokymosi metodai lietuvių kalbos morfologiniam daugiareikšmiškumui riboti. Informacinės technologijos, 2006: konferencijos pranešimų medžiaga, [2006 m. sausio mėn. 25-26 d.]. T. 1. Kaunas: Technologija, 2006. p. 104-108.

Permalink:

https://www.lituanistika.lt/content/7073

Updated:

2020-11-22 18:36:53

Metrics:

Views: 128 Downloads: 8

Export:

Choose type:

Download

User ID:
User Password: