Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai
Alternative Title:
Lithuanian morphologically annotated corpus and treebank
In the Journal:
Bendrinė kalba [Standard Language]. 2017, 90, 1 pdf (31 p.)
Summary / Abstract:

LTAnotuoti tekstynai – pagrindiniai ištekliai, be kurių neapsieinama plėtojant kalbos technologijas, kompiuterizuojant kalbą. Nuo anotuotų tekstynų dydžio, kokybės, parengimo principų neretai priklauso ir kitų įrankių kūrimo galimybės. Straipsnyje apžvelgti Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre parengti du anotuoti lietuvių kalbos tekstynai: morfologiškai anotuotas tekstynas MATAS ir sintaksiškai anotuotas tekstynas ALKSNIS. Pristatyta jų struktūra, naudotos anotavimo pažymos, anotavimo programos. Daugiau dėmesio skirta naujesniam anotuotam tekstynui ALKSNIS, paminėti sunkiausi jo anotavimo aspektai. Taip pat daug dėmesio straipsnyje skirta paieškai abiejuose tekstynuose per ANNIS sistemą. Pateiktos konkrečios taisyklės ir jų kombinacijos, leidžiančios atlikti tiek paprastąją (ieškoti konkrečios žodžio formos, antraštinės formos, tam tikros sintaksinės funkcijos ir pan.), tiek sudėtinę paiešką (ieškoti iš kelių žodžių sudarytų junginių, kelių gramatinių kategorijų kombinacijų ir pan.). [Iš leidinio]

ENAnnotated corpora are fundamental resources, which are very useful to develop language technology. The size, quality, and structure of such annotated corpora has a direct influence on the development of other tools. This article describes two annotated corpora prepared by the Centre of Computational Linguistics at Vytautas Magnus University: MATAS, a morphologically annotated corpus, and ALKSNIS, a treebank. It mainly discusses the structure and the tag set of both corpora, as well as the annotation procedure and tools. Both corpora are available online through ANNIS interface, therefore the syntax of ANNIS simple and complex requests is summarised for the Lithuanian potential users. [From the publication]

ISSN:
2351-7204
Related Publications:
Permalink:
https://www.lituanistika.lt/content/70850
Updated:
2022-01-22 18:40:40
Metrics:
Views: 47    Downloads: 8
Export: