Improving topic classification for highly inflective languages

Kapočiūtė-Dzikienė, Jurgita; Vaassen, Frederik; Daelemans, Walter; Krupavičius, Algis

Improving topic classification for highly inflective languages

Link to:

straipsnio tekstas

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygos dalis / Part of the book

Language:

Anglų kalba / English

Title:

Improving topic classification for highly inflective languages

Alternative Title:

Klasifikavimo į temas gerinimas stipriai kaitomoms kalboms

Authors:

In the Book:

Proceedings of COLING 2012: technical papers. P. 1393-1410.. Bombay: Indian Institute of Technology, 2012

Subject Category:

Žodžių daryba. Žodžio dalys / Word formation. Parts of a word.

Summary / Abstract:

LTNepaisant to, jog tokioms plačiai naudojamoms kalboms kaip anglų yra sukurta daug efektyvių metodų, sprendžiančių klasifikavimo į temas uždavinius, neaišku ar šie metodai yra tinkami visiškai skirtingoms kalboms. Siekiame išspręsti klasifikavimo į temas uždavinį gana mažai išteklių šioje srityje turinčiai lietuvių kalbai, kuri yra stipriai kaitoma, turi turtingą žodyną, sudėtingą žodžių darybos sistemą. Pademonstruosime, kad galima pasiekti ženkliai geresnius klasifikavimo rezultatus, kuomet atsižvelgiama į kaitomą kalbos pobūdį: naudojamos simbolių ngmamos vietoj labiau įprasto žodžių rinkinio. Gauti rezultatai perspektyvūs ne tik lietuvių kalbai, bet taip pat ir kitoms, panašiomis savybėmis pasižyminčioms, kalboms. Pademonstruosime, kad klasifikatorių, naudojančių simbolių n-gramas veikimas netgi efektyvesnis, palyginus su klasifikatoriais, naudojančiais į žodžių kamienus arba lemas transformuotą tekstą. O tai reiškia, kad šį klasifikavimo į temas metodą galima taikyti netgi toms kalboms, kurios neturi specializuotų automatinių gramatinių įrankių.

ENDespite the existence of many effective methods to solve topic classification tasks for such widely used languages as English, there is no clear answer whether these methods are suitable for languages that are substantially different. We attempt to solve a topic classification task for Lithuanian, a relatively resource-scarce language that is highly inflective, has a rich vocabulary, and a complex word derivation system. We show that classification performance is significantly higher when the inflective character of the language is taken into account by using character ngrams as opposed to the more common bag-of-words approach. These results are not only promising for Lithuanian, but also for other languages with similar properties. We show that the performance of classifiers based on character n-grams even surpasses that of classifiers built on stemmed or lemmatized text. This indicates that topic classification is possible even for languages for which automatic grammatical tools are not available.

Subject:

Kalbotyra / Linguistics

Related Publications:

A Comparison of approaches for sentiment classification on Lithuanian internet comments. Proceedings of the 4th biennial international workshop on Balto-Slavic natural language processing. Stroudsburg (PA): Association for Computational Linguistics, 2013. P. 2-11.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Lietuvių kalbos žodynas (t. I-XX, 1941-2002): elektroninis variantas.. Vilnius : Lietuvių kalbos institutas, 2005 (atnaujinta versija, 2018). 1 elektroninis išteklius (online).
Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas. Kalbų studijos 2007, 11, 30-35.
Predicting party group from the Lithuanian parliamentary speeches. Informacinės technologijos ir valdymas 2014, 43, 3, 321-332.

Permalink:

https://www.lituanistika.lt/content/85441

Updated:

2020-12-17 20:21:58

Metrics:

Export:

Choose type:

Download

User ID:
User Password: