Improving topic classification for highly inflective languages

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Anglų kalba / English
Title:
Improving topic classification for highly inflective languages
Alternative Title:
Klasifikavimo į temas gerinimas stipriai kaitomoms kalboms
In the Book:
Proceedings of COLING 2012: technical papers. Bombay: Indian Institute of Technology, 2012. P. 1393-1410
Summary / Abstract:

LTNepaisant to, jog tokioms plačiai naudojamoms kalboms kaip anglų yra sukurta daug efektyvių metodų, sprendžiančių klasifikavimo į temas uždavinius, neaišku ar šie metodai yra tinkami visiškai skirtingoms kalboms. Siekiame išspręsti klasifikavimo į temas uždavinį gana mažai išteklių šioje srityje turinčiai lietuvių kalbai, kuri yra stipriai kaitoma, turi turtingą žodyną, sudėtingą žodžių darybos sistemą. Pademonstruosime, kad galima pasiekti ženkliai geresnius klasifikavimo rezultatus, kuomet atsižvelgiama į kaitomą kalbos pobūdį: naudojamos simbolių ngmamos vietoj labiau įprasto žodžių rinkinio. Gauti rezultatai perspektyvūs ne tik lietuvių kalbai, bet taip pat ir kitoms, panašiomis savybėmis pasižyminčioms, kalboms. Pademonstruosime, kad klasifikatorių, naudojančių simbolių n-gramas veikimas netgi efektyvesnis, palyginus su klasifikatoriais, naudojančiais į žodžių kamienus arba lemas transformuotą tekstą. O tai reiškia, kad šį klasifikavimo į temas metodą galima taikyti netgi toms kalboms, kurios neturi specializuotų automatinių gramatinių įrankių. [Iš leidinio]Reikšminiai žodžiai: Klasifikavimas į temas; Simbolių n-gramos; Character n-grams; Lithuanian; Topic classification.

ENDespite the existence of many effective methods to solve topic classification tasks for such widely used languages as English, there is no clear answer whether these methods are suitable for languages that are substantially different. We attempt to solve a topic classification task for Lithuanian, a relatively resource-scarce language that is highly inflective, has a rich vocabulary, and a complex word derivation system. We show that classification performance is significantly higher when the inflective character of the language is taken into account by using character ngrams as opposed to the more common bag-of-words approach. These results are not only promising for Lithuanian, but also for other languages with similar properties. We show that the performance of classifiers based on character n-grams even surpasses that of classifiers built on stemmed or lemmatized text. This indicates that topic classification is possible even for languages for which automatic grammatical tools are not available. [From the publication]

Related Publications:
Permalink:
https://www.lituanistika.lt/content/85441
Updated:
2020-12-17 20:21:58
Metrics:
Views: 23
Export: