Klitikų paieškos lietuviškame tekste algoritmai

Kasparaitis, Pijus; Anbinderis, Tomas

Klitikų paieškos lietuviškame tekste algoritmai

Direct Link:

Open Access (CC) BY 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Straipsnis / Article

Language:

Lietuvių kalba / Lithuanian

Title:

Klitikų paieškos lietuviškame tekste algoritmai

Alternative Title:

Algorithms for detecting clitics in the Lithuanian text

Authors:

In the Journal:

Kalbų studijos Studies About Languages, 2007, 10, 30-37

Subject Category:

Fonetika. Fonologija / Phonology; Šnekamoji kalba / Spoken language.

Summary / Abstract:

LTDarbe nagrinėjamas lietuvių kalbos teksto automatinio kirčiavimo uždavinys. Kirčiuotas tekstas gali būti naudojamas kalbos mokymui, balso sintezėje iš teksto ir pan. Šnekamojoje kalboje kai kurie žodžiai (vadinamieji klitikai) netenka kirčio, t. y. prišlyja prie gretimo žodžio. Kalbotyros darbuose galima rasti tik bendras pastabas apie žodžių akcentinio šlijimo tendencijas, o klitikų paieškos lietuviškame tekste algoritmai, reikalingi kalbinėms technologijoms, – dar visai nenagrinėta tema. Darbe apžvelgiami šlijimą lemiantys faktoriai ir siūlomi metodai, kaip tekste rasti žodžius, kurie gali būti bekirčiai. Metodai remiasi šiais principais: 1) samplaikinių formų atpažinimu, 2) statistiniu žodžio kirčiavimo/nekirčiavimo dažniu, 3) kai kuriomis gramatikos taisyklėmis bei 4) gretimų žodžių kirčių pasiskirstymu (ritmika). Antrasis metodas yra itin paprastas ir duoda neblogų rezultatų, tačiau darbe parodyta, kad kai kurioms žodžių klasėms geresni rezultatai gaunami taikant trečiąjį ir ketvirtąjį metodus. Kiekvienam metodui apibrėžtos žodžių klasės, kurioms jis geriausiai tinka. Paaiškinta, kaip visus metodus sujungti į vieną algoritmą. Kuriant algoritmą buvo stengiamasi minimizuoti pirmosios ir antrosios rūšies klaidų sumą. Pritaikius šį algoritmą testavimo duomenims, klaidų ir visų žodžių santykis buvo 4,1%, o klaidų ir nekirčiuotų žodžių santykis – 18,8%.

ENThe task of automatic stressing of the Lithuanian text is analyzed in the paper. Stressed text can be used when teaching the Lithuanian language, in the text-to-speech synthesis systems, etc. In spoken language, some words are left unstressed (called clitics) and join the stressed ones. In linguistic papers it is possible to find only common tendencies of clisis however algorithms of clitics‘ search in Lithuanian language text necessary in human language technologies is a completely not researched field. Factors influencing clisis are reviewed and methods for detecting clitics are offered in the present paper. The methods are based on 1) recognizing combinational forms, 2) the statistical frequency of word being stressed/unstressed, 3) some grammatical rules, 4) stressing of adjacent words. The second method is very simple and quite reliable but better results were achieved when using the third and the fourth methods for some classes of words. Words’ classes are defined as well as which method suits best. It is explained, how to join all the methods into one algorithm. We attempt to minimize the sum of mistakes of 1st type and 2nd type when creating this algorithm. By applying this algorithm to the testing data 4.1% mistakes are received among all the words, and the ratio of mistakes and unstressed words is 18.8%.

ISSN:

1648-2824; 2029-7203

Subject:

Related Publications:

An Overview of Lithuanian intonation: a linguistic and modelling perspective. Informatica 2022, 33, 4, 795-832.
Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas. Baltų ir kitų kalbų fonetikos ir akcentologijos problemos. Vilnius: Vilniaus pedagoginio universiteto leidykla, 2004. P. 166-173.
Bendrinės lietuvių kalbos daiktavardžių ir būdvardžių kirčiavimo struktūrinis modelis, algoritmas ir realizacija. Kalbų studijos 2004, 6, 72-76.
Dabartinės lietuvių kalbos gramatika.. Vilnius : Mokslo ir enciklopedijų leidybos institutas, 2005. 745 p.
Dabartinės lietuvių kalbos žodynas.. Vilnius : Lietuvių kalbos institutas., 2021. 1 elektroninis išteklius (online).
Klitikai bendrinėje lietuvių kalboje. Respectus philologicus 2015, 27 (32), 187-197.
Lietuviško balso sintezatorių kokybės vertinimas. Kalbų studijos 2016, 28, 80-91.
Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais. Kalbų studijos 2009, 14, 25-31.
Morfologinių samplaikų atpažinimas ir klasifikavimas.. Lituanistica 2005, 2, 58-75.

Permalink:

https://www.lituanistika.lt/content/17443

Updated:

2025-02-28 13:43:44

Metrics:

Views: 131 Downloads: 7

Export:

Choose type:

Download

User ID:
User Password: