Knowledge-based grapheme-to-phoneme conversion of Lithuanian words

Norkevičius, Giedrius; Raškinis, Gailius; Kazlauskienė, Asta

Knowledge-based grapheme-to-phoneme conversion of Lithuanian words

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygų dalys / Parts of the books

Language:

Anglų kalba / English

Title:

Knowledge-based grapheme-to-phoneme conversion of Lithuanian words

Authors:

In the Book:

SPECOM 2005: 10th International Conference Speech and Computer, 17-19 October, 2005, Patras, Greece. P. 235-238.. Moscow: Moscow State Linguistic University, 2005

Subject Category:

Kirčiavimas. Tartis. Akcentologija / Accent. Accentology; Rašyba. Skyryba. Ortografija / Spelling. Punctation. Orthography.

Summary / Abstract:

LTStraipsnyje pristatomas algoritmas, kuris leidžia automatiškai užrašyti lietuvių kalbos žodžius SAMPA-LT fonetinės transkripcijos ženklais (transkribuoti). Žodžių užrašymo fonetinės transkripcijos ženklais algoritmas veikia trimis etapais: pradžioje žodžiai yra skiemenuojami, vėliau kirčiuojami ir galiausiai transkribuojami. Iš šių trijų sudėtingiausia yra automatinio kirčiavimo užduotis. Pasiūlytas kirčiavimo algoritmas remiasi tradicinėmis kirčiavimo taisyklėmis, kurias performulavo ir sprendimų medžio pavidalu struktūrizavo lietuvių kalbos ekspertai. Kirčiavimo taisyklės grupuojamos pagal lietuvių kalbos dalis ir/arba atskiras morfologines kategorijas. Algoritmas taip pat remiasi specialiai šiam darbui surinktais ir paruoštais lingvistiniais resursais: žiniomis apie hiato vartojimą, apie pirminius ir mišriuosius lietuvių kalbos veiksmažodžius bei jų pagrindines formas, apie daiktavardžių ir būdvardžių kirčiuotes, taip pat žiniomis apie lietuvių kalboje vartojamus tarptautinius žodžius. Pasiūlyto automatinės žodžių transkripcijos algoritmo tikslumas buvo eksperimentiškai įvertintas, liepiant jam apdoroti apie 50000 skirtingų žodžių formų. Šis žodžių formų sąrašas buvo sudarytas iš dažninio lietuvių kalbos žodžių sąrašo atrenkant po 100 dažniausių kiekvienos morfologinės kategorijos žodžių. Eksperimentai parodė, kad aprašyto algoritmo transkripcijos tikslumas siekia 93.5%, jei skaičiuojami taisyklingai transkribuoti žodžiai, ir 98.9%, jei skaičiuojami tinkami fonetiniai ženklai.

ENThis paper presents a knowledge-based approach to grapheme-to-phoneme conversion (G2P) of isolated words of Lithuanian. Grapheme-to-phoneme conversion is performed in three consecutive steps: syllable boundary identification, accentuation and transcription. Automatic accentuation is the most challenging task that is solved by combining lexicon with the accentuation rules formalised for every grammatical category. The algorithm is evaluated on the list of 50,000 word types which is obtained by selecting 100 most frequent word types per grammatical category. The proposed algorithm achieved 93.5% and 98.9% G2P accuracy at word and grapheme level respectively.

Subject:

Kalbotyra / Linguistics

Related Publications:

Automatinis skiemenavimas: problemos ir jų sprendimas. Kalbų studijos 2009, 15, 71-76.
From speech corpus to intonation corpus : clustering phrase pitch contours of Lithuanian. NODALIDA 2013: proceedings of the 19th Nordic conference of computational linguistics, May 22-24, 2013, Oslo university, Norway. Linköping: Linköping University Press, 2013. P. 353-363.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Modeling phone duration of Lithuanian by classification and regression trees, using very large speech corpus. Informatica 2008, 19, 2, 271-184.
Sprendimo medžių panaudojimas skiemenavimo problemai spręsti.. Informacinės technologijos, 2006: konferencijos pranešimų medžiaga, [2006 m. sausio mėn. 25-26 d.]. T. 1. Kaunas: Technologija, 2006. p. 53-57.

Permalink:

https://www.lituanistika.lt/content/8538

Updated:

2026-02-25 13:28:33

Metrics:

Export:

Choose type:

Download

User ID:
User Password: