Knowledge-based grapheme-to-phoneme conversion of Lithuanian words

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Anglų kalba / English
Title:
Knowledge-based grapheme-to-phoneme conversion of Lithuanian words
Summary / Abstract:

LTStraipsnyje pristatomas algoritmas, kuris leidžia automatiškai užrašyti lietuvių kalbos žodžius SAMPA-LT fonetinės transkripcijos ženklais (transkribuoti). Žodžių užrašymo fonetinės transkripcijos ženklais algoritmas veikia trimis etapais: pradžioje žodžiai yra skiemenuojami, vėliau kirčiuojami ir galiausiai transkribuojami. Iš šių trijų sudėtingiausia yra automatinio kirčiavimo užduotis. Pasiūlytas kirčiavimo algoritmas remiasi tradicinėmis kirčiavimo taisyklėmis, kurias performulavo ir sprendimų medžio pavidalu struktūrizavo lietuvių kalbos ekspertai. Kirčiavimo taisyklės grupuojamos pagal lietuvių kalbos dalis ir/arba atskiras morfologines kategorijas. Algoritmas taip pat remiasi specialiai šiam darbui surinktais ir paruoštais lingvistiniais resursais: žiniomis apie hiato vartojimą, apie pirminius ir mišriuosius lietuvių kalbos veiksmažodžius bei jų pagrindines formas, apie daiktavardžių ir būdvardžių kirčiuotes, taip pat žiniomis apie lietuvių kalboje vartojamus tarptautinius žodžius. Pasiūlyto automatinės žodžių transkripcijos algoritmo tikslumas buvo eksperimentiškai įvertintas, liepiant jam apdoroti apie 50000 skirtingų žodžių formų. Šis žodžių formų sąrašas buvo sudarytas iš dažninio lietuvių kalbos žodžių sąrašo atrenkant po 100 dažniausių kiekvienos morfologinės kategorijos žodžių. Eksperimentai parodė, kad aprašyto algoritmo transkripcijos tikslumas siekia 93.5%, jei skaičiuojami taisyklingai transkribuoti žodžiai, ir 98.9%, jei skaičiuojami tinkami fonetiniai ženklai. [Iš leidinio]Reikšminiai žodžiai: Žodis; Skiemens riba; Kirčiavimas; Transkripcija; Word; Grapheme-to-phoneme conversation; Syllable boundary; Accentuation; Transcription.

ENThis paper presents a knowledge-based approach to grapheme-to-phoneme conversion (G2P) of isolated words of Lithuanian. Grapheme-to-phoneme conversion is performed in three consecutive steps: syllable boundary identification, accentuation and transcription. Automatic accentuation is the most challenging task that is solved by combining lexicon with the accentuation rules formalised for every grammatical category. The algorithm is evaluated on the list of 50,000 word types which is obtained by selecting 100 most frequent word types per grammatical category. The proposed algorithm achieved 93.5% and 98.9% G2P accuracy at word and grapheme level respectively.

Related Publications:
Permalink:
https://www.lituanistika.lt/content/8538
Updated:
2013-04-28 16:47:33
Metrics:
Views: 34
Export: