Automatinis lietuvių kalbos žodžių skiemenavimas, kirčiavimas, transkribavimas

Kazlauskienė, Asta; Raškinis, Gailius; Vaičiūnas, Airenas

Automatinis lietuvių kalbos žodžių skiemenavimas, kirčiavimas, transkribavimas

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knyga / Book

Language:

Lietuvių kalba / Lithuanian

Title:

Automatinis lietuvių kalbos žodžių skiemenavimas, kirčiavimas, transkribavimas

Alternative Title:

Automatic syllabification, stress assignment and phonetic transcription of Lithuanian words

Authors:

Publication Data:

Kaunas : Vytauto Didžiojo universiteto leidykla, 2010.

Pages:

107 p

Contents:

Įvadinės pastabos — Skiemenavimas — Skiemenavimo principai: Skiemens centras ir jo nustatymas; Skiemens ribų nustatymas — Skiemenavimo algoritmo ištekliai — Priešdėlių nustatymo algoritmas — Skiemenavimo algoritmas — Kirčiavimas — Algoritmo įėjimo duomenys ir rezultatas — Ištekliai: Morfologinis analizatorius (Lemuoklis); Skiemenuoklis; Žodynai; Daiktavardžių, būdvardžių priesagų sąrašas — Vardažodžių kirčiavimas: Daiktavardžių kirčiavimo schema; Būdvardžių kirčiavimo schema; Įvardžių kirčiavimo schema; Skaitvardžių kirčiavimo schema; Kai kurių skaitvardžių ir įvardžių kirčiavimas; Kirčio ženklo kamiene nustatymas; Kai kurių priesaginių daiktavardžių ir būdvardžių kirčiavimas; Aukštesniojo, aukštėlesniojo ir aukščiausiojo laipsnio formų kirčiavimas; Įvardžiuotinių formų kirčiavimas; Bevardės formos kirčiavimas — Veiksmažodžių kirčiavimas: Pagrindinė veiksmažodžių kirčiavimo schema; Bendraties, esamojo ir būtojo kartinio laiko formų kirčiavimas; Išvestinių formų kirčiavimas — Riboto kaitymo ir nekaitomų kalbos dalių kirčiavimas — Kiti algoritmai: Skiemens kirčiavimo algoritmas; Sutrumpėjusių žodžių kirčiavimas — Transkribavimas — Transkribavimo principai: Pagrindiniai fonetinės transkripcijos rašmenys; Gretimų garsų įtaka — Transkribavimo algoritmo ištekliai — Transkribavimo algoritmas — Baigiamosios pastabos — Literatūra — Priedai: Skaitvardžių išimčių žodynas; Įvardžių išimčių žodynas; Daiktavardžių, būdvardžių priesagų sąrašo pavyzdys; Skiemens dalių kirčiavimo sąrašas; Palyginamoji rašmenų ir kodų lentelė; Suskiemenuoto teksto pavyzdys; Sukirčiuoto teksto pavyzdys; Transkribuoto teksto pavyzdys — Automatic syllabification, stress assignment and phonetic transcription of Lithuanian words (Summary).

Subject Category:

Kirčiavimas. Tartis. Akcentologija / Accent. Accentology; Rašyba. Skyryba. Ortografija / Spelling. Punctation. Orthography.

Summary / Abstract:

LTStudijoje aprašomi lietuvių kalbos dalių kirčiavimo algoritmai, aptariami struktūrinio skiemenavimo, kirčiavimo, transkribavimo modelio sudarymo principai, analizuojamos pagrindinės problemos, kurios iškilo įprastas lingvistines taisykles pritaikant algoritmams. Nagrinėjama sąveika su morfologinės ir leksinės informacijos duomenų bazėmis. Čia apibendrinamas ne vienerių metų darbas ir pateikiama medžiaga gerokai skiriasi nuo jau aprašytos straipsniuose. Studijoje aprašomo kirčiavimo algoritmo pagrindu sukurta ir visiems prieinama „Kirčiuoklė“, suteikianti galimybę kirčiuoti tekstus internetu arba parsisiųsti ją ir kirčiuoti MS Word dokumentus. Studijoje aprašomų algoritmų kūrimas, jų analizė ir testavimas parodė, kad problemiškiausias yra ne paties algoritmų medžio kūrimas, lingvistinių taisyklių formalizavimas, bet pradinių duomenų apie žodį tikslumas ir patikimumas. Viena vertus, tai susiję su žodžio ir jo formų daugiareikšmiškumu ir informacija apie jo gramatinius požymius. Kita vertus, visi aprašyti algoritmai naudojasi tam tikrais ištekliais (žodynais, sąrašais), kuriems rengti, pildyti, tikslinti reikėjo ne vienerių metų. Morfologiniai įrankiai, gerokai atnaujinti, papildyti pradiniai ištekliai ir patobulinti patys algoritmai padidino programų veikimo tikslumą. Studija skiriama ir kalbininkams, ir informatikams, dirbantiems kalbos technologijų srityje. Todėl kiekvieno algoritmo (skiemenavimo, kirčiavimo, transkribavimo) aprašas sudarytas iš dviejų dalių: lingvistinės medžiagos ir algoritmo schemos.

ENThe study describes algorithms of stress assignment related to different parts of speech of Lithuanian. The rules of structural syllabification, stress assignment and phonetic transcription are discussed. The problems that were encountered in building working algorithms from textbook-based linguistic are discussed. The interaction of algorithms with morphological and lexical data bases is investigated. The work of several years is summarised in the study, and the presented material differs a lot from the material previously described in articles. The study describes a tool “Kirčiuoklė”, which has been developed on the algorithm of stress assignment described in the study and has been made universally accessible. The tool enables online stress assignment of texts. It can also be downloaded and used to assign stress in MS word documents. The study describes development of algorithms, the analysis and stressing thereof has revealed that the most problematic issue is not the development of the algorithm tree and formalisation of linguistic rules, but the accuracy and reliability of the initial data about a word. On the one hand, it is related to the polysemy of the word and its forms and information about its grammatical features. On the other hand, all the described algorithms use certain sources the development, compilation and revision of which lasted for more than one year. Morphological tools, which have been considerably upgraded, improve the accuracy of the software operation. The study is intended for both linguists and computer scientists working in the field of human language technologies. Therefore, the description of each of algorithms consists of two parts: linguistic description and algorithmic block diagrams.

ISBN:

9789955126300

Subject:

Kalbotyra / Linguistics

Related Publications:

Bendrinės lietuvių kalbos intonacija: frazės centras, ribos ir žymėjimas.. Kaunas : Vytauto Didžiojo universitetas, 2023. 328 p.
Intonuoto garsyno kūrimo principai. Žmogus ir žodis 2013, 1, 101-110.
Pitch changes as the marker of a phrase edge in standard Lithuanian. Kalbų studijos 2024, 44, 71-81.
Skiemenų statistikos taikymas atskiriant poeziją nuo prozos. Lietuvos statistikos darbai 2022, 61, 32-45.
The Root structure of Lithuanian inflective words. Kalbų studijos 2018, 33, 5-16.

Permalink:

https://www.lituanistika.lt/content/29362

Updated:

2021-02-02 22:50:10

Metrics:

Export:

Choose type:

Download

User ID:
User Password: