Automatinis lietuvių kalbos žodžių skiemenavimas, kirčiavimas, transkribavimas

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knyga / Book
Language:
Lietuvių kalba / Lithuanian
Title:
Automatinis lietuvių kalbos žodžių skiemenavimas, kirčiavimas, transkribavimas
Alternative Title:
Automatic syllabification, stress assignment and phonetic transcription of Lithuanian words
Publication Data:
Kaunas : Vytauto Didžiojo universiteto leidykla, 2010.
Pages:
107 p
Notes:
Bibliografija.
Contents:
Įvadinės pastabos — Skiemenavimas — Skiemenavimo principai: Skiemens centras ir jo nustatymas; Skiemens ribų nustatymas — Skiemenavimo algoritmo ištekliai — Priešdėlių nustatymo algoritmas — Skiemenavimo algoritmas — Kirčiavimas — Algoritmo įėjimo duomenys ir rezultatas — Ištekliai: Morfologinis analizatorius (Lemuoklis); Skiemenuoklis; Žodynai; Daiktavardžių, būdvardžių priesagų sąrašas — Vardažodžių kirčiavimas: Daiktavardžių kirčiavimo schema; Būdvardžių kirčiavimo schema; Įvardžių kirčiavimo schema; Skaitvardžių kirčiavimo schema; Kai kurių skaitvardžių ir įvardžių kirčiavimas; Kirčio ženklo kamiene nustatymas; Kai kurių priesaginių daiktavardžių ir būdvardžių kirčiavimas; Aukštesniojo, aukštėlesniojo ir aukščiausiojo laipsnio formų kirčiavimas; Įvardžiuotinių formų kirčiavimas; Bevardės formos kirčiavimas — Veiksmažodžių kirčiavimas: Pagrindinė veiksmažodžių kirčiavimo schema; Bendraties, esamojo ir būtojo kartinio laiko formų kirčiavimas; Išvestinių formų kirčiavimas — Riboto kaitymo ir nekaitomų kalbos dalių kirčiavimas — Kiti algoritmai: Skiemens kirčiavimo algoritmas; Sutrumpėjusių žodžių kirčiavimas — Transkribavimas — Transkribavimo principai: Pagrindiniai fonetinės transkripcijos rašmenys; Gretimų garsų įtaka — Transkribavimo algoritmo ištekliai — Transkribavimo algoritmas — Baigiamosios pastabos — Literatūra — Priedai: Skaitvardžių išimčių žodynas; Įvardžių išimčių žodynas; Daiktavardžių, būdvardžių priesagų sąrašo pavyzdys; Skiemens dalių kirčiavimo sąrašas; Palyginamoji rašmenų ir kodų lentelė; Suskiemenuoto teksto pavyzdys; Sukirčiuoto teksto pavyzdys; Transkribuoto teksto pavyzdys — Automatic syllabification, stress assignment and phonetic transcription of Lithuanian words (Summary).
Summary / Abstract:

LTStudijoje aprašomi lietuvių kalbos dalių kirčiavimo algoritmai, aptariami struktūrinio skiemenavimo, kirčiavimo, transkribavimo modelio sudarymo principai, analizuojamos pagrindinės problemos, kurios iškilo įprastas lingvistines taisykles pritaikant algoritmams. Nagrinėjama sąveika su morfologinės ir leksinės informacijos duomenų bazėmis. Čia apibendrinamas ne vienerių metų darbas ir pateikiama medžiaga gerokai skiriasi nuo jau aprašytos straipsniuose. Studijoje aprašomo kirčiavimo algoritmo pagrindu sukurta ir visiems prieinama „Kirčiuoklė“, suteikianti galimybę kirčiuoti tekstus internetu arba parsisiųsti ją ir kirčiuoti MS Word dokumentus. Studijoje aprašomų algoritmų kūrimas, jų analizė ir testavimas parodė, kad problemiškiausias yra ne paties algoritmų medžio kūrimas, lingvistinių taisyklių formalizavimas, bet pradinių duomenų apie žodį tikslumas ir patikimumas. Viena vertus, tai susiję su žodžio ir jo formų daugiareikšmiškumu ir informacija apie jo gramatinius požymius. Kita vertus, visi aprašyti algoritmai naudojasi tam tikrais ištekliais (žodynais, sąrašais), kuriems rengti, pildyti, tikslinti reikėjo ne vienerių metų. Morfologiniai įrankiai, gerokai atnaujinti, papildyti pradiniai ištekliai ir patobulinti patys algoritmai padidino programų veikimo tikslumą. Studija skiriama ir kalbininkams, ir informatikams, dirbantiems kalbos technologijų srityje. Todėl kiekvieno algoritmo (skiemenavimo, kirčiavimo, transkribavimo) aprašas sudarytas iš dviejų dalių: lingvistinės medžiagos ir algoritmo schemos.Reikšminiai žodžiai: Algoritmas; Automatinis skiemenavimas; Kirčiavimas; Kompiuterinės programos; Skiemenavimas; Transkribavimas; Automatic syllabification; Computer programme; Phonetic transcription; Stress assignment; Stress assignment and phonetic; Syllabification; Transcription of Lithuanian words.

ENThe study describes algorithms of stress assignment related to different parts of speech of Lithuanian. The rules of structural syllabification, stress assignment and phonetic transcription are discussed. The problems that were encountered in building working algorithms from textbook-based linguistic are discussed. The interaction of algorithms with morphological and lexical data bases is investigated. The work of several years is summarised in the study, and the presented material differs a lot from the material previously described in articles. The study describes a tool “Kirčiuoklė”, which has been developed on the algorithm of stress assignment described in the study and has been made universally accessible. The tool enables online stress assignment of texts. It can also be downloaded and used to assign stress in MS word documents. The study describes development of algorithms, the analysis and stressing thereof has revealed that the most problematic issue is not the development of the algorithm tree and formalisation of linguistic rules, but the accuracy and reliability of the initial data about a word. On the one hand, it is related to the polysemy of the word and its forms and information about its grammatical features. On the other hand, all the described algorithms use certain sources the development, compilation and revision of which lasted for more than one year. Morphological tools, which have been considerably upgraded, improve the accuracy of the software operation. The study is intended for both linguists and computer scientists working in the field of human language technologies. Therefore, the description of each of algorithms consists of two parts: linguistic description and algorithmic block diagrams.

ISBN:
9789955126300
Related Publications:
Permalink:
https://www.lituanistika.lt/content/29362
Updated:
2021-02-02 22:50:10
Metrics:
Views: 1027
Export: