Lietuvių bendrinės šnekamosios kalbos garsų fondo kūrimo principai

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Lietuvių bendrinės šnekamosios kalbos garsų fondo kūrimo principai
In the Journal:
Lituanistica. 2004, Nr. 4, p. 53–62
Summary / Abstract:

LTŠiuo metu Europoje ryškėja tendencijos tarpnacionalines komunikacijas grįsti šiuolaikinėmis kalbų technologijomis. Straipsnyje aptariami lietuvių bendrinės kalbos garsų fondo kūrimo principai. Ryškėja trys svarbesnės tendencijos: taikomosios paskirties garsų fondų apimtys nuolat didėja, jų kūrimui vienijamos mokslo ir verslo pajėgos; daugėja nacionalinių garsų fondų, dokumentuojančių kalbą kaip tautos socialinės kultūrinės aplinkos paminklą; kuriami gerai anotuoti sisteminiai garsų fondai, skirti kalbos mokslo tyrimo darbams. Garsų fondai gali būti anotuoti sakiniais, žodžiais, skiemenimis, garsais. Lietuvių šnekamosios bendrinės kalbos garsų bazės kūrimo patirtis rodo, kad garsų fondas – tai kalbų technologijų produktas, kuriam sukurti reikalingas geras technologijų išmanymas. Dirbant su garsų fondu išryškėjo sudarytos fonetinių vienetų sistemos trūkumai, todėl fondą reikėtų papildyti naujais vienetais. Sąmoningai parinkti pavieniui tariami žodžiai ir sudaryti trumpi sakinukai yra dirbtiniai kalbos vienetai. Šnekamosios kalbos ypatybėms atspindėti reikia gerokai ilgesnio rišlaus teksto. Tačiau net ir ilgame, diktoriaus perskaitytame tekste galima nerasti spontaniškai kalbai būdingos kalbos garsinės išraiškos elementų įvairovės. Tam reikia papildyti garsų fondą fiksuojant kuo daugiau realios šnekamosios kalbos variantų. Remiantis garsų fondo duomenimis buvo sukurta kalbos atpažinimo sistema, naudojanti Paslėptų Markovo modelių atpažinimo metodiką. Taikant šią sistemą atskirai tariami žodžiai atpažįstami 91-97 proc. tikslumu, o rišlios trumpos frazės – 79-94 proc. tikslumu.Reikšminiai žodžiai: Lietuvių bendrinė kalba; Šnekamoji kalba; Kalbos garsų fondas; Vytauto Didžiojo universitetas; Standard Lithuanian; Lithuanian spoken language; Speech corpus; Vytautas Magnus University.

ENThis paper presents the VDU Lithuanian speech corpus. The corpus has been compiled and annotated by the Center of Computational Linguistics at the Vytautas Magnus University. The corpus aims at providing basic data for Lithuanian language technology researches meant to enable Lithuanian spoken language researchers to use advanced tools provided by today’s computer science. The VDU speech corpus contains broadband recordings of 4 speakers (2 males and 2 females), each reading the same set of nearly 7540 isolated words and the same number of word triplets. The corpus includes timealigned phone-level, phonetic unit-level and word-level transcriptions as well. The VDU Lithuanian speech corpus is universal, i.e. its vocabulary has been carefully chosen to include all distinct and independent Lithuanian sounds such as phonemes and phoneme clusters (phonetic units). There have been 275 such phonetic units defined. The paper also describes problems related to the file structure of the corpus and the SAMPAASCII coding of Lithuanian annotations. Some other questions are discussed, such as corpus documentation, validation and standardization. These questions have been addressed in Lithuania for the first time. [From the publication]

ISSN:
0235-716X; 2424-4716
Related Publications:
Intonuoto garsyno kūrimo principai / Asta Kazlauskienė, Gailius Raškinis. Žmogus ir žodis. 2013, 1, p. 101-110.
Permalink:
https://www.lituanistika.lt/content/13232
Updated:
2018-12-17 11:22:40
Metrics:
Views: 31    Downloads: 4
Export: