LTŠiame straipsnyje, remiantis 20 profesionalių diktorių 6 valandų skaitomos kalbos garsyno duomenimis, aprašomi bandymai automatizuotai sudaryti kompiuterinį lietuvių kalbos intonacijos modelį. Intonacijos modeliui kurti naudotas šnekos sintezės įrankis HTS, kuris remiasi Paslėptųjų Markovo Modelių (PMM) metodika. Tyrimuose atskirai modeliuoti vyrų ir moterų balsai, įvertinta įvairių HTS sistemos parametrų ir kontekstinių požymių įtaka prognozuojamos pagrindinio tono kreivės tikslumui. Gauti intonacijos modeliai vertinti lyginant jų prognozuotą pagrindinio tono kreivę su atskaitos kreivėmis. Vertinti naudoti vidutinės kvadratinės paklaidos ir balsingų / nebalsingų atkarpų atpažinimo klaidos kriterijai. Taikant PMM pagrindu veikiantį intonacijos modelį gaunamas mažesnis vidutinės kvadratinės paklaidos įvertis nei taikant paprastąjį modelį, kai kiekvienam balsiui atvaizduoti pasirenkama tam balsiui būdinga vidutinė pagrindinio tono reikšmė. [Iš leidinio]Reikšminiai žodžiai: Diktorių kalba; Intonacijos modelis; Intonacinis modelis; Pagrindinio tono kaita; Paramerinė sintezė; Paslėptieji Markovo modeliai; Paslėptųjų Markovo Modelių (PMM) metodika; Sintezės įrankis HTS; Šnekos sintezės įrankis HTS; F0 modelling; HMM-based synthesis; HTS; Intonation modelling; Statistical parametric speech synthesis; Text-to-speech systems.
ENThis paper presents the corpus-driven approach in building the computational model of fundamental frequency, or F0, for Lithuanian language. The model was obtained by training the HMM-based speech synthesis system HTS on six hours of speech coming from multiple speakers. Several gender specific models, using different parameters and different contextual factors, were investigated. The models were evaluated by synthesizing F0 contours and by comparing them to the original F0 contours using criteria of root mean square error (RMSE) and voicing classification error. The HMM-based models showed an improvement of the RMSE over the mean-based model that predicted F0 of the vowel on the basis of its average normalized pitch. [From the publication]