Modeling phone duration of Lithuanian by classification and regression trees, using very large speech corpus

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Modeling phone duration of Lithuanian by classification and regression trees, using very large speech corpus
Alternative Title:
Lietuvių kalbos garsų trukmės modeliavimas klasifikavimo ir regresijos medžiais, naudojant didelės apimties garsyną
In the Journal:
Informatica. 2008, vol. 19, no. 2, p. 271-184
Summary / Abstract:

LTDarbe aprašomas eksperimentas, kurio metu lietuvių kalbos garsų trukmės buvo prognozuojamos naudojant klasifikavimo ir regresijos medžius. Tyrimo duomenų bazę sudarė 300 tūkts. balsių ir 400 tūkst. priebalsių pavyzdžių, paimtų iš VDU-AB20 garsyno. Tyrimui naudotas, garsą bei jo kontekstą aprašantis, 15-os požymių rinkinys, svarbiausi jų: prognozuojamo garso identifikatorius, gretimų garsų identifikatoriai, garsų skaičius skiemenyje. Pateikiami eksperimentų rezultatai taikant kvadratinės bei santykinės klaidos medžio mazgų dalinimo kriterijus. Taip pat pateikiami medžio genėjimo minimalios klaidos - sudėtingumo algoritmo pagalba gauti rezultatai bei rezultatai, gauti taikant skirtingus išankstinio genėjimo parametrus. Straipsnyje analizuojamos stambiausios prognozavimo klaidos, aptariami sudarytų kalbėjimo tempo normalizavimo bei duomenų trukšmo mažininimo rezultatai. Sudarytasis modelis leidžia prognozuoti lietuvių kalbos garsų trukmes su ≈18 milisekundžių RMSE įverčiu bei 0.8 ir 0.7 koreliacija tarp prognozuotos ir tikrosios reikšmių atitinkamai balsiams ir priebalsiams. Rezultatai palyginami su kitų tyrėju atliktais (čekų, hindi ir telugų, korėjiečių kalboms) eksperimentais. [Iš leidinio]Reikšminiai žodžiai: Algoritmai; Garso trukmė; Garsų identifikatoriai; Kalbos garsų trukmė; Kalbos greičio kintamumas; Kalbos prozodija; Kalbos sintezė; Kalbos technologijos; Klasifikavimo ir regresijos medžiai (CART); Kompiuterinė lingvistika; Trukmės modelis; Algorithms; Classification and regression trees (CART); Computational linguistics; Duration model; Lithuanian; Phone duration; Sound identifiers; Speech prosody; Speech rate variability; Speech synthesis; Speech technology.

ENClassification and regression tree approach was used in this research to model phone duration of Lithuanian. 300 thousand samples of vowels and 400 thousand samples of consonants extracted from VDU-AB20 corpus were used in experimental part of research. Set of 15 parameters characterizing phone and its context were selected for duration prediction. The most significant of them were: identifier (ID) of phone being predicted, adjacent phones IDs and number of phones in syllable. Models were built using two different data sets: one speaker and 20 speakers. The influence of cost complexity pruning and different values of pre pruning were investigated. Prediction by average leaf duration vs. prediction by median leaf duration was also compared. Investigation of most vivid errors was performed, speech rate normalization and trivial noise reduction were applied and influence on models evaluation parameters discussed. The achieved results, correlation 0.8 and 0.75 respectively for vowels and consonants, and RMSE of ∼18 ms are comparable with those reported for Check, Hindi and Telugu, Korean. [From the publication]

ISSN:
0868-4952
Related Publications:
Knowledge-based grapheme-to-phoneme conversion of Lithuanian words / Giedrius Norkevičius, Gailius Raškinis, Asta Kazlauskienė. SPECOM 2005 : 10th International Conference Speech and Computer, 17-19 October, 2005, Patras, Greece / Eds.: G. Kokkinakis ... [et al.]. Moscow: Moscow State Linguistic University, 2005. P. 235-238.
Permalink:
https://www.lituanistika.lt/content/79591
Updated:
2021-03-17 17:10:32
Metrics:
Views: 30
Export: