LTŠiame darbe nagrinėjamas lietuvių kalbos difonų bazių, kurios naudojamos balso sintezėje iš teksto, sudarymas ir optimizavimas. Difonų bazių kūrimas pradedamas nuo difonų sąrašo sudarymo. Kai kurios fonemos negali sudaryti difonų dėl fonotaktikos apribojimų, tačiau jei vadovausimės vien fonotaktikos taisyklėmis, tai į sąrašą nepateks dalis difonų, reikalingų kitų kalbų žodžiams sintezuoti, tačiau pateks daug praktiškai nevartojamų difonų. Darbe atliktas difonų vartosenos dažnių statistinis tyrimas ir parodyta, kad sudarius difonų bazes tik iš dažniausiai vartojamų difonų ženkliai sumažėja bazių apimtis išlaikant pakankamai aukštą teksto padengimo difonais laipsnį. Darbe taip pat aprašomas difonų bazės sumažinimas, remiantis garsų panašumu, kai vienas difonas keičiamas kitu panašiai skambančiu difonu, bei garsų ištempimu, kai trūkstamo difono vieta užpildoma ištempiant gretimus garsus. Atlikti audiciniai eksperimentai su difonais, sudarytais iš balsio ar dvigarsio prieš sprogstamąjį (garsų ištempimo atveju ir prieš frikatyvinį) priebalsį. Nustatytos difonų klasės, kurioms taikant šiuos metodus sintezuoto garso kokybė nepablogėja, ir kuriems pablogėja nežymiai, bei įvertintas difonų bazių apimties sumažėjimas. [Iš leidinio]Reikšminiai žodžiai: Balso sintezė iš teksto; Difonas; Difonų bazės optimizavimas; Difonų vartosena; Fonotaktika; Garsų panašumas; Sintezuota kalba; Diphone; Diphone usage; Optimisation of diphone database; Optimization of the diphone inventory; Phone similarity; Phonotactics; Synthesized speech; Text-to-speech synthesis.
ENCreation and optimization of the Lithuanian diphone inventory used for concatenative text-to-speech synthesis is studied in this paper. Creation of diphone database starts with compilation of a list of diphones. This is not a trivial problem, because some diphones are not valid. If valid diphones are deduced using language phonotactics rules, some diphones which needed to synthesize foreign words are omitted. Besides, a lot of practically unused diphones are added to the list. Statistical diphone usage analysis was performed in this work. The results of this analysis imply that using statistically motivated diphone inventory pruning one can compile a much smaller inventory while keeping a very high text coverage. Diphone inventory pruning using phone similarity (one diphone is substituted with another that sounds similarly) and using phone stretching (a missing diphone is synthesized by stretching phones of adjacent diphones) is described, as well. Listening experiments with diphones that contain a vowel or diphthong followed by stop consonant (or fricative, for phone stretching) were executed. Groups of diphones were identified for which synthesized speech quality is not degraded (and for which quality is degraded only marginally) when using two described methods. In addition, potential diphone inventory reduction was estimated. [From the publication]