Garsų klasifikavimas panaudojant sprendimų medžius

Daunys, Gintautas; Balbonas, Gintautas

Garsų klasifikavimas panaudojant sprendimų medžius

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygos dalis / Part of the book

Language:

Lietuvių kalba / Lithuanian

Title:

Garsų klasifikavimas panaudojant sprendimų medžius

Alternative Title:

Classification of sound using decision Tree

Authors:

In the Book:

Informacinės technologijos: konferencijos pranešimų medžiaga: 2005 m. sausio mėn. 26-27 d. T. 1. Kaunas: Technologija, 2005. p. 277-282

Subject Category:

Kalbos garsai. Abėcėlė / Speech sounds. Alphabet.

Summary / Abstract:

LTŠnekos atpažinimo technologijos ateityje turėtų vaidinti svarbų vaidmenį žmogaus ir kompiuterio sąveikoje. Šiuo metu šnekai atpažinti daugiausia yra naudojamas vien tik garso signalas, kurio analizei taikomas paslėptųjų Markovo modelių metodas. Iš pasaulinės praktikos aiškėja, kad atpažinimo šiuo metodu tikslumas nebedidėja, nors ir dedama daug pastangų. Automatinį šnekos atpažinimą ypač veikia pašalinis triukšmas. Išeitis – ieškoti, kaip šneką atpažįsta žmonės, kurie tai daro kur kas tiksliau negu šiuolaikinės kompiuterinės sistemos. Nagrinėjamos dvi galimybės, kaip būtų galima pagerinti šnekos atpažinimą: garso signalo intervalų klasifikavimas į fonemų grupes bei vaizdo signalo analizė. Gerai žinoma, kad žmonės su klausos negalia gali gana gerai išmokti suprasti šneką iš lūpų judesių. Todėl šnekai automatiškai atpažinti, burnos vaizdo informacija buvo pradėta kombinuoti su garso signalu. Vien garsinio signalo šnekai atpažinti neužtenka, nes triukšmingoje aplinkoje signalas gali būti negrįžtamai iškraipytas. Todėl šnekos atpažinimą, reikėtų kombinuoti remiantis tiek garsine, tiek vaizdine informacija. Kaip parodė atlikta analizė, tada kai kurie garsai atpažįstami kur kas geriau nei vien pagal garsinę informaciją. Pasiūlyta vizemų klasifikavimo sistema. Vizemų atpažinimo automatizavimo darbus planuojama tęsti.

ENSpeech recognition technologies should have a significant role in the human-computer interaction in the future. Presently, sound signal is used the most for the recognition of speech and the hidden Markov models’ method is applied for its analysis. The global practice shows that, despite vast effort, the precision of recognition by this method is no longer increasing. The automatic recognition of speech is greatly affected by the outside noise. The solution is to explore the way humans recognize speech as they do it more precisely than any modern computer systems. Two possibilities of improving speech recognition are analysed, namely, the classification of sound signal intervals into groups of phonemes and the analysis of image signal. It is well known that hearing-impaired people are capable of learning to understand speech from lip movement rather quickly. Therefore, the visual information of mouth has been combined with the sound signal in order to recognize speech automatically. Sound signal alone is insufficient for speech recognition as the signal may be irreversibly distorted in a noisy environment. Therefore, speech recognition should combine both sound and visual information. As the analysis that has been carried out revealed, certain sounds are then recognized much more effectively than when it is done based solely on sound information. Viseme classification system has been presented. The automation works of viseme recognition are to be continued.

ISBN:

9955097884

Subject:

Kalbotyra / Linguistics

Related Publications:

Lietuvių bendrinės kalbos fonetika. Vilnius : Enciklopedija, 2003. 241 p. 1 brošiūra.
Teoriniai lietuvių fonologijos pagrindai. Vilnius : Mokslo ir enciklopedijų leidybos institutas, 2003. 387 p.

Permalink:

https://www.lituanistika.lt/content/5285

Updated:

2013-04-28 16:13:22

Metrics:

Export:

Choose type:

Download

User ID:
User Password: