Skiemenų statistikos taikymas atskiriant poeziją nuo prozos

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Skiemenų statistikos taikymas atskiriant poeziją nuo prozos
Alternative Title:
Discriminating poetry and prose using syllable statistics
In the Journal:
Lietuvos statistikos darbai [Lithuanian journal of statistics]. 2022, 61, p. 32-45
Summary / Abstract:

LTStraipsnio tikslas – sukonstruoti klasifikatorių, kuris pagal trumpas teksto ištraukas galėtų atskirti poeziją nuo prozos ir kurį kuo mažiau įtakotų atskirų autorių stilius ir kūrinių turinys. Todėl apmokant klasifikatorių naudojama tik informacija apie tekstų skiemenis, nes pastarieji atspindi kalbos fonetines savybes ir mažiau negu žodžiai yra susiję su tekstų turiniu. Tyrimas remiasi suskaitmenintų grožinės literatūros kūrinių bibliotekos http://ebiblioteka.mkp.emokykla.lt tekstais. Jų pagrindu sudarytas ir apmokytas klasifikatorius atskirdamas testinius 100 žodžių ilgio poezijos ir prozos tekstų fragmentus darė mažiau negu 5 % klaidų. Raktiniai žodžiai: logistinė regresija; automatinis skiemenavimas; kryžminė patikra; apmokymas; klasifikavimo klaida. [Iš leidinio]

ENThe aim of the paper is to construct a universal classifier to discriminate short Lithuanian text excerpts of poetry from that of prose. Here the universality means that the classifier is relatively insensitive to a text content and author’s style. Since syllables represent phonetic properties and are less sensitive to text content as compared to words, the classifier training is based on frequencies of syllables in texts to be classified. The text data is taken from digitized library http://ebiblioteka.mkp.emokykla.lt. The error rate of the trained classifier applied to testing excerpts of 100 words is less than 5 %. Keywords: logistic regression; automatic syllabification; cross-validation; training; classification error. [From the publication]

DOI:
10.15388/LJS.2022.31988
ISSN:
1392-642X; 2029-7262
Related Publications:
Permalink:
https://www.lituanistika.lt/content/103408
Updated:
2023-08-28 19:08:45
Metrics:
Views: 33    Downloads: 3
Export: