Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose
Alternative Title:
Statistical analysis of word frequency distribution in Lithuanian texts of different genres
In the Journal:
Lietuvos statistikos darbai [Lithuanian journal of statistics]. 2016, 55, p. 61-69
Summary / Abstract:

LTDarbe nagrinėjami skirtingų autorių ir skirtingų žanrų tekstai, parašyti lietuvių kalba. Pagrindinės mus dominančios tekstų savybės – žodžių skaičius, teksto žodyną sudarančių skirtingų žodžių skaičius ir žodžių dažniai. Žodžių dažnių pasiskirstymui tekste aprašyti taikomas struktūrinis skirstinys ir Zipfo dėsnis. Akivaizdu, kad bet kokio teksto leksinę įvairovę nusako jame vartojamų žodžiu žodynas. Pademonstruota, kad redukuotame žodyne esančios informacijos užtenka darbe nagrinėtiems tekstams suskirstyti į grupes pagal žanrus ir autorius naudojant hierarchinio klasterizavimo metodą. Šiuo atveju atstumai tarp klasterių matuojami naudojant Jaccardo atstumo matą, o klasteriai apjungiami naudojant Wardo metodą. [Iš leidinio]Reikšminiai žodžiai: Hierarchinis klasterizavimas; Jaccardo atstumas; Jaccardo atstumas, Wardo metodas; Struktūrinis skirstinys; Wardo metodas; Zipfo dėsnis; Žodžių dažniai; Žodžių dažniai,; Hierarchical clustering; Jaccard distance; Jaccard's distance; Structural distribution; Ward's method; Word freguencies; Word frequencies; Word method; Zipf Law; Zipf's law.

ENThe paper examines Lithuanian texts of different authors and genres. The main points of interest – the number of words, the number of different words and word frequencies. Structural type distribution and Zipf’s law are applied for describing the frequency distribution of words in the text. It is obvious that the lexical diversity of any text can be defined by different words that are used in the text, also called vocabulary. It is shown that the information contained in a reduced vocabulary is enough for dividing the texts analyzed in this article into groups by genre and author using a hierarchical clustering method. In this case, distances between clusters are measured using the Jaccard distance measure, and clusters are aggregated using the Ward method. [From the publication]

ISSN:
1392-642X; 2029-7262
Related Publications:
Permalink:
https://www.lituanistika.lt/content/79527
Updated:
2021-04-16 20:23:07
Metrics:
Views: 40    Downloads: 3
Export: