Statistinis tekstų funkcijų nustatymas : disertacija

Statistinis tekstų funkcijų nustatymas: disertacija
Statistical classification of the functions of texts
Kaunas, 2004.
154 lap
Disertacija rengta 1999-2004 m. Vytauto Didžiojo universitete. Dr. disert. (humanit. m.) -Vytauto Didžiojo universitetas, 2004. Bibliografija.
Dr. disert. santrauka: Statistical identification of text functions Kaunas, 2004 32 p
LTŠio darbo tikslas yra išanalizuoti galimybę įvertinti ir klasifikuoti lietuvių kalbos elektroninius tekstus pagal jų funkcijas bei sukurti greitą ir efektyvų automatinį klasifikavimo metodą. Darbo tikslams pasiekti naudojami 100 mln. žodžių Dabartinės lietuvių kalbos tekstyno (Marcinkevičienė 1997) pagrindu sukurti du mažesni tekstynai: 25 mln. žodžių Mažasis lietuvių kalbos tekstynas (MLKT) ir 10 mln. žodžių Eksperimentinis tekstynas (ET), subalansuotas žanriniu požiūriu. Šio darbo metodika paremta empiriniais kalbos duomenimis, kurie analizuojami kiekybiškai (faktorių analizės metodu) ir kokybiškai (rezultatų interpretacija). Disertacijoje aprašytos septynios tekstų funkcijos ir jų paradigmos: spontaniško ekspresyvumo, naratyvumo, direktyvumo, nespontaniško ekspresyvumo, apeliatyvumo, deskriptyvumo, temporatyvumo. Tekstų funkcijos nustatomos remiantis lengvai identifikuojamų formalių kalbinių požymių dažnumo pasiskirstymu. Autorius teigia, kad tekstų klasifikacija pagal jų funkcijas, paremta tekstų kalbinių požymių dažnumų pasiskirstymų statistine analize, yra tinkamas ir ateityje naudotinas tekstų klasifikavimo būdas, o atlikta tekstų funkcijų analizė dar kartą patvirtina tekstynų lingvistikos postuluojamą teksto formos ir funkcijos bei formos ir turinio vienovę, kuri šiame darbe išryškėja iš to, kad labai dažnų žodžių formų paradigmos gerai atspindi teksto funkcijas.

ENThe purpose of this dissertation is to analyse the possibility of assessing and classifying electronic texts in the Lithuanian language according to their functions and to create a fast and efficient automatic classification method. The corpus of texts used to achieve the results of this study came from the 25 million word Shorter Lithuanian Language Text Corpus (Mažasis lietuvių kalbos tekstynas – MLKT) and the 10 million word Experimental Text Corpus (Eksperimentinis tekstynas – ET), matched from a genre point of view, which are two smaller bodies of texts compiled from the 100 million word Text Corpus of the Modern Lithuanian Language (Dabartinės lietuvių kalbos tekstynas, Marcinkevičienė, 1997). The methodology of this study is based on empirical language data, which were analysed quantitatively (factor analysis method) and qualitatively (interpretation of results). The dissertation discusses seven text functions and their paradigms: spontaneously expressive, narrative, directive, non-spontaneously expressive, appellative, descriptive, temporative. The functions of the texts are determined by reference to the frequency of occurrence of certain easily identifiable formal linguistic markers. The author states that the statistical classification of the functions of texts, supported by a statistical analysis of the frequency of occurrence of formal linguistic markers, is an adequate text classification method, worth using again in the future. The author also states that the text function analysis that was carried out once again confirms the unity of form and content postulated by the linguistics of the corpus, which in this dissertation becomes clear from the fact that very often the paradigms of word forms reflect the functions of the texts very well.

