Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams

Kapočiūtė-Dzikienė, Jurgita; Utka, Andrius; Šarkutė, Ligita

doi:https://doi.org/10.15388/Klbt.2014.7674

Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams

Direct Link:

©InC – Lituanistika

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Straipsnis / Article

Language:

Lietuvių kalba / Lithuanian

Title:

Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams

Alternative Title:

Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks

Authors:

In the Journal:

Kalbotyra, 2014, 66, 27-45

Subject Category:

Parlamentas. Seimas / Parliament.

Summary / Abstract:

LTStraipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms.

ENIn our paper we present a corpus of transcribed Lithuanian parliamentary speeches. The corpus is prepared in a specific format, appropriate for different authorship identification tasks. The corpus consists of approximately 111 thousand texts (24 million words). Each text matches one parliamentary speech produced during an ordinary session from the period of 7 parliamentary terms starting on March 10, 1990 and ending on December 23, 2013. The texts are grouped into 147 categories corresponding to individual authors, therefore they can be used for authorship attribution tasks; besides, these texts are also grouped according to age, gender and political views, therefore they are also suitable for author profiling tasks. Whereas short texts complicate recognition of author speaking style and are ambiguous in relation to the style of other authors, we incorporated only texts containing not less than 100 words into the corpus. In order to make each category as comprehensive and representative as possible, we included only those authors, who produced speeches at least 200 times. All the texts are lemmatized, morphologically and syntactically annotated, tokenized into the character n-grams. The statistical information of the corpus is also available. We have also demonstrated that the created corpus can be effectively used in authorship attribution and author profiling tasks with supervised machine learning methods. The corpus structure also allows using it with unsupervised machine learning methods and can be used for creation of rule-based methods, as well as in different linguistic analyses.

DOI:

10.15388/Klbt.2014.7674

ISSN:

1392-1517

Subject:

Related Publications:

Analyzing Lithuanian parliamentary discourse on Ukrainian refugees by applying text analysis tools.. Darbai ir dienos 2024, 82, 141-155.
Lietuvos Respublikos Seimo narių kalbinė raiška atsižvelgiant į jų politinę orientaciją. Darbai ir dienos 2015, 64, 133-151.
Skiemenų statistikos taikymas atskiriant poeziją nuo prozos. Lietuvos statistikos darbai 2022, 61, 32-45.
Tekstų nehomogeniškumo tyrimas naudojant žymeklius. Lietuvos statistikos darbai 2015, 54, 1, 92-100.

Permalink:

https://www.lituanistika.lt/content/60917

Updated:

2025-02-20 13:11:05

Metrics:

Views: 218 Downloads: 7

Export:

Choose type:

Download

User ID:
User Password: