Sakytinės lietuvių kalbos tekstynas ‒ natūralios vartosenos tyrimų šaltinis

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Sakytinės lietuvių kalbos tekstynas ‒ natūralios vartosenos tyrimų šaltinis
Alternative Title:
Corpus of spoken Lithuanian as a research source of natural usage
In the Journal:
Taikomoji kalbotyra. 2017, 9, p. 176-198
Summary / Abstract:

LTStraipsnyje aprašomas Sakytinės lietuvių kalbos tekstynas, jo struktūra, kūrimo etapai (įrašų kaupimas, transkribavimas, gramatinis transkripcijų anotavimas), duomenų kaupimo ir skaitmeninimo metodika, taip pat aptariamos tekstyno panaudojimo natūralios vartosenos tyrimuose galimybės, trumpai pristatomi jau atlikti tekstyno duomenimis paremti tyrimai. Šiuo metu (2017 m.) interneto vartotojams pateikiamas laisvai prieinamas tekstynas apima 226174 žodžių formas. Šios internetinės tekstyno versijos vartotojai gali atlikti paiešką pagal žodį ar žodžio formą bei gauti duomenis apie pasirinktos formos dažnumą visame tekstyne arbo jo dalyje, taip pat matyti gramatinę informaciją. 2016‒2017 m. vykdant LMT finansuojamą projektą „Šiuolaikinė sakytinė lietuvių kalba: leksikos ir gramatikos tyrimas tekstynų lingvistikos metodu“ (LIP-085/2016) pagal Valstybinę lituanistinių tyrimų ir sklaidos 2016–2024 metų programą, Sakytinės lietuvių kalbos tekstynas buvo pagausintas naujais duomenimis. Projekto metu taip pat kuriama nauja internetinė prieiga, suteiksianti daugiau galimybių vartotojams. Atnaujintą tekstyną sudaro 256 pokalbiai (383587 žodžiai), apimantys 1086 kalbėtojus (659 moterys, 427 vyrai), kurių amžius nuo 3 metų iki 81 metų. Plečiant Sakytinės lietuvių kalbos tekstyną, didelis dėmesys buvo skirtas tekstyno kompozicijai, t. y. tekstyno proporcijų parinkimui. Siekiant tekstyno universalumo ir tinkamumo įvairiapusei analizei, buvo laikomasi subalansuoto tekstyno principo, todėl kaupiant pokalbius atsižvelgta į kelis kriterijus: sakytinės kalbos pobūdį (privati vs vieša kalba) ir struktūrą (dialogai vs polilogai), ryšį tarp pokalbyje dalyvaujančių pašnekovų (tiesioginis vs netiesioginis (pvz., kalba telefonu), demografinius rodiklius, socialinius pašnekovų santykius.Taigi jau 2018 m. naudodamiesi atnaujinta tekstyno versija vartotojai galės filtruoti rezultatus pagal įvairias kategorijas (pvz., lytį, amžių, pokalbio vietą, pokalbio pobūdį ir struktūrą), vykdyti išsamesnę paiešką. Tikimasi, kad 2018 m. vartotojams suteikus daugiau tekstyno duomenų analizės galimybių internete, sakytinės kalbos tyrimų padaugės ir jie apims įvairias leksikos ir gramatikos sritis. [Iš leidinio]

ENThe article describes the Corpus of Spoken Lithuanian, its structure, compilation stages (collection of the recordings, transcription, and grammatical annotation), and the methodology of data collection and digitalization; in addition, it discusses the possibilities of corpus application in the research of natural language usage and the research, which has already been carried out, using the corpus data. At present (2017), the corpus, which is freely accessible for internet users, contains 226,174 word forms. The users of the online corpus version can perform search of a word or a word form and obtain data on the frequency of the form in the whole corpus or its part as well as see grammatical information about it. In 2016-2017, the Corpus of Spoken Lithuanian was supplemented by new data resulting from the implementation of the project “Contemporary Spoken Lithuanian: A Corpus-based Analysis of Grammar and Lexis” (LIP-085/2016) financed by the Research Council of Lithuania under the programme of the State Lithuanian Studies and Dissemination Programme for 2016–2024. The project will also create a new internet access, which will provide more possibilities for the users. The updated corpus consists of 256 conversations (383,587 words) produced by 1,086 speakers (659 females and 427 males), whose age ranges from 3 to 81 years. When developing the Corpus of Spoken Lithuanian, much attention was paid to its composition, i.e. the proportions of the corpus.In order to improve the universality and suitability of the corpus for a more varied analysis, the principle of a balanced corpus was maintained; therefore, several criteria were taken into consideration when collecting the data: the nature of spoken language (private vs public speech) and structure (dialogues vs polilogues), different communication situations (direct vs indirect (e.g. a telephone conversation), demographic indicators, and social relations among the interlocutors. Therefore, in 2018, users of the updated version of the corpus will be able to filter results according to different categories, such as gender, age, place and structure of the conversation, and perform a more detailed search. It is expected that when the users are provided with more possibilities to analyse corpus data on the internet, the amount of spoken language research will increase comprising different areas of lexis and grammar. [From the publication]

ISSN:
2029-8935
Related Publications:
Permalink:
https://www.lituanistika.lt/content/76456
Updated:
2022-02-25 14:16:53
Metrics:
Views: 51    Downloads: 14
Export: