Mokomasis lietuvių kalbos vartosenos leksikonas – nauja tekstyno pagrindu parengta leksinė bazė

Kovalevskaitė, Jolanta; Rimkutė, Erika

doi:https://doi.org/10.2478/sm-2022-0007

Mokomasis lietuvių kalbos vartosenos leksikonas – nauja tekstyno pagrindu parengta leksinė bazė

Direct Link:

Open Access (CC) BY-NC-ND 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Straipsnis / Article

Language:

Lietuvių kalba / Lithuanian

Title:

Mokomasis lietuvių kalbos vartosenos leksikonas – nauja tekstyno pagrindu parengta leksinė bazė

Alternative Title:

New corpus-driven lexical database for Lithuanian as a foreign language

Authors:

In the Journal:

Darnioji daugiakalbystė [Sustainable Multilingualism]. 2022, 20, p. 154-193

Subject Category:

Baltų kalbos / Baltic languages; Leksikografija / Lexicography.

Summary / Abstract:

LTŠiame straipsnyje pristatomas tekstynų lingvistikos metodu parengtas lietuvių kaip svetimosios kalbos mokymui ir mokymuisi skirtas išteklius – Mokomasis lietuvių kalbos vartosenos leksikonas. Tai – pirma tokio pobūdžio lietuvių kalbos leksinė bazė, kurios antraštynas ir žodžių vartosenos aprašas pagrįstas konkrečiu tekstynu – Mokomojo tekstyno rašytine dalimi (ją sudaro apie 620 tūkst. žodžių, sakytinės dalies dydis – 50 tūkst. žodžių). Leksikone pateikta 3 700 vienažodžių ir keliažodžių leksinių vienetų (sudėtinių pavadinimų, frazeologizmų, posakių). Dažniausiems ir visuose A1–B2 kalbos lygiuose pavartotiems žodžiams (jų yra apie 700) parengti ilgieji aprašai – juose pateikiami su konkrečiomis reikšmėmis susieti vartosenos modeliai, kuriuose užfiksuota leksinė, semantinė ir gramatinė informacija. Kiekvienam vartosenos modeliui pateikta pavyzdžių, kuriais iliustruoti visi modeliuose užfiksuoti vartosenos požymiai. Retesniems dariniams (vediniams ir dūriniams), pavartotiems tekstyne ir susijusiems su dažniausiais antraštyno žodžiais, parengti trumpieji aprašai su pavyzdžiais. Iš viso leksikone yra 2 542 dariniai, susieti su 940 pamatinių žodžių. Visiems antraštyno leksiniams vienetams pateikiama 28 550 pavyzdžių, skirtų produkciniams gebėjimams ugdyti.Straipsnyje išsamiai aptariami Mokomojo lietuvių kalbos vartosenos leksikono požymiai, privalumai ir trūkumai, daug dėmesio skiriama adaptuotam vartosenos modelių metodui pristatyti. Tikimasi, kad ši leksinė bazė, tobulinama pagal vartotojų poreikius, užpildys dažną esamų lietuvių kalbos leksikografinių išteklių spragą – gerų produkavimui skirtų pavyzdžių stoką, o kartu su esamais ištekliais – vadovėliais, žodynais ir tekstynais – bus naudingas mokymo ir mokymosi šaltinis pažengusiųjų kalbos vartotojų grupei. Pagrindinės sąvokos: leksikonas; vartosenos modelių metodas; tekstynas; tekstynų lingvistika; mokomoji leksikografija; lietuvių kalba. [Iš leidinio]

ENIn this paper, we describe a new lexicographic resource for advanced learners of Lithuanian, the Lexical Database of Lithuanian Language Usage, which is the first attempt in Lithuanian lexicography to prepare a description of vocabulary based on the word usage analysis in the particular corpus. The written subpart of the Lithuanian Pedagogic Corpus (approx. 620,000 tokens) was used to develop headword lists and collect word usage information in the form of corpus patterns. In the database, there are 3,700 lexical items, words and multi-word units (compounds, idioms or sayings). For the appr. 700 most frequent words from a shared vocabulary (they appear in texts assigned to A1, A2, B1 and B2 levels, and their frequency in the whole corpus is 100 occurrences and above), we prepared a full-record entry: it includes sense-related corpus patterns with grammatical, semantic and lexical information and the examples illustrating all pattern components. The short-record entry (no patterns, only examples) is prepared for the less frequent words from the shared vocabulary, which are derivationally related to the most frequent headwords. The users are provided with 2,542 derivatives, which are linked to 940 headwords. In the database, 28,550 encoding examples are manually selected for all 3,000 headwords and 700 phrases. We discuss the features of the database, and, particularly, the adopted semi-automated procedure of Corpus Pattern Analysis, which was used for the description of word usage.We evaluate the approach applied,and discuss its advantages for users as well as provide the suggestions for the future improvements of the resource, which can be used as an additional resource in the classroom of Lithuanian as a foreign language, and, together with the available corpora, fill in a gap of usage information in the existing (learner) dictionaries. Keywords: Lexical database; Corpus Pattern Analysis; corpus; corpus linguistics; learner lexicography; Lithuanian language. [From the publication]

DOI:

10.2478/sm-2022-0007

ISSN:

2335-2019; 2335-2027

Subject:

Kalbotyra / Linguistics

Related Publications:

A Comparison of Lithuanian morphological analyzers / Jurgita Kapočiūtė-Dzikienė, Erika Rimkutė, Loic Boizou. SD 2017 : Text, speech, and dialogue: 20th international conference, Prague, Czech Republic, August 27-31, 2017: proceedings / editors Kamil Ekštein, Václav Matoušek. Berlin: Springer International Publishing, 2017. P. 47-56.
Apie pažymimuosius pasakymus sakytinėje lietuvių kalboje / Laura Kamandulytė-Merfeldienė, Ingrida Balčiūnienė. Taikomoji kalbotyra. 2016, 8 p. 55-71.
Bendrinės lietuvių leksikos duomenų bazė - ne elektroninis Bendrinės lietuvių kalbos žodynas / Daiva Murmulaitytė. Kalbų studijos. 2009, Nr. 15, p. 77-84.
Dėl kai kurių darinių pateikimo Bendrinės lietuvių kalbos žodyne / Jolanta Vaskelienė. Leksikografija ir leksikologija. D. 1, Aiškinamųjų bendrinės kalbos žodynų aktualijos / sudarytoja Ritutė Petrokienė. Vilnius: Lietuvių kalbos institutas, 2006. P. 55-71.
Grammatical patterns in the corpus-driven “Lexical Database of Lithuanian” / Agnė Bielinskienė, Jolanta Kovalevskaitė, Erika Rimkutė. Valoda: nozīme un forma 2021, 12, p. 7-30.
Imperatyvinės kilmės diskurso markeriai lietuvių kalboje: "klausyk" ir "žiūrėk" atvejis / Erika Jasionytė-Mikučionienė. Kalbotyra. 2016, t. 68, p. 23-41.
Kodėl svarbios neasmenuojamosios formos: „Mokomojo lietuvių kalbos vartosenos leksikono“ veiksmažodžių tyrimas / Jolanta Kovalevskaitė, Erika Rimkutė. Taikomoji kalbotyra. 2023, 19, p. 57-77.
Leksikografija / Evalda Jakaitienė. Vilnius : Mokslo ir enciklopedijų leidybos institutas, 2005. 324 p.
Lietuvių kalbos gramatikos kompiuterizavimas / Daiva Šveikauskienė. Vilnius : Lietuvių kalbos institutas, 2022. 279 p.
Lietuvių kalbos kolokacijų žodynas / sudarytojai. Kaunas : Vytauto Didžiojo universitetas, 2019. 1 pdf (834 p.).
Linguistically-motivated automatic classification of Lithuanian texts for didactic purposes / Gintarė Grigonytė, Jolanta Kovalevskaitė, Erika Rimkutė. Human language technologies - the Baltic perspective : proceedings of the eighth international conference Baltic HLT 2018 / edited by Kadri Muischnek, Kaili Müürisep. Amsterdam: IOS Press, 2018. P. 38-46.
Lingvodidaktikos terminų žodynas / Meilutė Ramonienė ... [et al.]. Vilnius : Vilniaus universiteto leidykla, 2012. 233 p.
Mokomasis lietuvių kalbos tekstynas: naujas išteklius besimokantiesiems lietuvių kalbos / Jolanta Kovalevskaitė, Erika Rimkutė. Darnioji daugiakalbystė. 2020, No. 17, p. 197-230.
Priešdėlinių lietuvių kalbos veiksmažodžių leksikalizacija / Laima Jancaitė. Bendrinė kalba. 2020, 93, 1 pdf (27 p.).
Subūdvardėjusių lietuvių kalbos dalyvių atpažinimo kriterijai / Laima Jancaitė. Taikomoji kalbotyra. 2023, 20, p. 183-207.
Tekstynų lingvistika: teorija ir praktika / Rūta Marcinkevičienė. Darbai ir dienos. 2000, t. 24, p. 7-64.
Vartosenos modelių analizė mokomojoje leksikografijoje: žvalgomasis tyrimas lietuvių kalbos veiksmažodžių pavyzdžiu / Jolanta Kovalevskaitė, Laima Jancaitė. Taikomoji kalbotyra. 2019, 12, p. 124-154.
Vedinių pateikimo sistemiškumas "Bendrinės lietuvių kalbos žodyne" / Daiva Murmulaitytė. Kalbos kultūra. 2012, 85, p. 71-91.

Permalink:

https://www.lituanistika.lt/content/98534

Updated:

2025-02-21 14:32:37

Metrics:

Views: 64 Downloads: 12

Export:

Choose type:

Download

User ID:
User Password: