"Senosios lietuvių kalbos tekstynas" (SLIEKKAS) - nauja diachroninio tekstyno samprata

Gelumbeckaitė, Jolanta; Šinkūnas, Mindaugas; Zinkevičius, Vytautas

"Senosios lietuvių kalbos tekstynas" (SLIEKKAS) - nauja diachroninio tekstyno samprata

Direct Link:

Open Access (CC) BY-SA 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Straipsnis / Article

Language:

Lietuvių kalba / Lithuanian

Title:

"Senosios lietuvių kalbos tekstynas" (SLIEKKAS) - nauja diachroninio tekstyno samprata

Alternative Title:

"Old Lithuanian reference corpus" (SLIEKKAS). A new concept of a historical corpus

Authors:

In the Journal:

Darbai ir dienos [Deeds and Days]. 2012, t. 58, p. 257-278

Subject Category:

Italija (Italy); Lietuva (Lithuania); Vilnius. Vilniaus kraštas (Vilnius region); Vokietija (Germany).

Summary / Abstract:

LTGiliosios anotacijos referencinis „Senosios lietuvių kalbos tekstynas“ (SLIEKKAS) parengtas bendradarbiaujant Frankfurto prie Maino Goethe's universitetui (Vokietija), Lietuvių kalbos institutui ir Pisos universitetui (Italija). Tekstyno galutinis tikslas – sudaryti lingvistinį ir tekstinį-technologinį pagrindą referencinio „Senosios lietuvių kalbos tekstyno“ (1500-1800 m., 10 mln. lietuviškų teksto žodžių) sukūrimui ir išmėginti mažesnės apimties bandomąjį tekstyną, apimantį apie 350 000 senosios lietuvių kalbos žodžių. Bandomasis tekstynas reikalingas dėl sudėtingos ir kompleksiškos diachroninių tekstynų struktūros bei diegimo atskiromis dalimis. Tekstyno ypatybės yra šios: jis yra multimodalinis, nes lietuviški tekstai lygiagretinami (alignuojami) su originalo faksimilėmis; išsami informacija pateikiama pažymų (anotacijų) forma, kurios, be metainformacijos, apima lemavimą, glosavimą (dabartine lietuvių k. ir anglų k., numatoma ir vokiečių k.), gramatinę informaciją (POS-tagging = part of speech-tagging, morfologinė ir bazinė sintaksinė informacija), informaciją apie teksto struktūrą, paleografinę ir tekstologinę informaciją; anotacijų sluoksniai pateikiami daugiapakopės (angl. stand-off) architektūros principu; lietuviški tekstai su visais anotacijų sluoksniais lygiagretinami tarpusavyje ir su atitinkamai anotuotais vertimo šaltinių tekstais. Dauguma senųjų lietuvių kalbos tekstų yra pažodiniai vertimai iš lotynų, vokiečių ar lenkų šaltinių, vertimų šaltiniai (bandomojo tekstyno atveju apie 190 000 teksto žodžių) taip pat bus įtraukti į tekstyną.Tai leis sulygiagretinti lietuviškus tekstus su jų šaltiniais. To paties žanro lietuviški tekstai taip pat bus lygiagretinami tarpusavyje siekiant nustatyti įvairiopą interferenciją ir sekti proceso eigą viename žanre bei tarp žanrų. „Senosios lietuvių kalbos tekstynas“ siekia paruošti tolesniems moksliniams tyrimams, visų pirma lingvistiniams, bet taip pat ir istoriniams plačiąja prasme. Jis turi tapti patikimu bei inovatyviu lietuvių kalbos istorijos tyrimų resursu ir padėti rasti atsakymus į įvairius lingvistinius klausimus, taip pat Baltijos šalių literatūros, religijos bei kultūros (tarp jų ir ikikrikščioniškos ir krikščionybės kultūros prieštarų, konfesijų išsiskyrimų ir kt.) studijų šaltiniu. Tai leis atskleisti esminę informaciją apie Lietuvos ir Baltijos šalių kultūros raidą. „Senosios lietuvių kalbos tekstynas“ taip pat turi padėti ir pradėti įgyvendinti du didžiausius diachroninės lituanistikos darbus: senosios lietuvių kalbos gramatikos ir istorinio lietuvių kalbos žodyno rengimą. [versta iš angliškos santraukos]Reikšminiai žodžiai: Senoji lietuvių kalba; Senosios lietuvių kalbos tekstynas; Old Lithuanian; Old Lithuanian Reference Corpus.

EN"The Old Lithuanian Reference Corpus" (Lith. Senosios lietuvių kalbos tekstynas; acronym SLIEKKAS, Germ. Rferenzcorpus Altlitauisch), a comprehensive, deeply annotated reference corpus of Old Lithuanian, is being developed in cooperation between the Goethe-University of Frankfurt am Main (Germany), the Institute of Lithuanian Language (Vilnius, Lithuania), and the University of Pisa (Italy). Its ultimate goal is to develop the linguistic and text-technological basis for the creation of a reference corpus of Old Lithuanian (1500-1800, ca. 10 m. text words) and to test it on the basis of an exemplary corpus comprising ca. 350 000 Old Lithuanian tokens. The attempt to start with a test corpus is driven by the necessity to establish complex multilayered structures that are needed for a diachronic corpus, and to apply them gradually. The envisaged annotation scheme of the Corpus embraces the following structural features: a thorough linguistic and textological annotation, including header information, lemmatisation, grammatical information (Part of Speech-Tagging, morphological and basic syntactical information), glossation (in Modern Lithuanian, English, and possibly other languages), information about the text structure (text subdivision into words, sentences, lines, verses, paragraphs etc.), palaeographic and textological information; a multi-level architecture of the annotations; multi-modality of the corpus through the alignment of the texts with facsimile reproductions of the originals. Since most of the Old Lithuanian texts are translations from Latin, German, or Polish sources, the source texts (in the case of the test corpus ca. 190 000 text words) will be accumulated and annotated in the same way as the Lithuanian ones.This will allow for the alignment of the Old Lithuanian texts with their sources. Furthermore, Old Lithuanian texts of the same genre will be aligned with each other in order to allow for an assessment of possible mutual influences within one and the same genre, as well as across genres. "The Old Lithuanian Reference Corpus" will be designed to provide an innovative scientific resource for historical and comparative linguistics as well as literary, religious and cultural studies concerning the Baltic countries, including the controversy between pre-Christian and Christian cultures and the confessional spinoff processes of the area as well as their backgrounds. In this way, essential knowledge of the cultural development of Lithuania and the Baltic countries in the given period will be gained. With regard to historical linguistics, "the Old Lithuanian Reference Corpus" is expected to provide a basis for an efficient development and implementation of further research programmes concerning the diachronic grammar and the lexicon of Lithuanian. [From the publication]

ISSN:

1392-0588; 2335-8769

Subject:

Kalbotyra / Linguistics

Related Publications:

Baltisches Textmaterial in der TITUS-Datenbank / Jost Gippert. Baltikum im sprachgeschichtlichen Kontext der europäischen Reformation : [internationales Arbeitsgespräch. Hercog August Bibliothek Wolfenbüttel, 21.-23. Mai 2003] / herausgegeben von: Jolanta Gelumbeckaitė, Jost Gippert. Vilnius: Lietuvių kalbos instituto leidykla, 2005. P. 88-110.
Dabartinės lietuvių kalbos gramatika / Vytautas Ambrazas, Kazimieras Garšva, Aleksas Girdenis, Evalda Jakaitienė, Pranas Kniūkšta, Stasė Krinickaitė, Vitas Labutis, Adelė Laigonaitė, Elena Oginskienė, Juozas Pikčilingis, Albertas Ružė, Nijolė Sližienė, Kazys Ulvydas, Vincas Urbutis, Adelė Valeckienė, Elena Valiulytė. Vilnius : Mokslo ir enciklopedijų leidybos institutas, 2005. 745 p.
Die Litauische Wolfenbütteler Postille von 1573 / herausgegeben von Jolanta Gelumbeckaitė. Wiesbaden : Harrassowitz, 2008. 2 t.
Digital humanities overview in Lithuania: heritage and language resources / Andrius Utka, Giedrė Valūnaitė-Oleškevičienė, Anželika Gaidienė. Baltic journal of modern computing 2024, vol. 12, iss. 4, p. 592-608.
Kristijonas Donelaitis im Referenzcorpus Altlitauisch (SLIEKKAS) / Jolanta Gelumbeckaitė. Baltu filoloģija. 2015, t. 24, nr. 1, p. 19-50.
"Lemuoklis" - morfologinei analizei / Vytautas Zinkevičius. Darbai ir dienos. 2000, t. 24, p. 245-274.
Lietuvių kalbos kolokacijos / Rūta Marcinkevičienė. Kaunas : Vytauto Didžiojo universiteto leidykla, 2010. 210 p.
Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne : disertacija / Erika Rimkutė. Kaunas, 2006. 203 p.
Senųjų Biblijos vertimų lyginamųjų tyrimų automatizavimas / Mindaugas Šinkūnas. Archivum Lithuanicum. 2017, t. 19, p. 57-98.
Senųjų raštų rašybos keitimas paieškos sistemai / Mindaugas Šinkūnas. Baltų kalbų tekstų ir žodžių reikšmės / sudarytojos ir mokslinės redaktorės: Gintarė Judžentytė-Šinkūnienė, Vilma Zubaitienė. Vilnius: Vilniaus universiteto leidykla, 2018. P. 389-407.
Workflow reversal and data wrangling in multilingual diachronic analysis and linguistic linked open data modelling / Florentina Armaselu, Barbara McGillivray, Chaya Liebeskind, Giedrė Valūnaitė Oleškevičienė, Andrius Utka, Daniela Gifu, Anas Fahad Khan, Elena-Simona Apostol, Ciprian-Octavian Truica. Language, data and knowledge 2023 (LDK 2023): proceedings of the 4th conference on language, data and knowledge, 12–15 September 2023. Vienna, Austria. Vienna, 2023. P. 410-416.

Permalink:

https://www.lituanistika.lt/content/44701

Updated:

2025-02-21 14:39:12

Metrics:

Views: 161 Downloads: 28

Export:

Choose type:

Download

User ID:
User Password: