Arbitraliųjų lietuvių kalbos kolokacijų nustatymas

Arbitraliųjų lietuvių kalbos kolokacijų nustatymas
Identification of Lithuanian arbitrary collocations
Bendrinė kalba [Standard Language]. 2021, 94, 1 pdf (37 p.)
LTŠiame straipsnyje sprendžiama arbitraliųjų lietuvių kalbos kolokacijų atpažinimo problema. Tam skirtas projektas ,,Arbitraliosios lietuvių kalbos kolokacijos: atpažinimas, aprašymas, vartojimas (ARKA)“. Arbitraliosiomis kolokacijomis laikomos kolokacijos, kurių žodžių junglumo pagrindas yra ne semantiniai, o leksiniai ribojimai. Tokios kolokacijos tiesiogiai neatspindi nekalbinės tikrovės, o ryšys tarp jų žodžių – arbitralus: nors pagal panašią reikšmę teoriškai galima rinktis daugiau negu vieną junglumo partnerį, bet linkstama vartoti kurį nors vieną, pvz., suprasti užuominą, bet ne *suvokti užuominą. Tyrimo šaltinis yra Lietuvių kalbos pastoviųjų žodžių junginių duomenų bazė, kurioje pateikiama apie 12 tūkst. kolokacijų; ištyrus kolokacijas su 97 daiktavardžiais, arbitraliosiomis priskirta apie 2400 kolokacijų, kurių struktūra yra būdvardis / būdvardiškai vartojamas dalyvis + daiktavardis, veiksmažodis + daiktavardis, daiktavardis + daiktavardis. Straipsnyje aprašyti du pagal minėtą projektą išbandyti arbitraliųjų kolokacijų nustatymo metodai: neautomatinis lingvistinės analizės ir automatizuotas kompiuterinės lingvistikos metodas. Nustatant AK neautomatiškai, taikyti du pagrindiniai kriterijai: perkeltinės reikšmės kriterijus ir riboto leksinio junglumo kriterijus, kuriam įvertinti taikyti veiksmažodžio ar būdvardžio sinonimų pakeičiamumo ir (arba) daiktavardžių leksinių semantinių grupių testai. Vienas iš AK nustatymo kriterijų – riboto leksinio junglumo – buvo tikrinamas ir automatizuotai, vektorių metodu nustačius pakeičiamumo testui reikalingus sinonimus. Automatizuoto metodo taikymą sudarė šie etapai: 1) automatinis, kai vektorių metodu buvo surenkamos vektorių eilės su panašų kontekstą turinčiais žodžiais.2) neautomatinis – vektorių eilių tvarkymas paliekant tik sinoniminiais ryšiais susijusius žodžius; 3) iš dalies automatinis etapas, kai kolokacijos buvo automatiškai susiejamos su konkrečiomis sinonimų eilėmis ir po peržiūros lingvistų patvirtinamos arba nepatvirtinamos kaip AK. Neautomatiniu metodu nustatyta apie pusė AK, automatizuotu metodu – apie trečdalis. Neautomatinei analizei taikytas ne vienas, o du atrankos kriterijai, todėl neautomatiškai nustatytų duomenų daug daugiau negu nustatytų automatizuotai. Nors automatizuotu metodu galima sumažinti subjektyvumą vertinant duomenis ir supaprastinti arbitralumo vertinimo procedūrą, tačiau pastebėta ir tai, kad arbitralumo pripažinimą lemia vektorių eilėje esantys sinonimai, taigi dalis AK gali likti neatpažintos. Vektorių metodu surinktus sinonimus reikia atskirti nuo kitais semantiniais ryšiais susijusių žodžių, tam reikalinga lingvisto patikra. Tačiau, nepaisant šio ribotumo, vektorių metodas yra tinkamas dideliam duomenų kiekiui apdoroti, o rankiniu įvertinti gausybės žodžių konteksto panašumą būtų sunku. Abiem metodais atpažintos kolokacijos sudaro tik penktadalį visų nustatytų AK, todėl yra pagrindo manyti, kad siekiant atpažinti AK svarbu taikyti tiek automatizuoto, tiek ir neautomatinio metodo teikiamas galimybes. [Iš leidinio]

ENIn this article, we describe the methodological approaches of arbitrary collocation (AC) identification developed within the framework of an ongoing project “Arbitrary Collocations of Lithuanian: Identification, Description and Usage (ARKA)”. The object of this research is arbitrary collocations of the Lithuanian language the collocability of which is determined by lexical rather than semantic constraints. Such collocations do not directly reflect the nonlinguistic reality and the relation between the collocates is arbitrary: although there may be several close synonyms, a particular one is preferred in a certain word combination (e.g., suprasti užuominą vs. *suvokti užuominą). The source of the research was the Database of Lithuanian Multiword Expressions encompassing over 12.000 collocations. The structural composition of the identified 2400 arbitrary collocations was as follows: adjective (participle)+noun, verb+noun, and noun+noun. Arbitrary collocations were determined by combining the manual linguistic analysis and semi-automatic methods of computational linguistics. The manual method included two major AC identification criteria: lexical restrictedness and (or) meaning transfer. Lexical restrictedness was measured using two tests: the synonym substitution of pre-modifier and (or) semantic field comparison of the head noun. Moreover, lexical restrictedness was also assessed using a semiautomatic approach by analyzing synonym pairs in the automatically generated vector strings. The semi-automatic approach consisted of three stages: (1) the automatic generation of vector strings with potential synonyms; (2) the manual vector string editing to reduce the noise, and (3) the semi-automatic process during which the collocations were compared to particular synonym pairs in vector strings and approved or not approved by linguists as arbitrary.Approximately half of ACs were detected by using the manual method based on two AC identification criteria, whereas about one-third of ACs were identified using the semi-automated method based on one criterion. On the one hand, the semi-automatic method can reduce the subjectivity in data evaluation and simplify the AC identification procedure. On the other hand, as arbitrariness is determined on the basis of the available synonyms in the vector string, some ACs may not be identified because of the insufficient scope of the generated synonyms. Also, the automatically generated synonyms need to be manually analyzed to eliminate semantically unrelated words. Despite these limitations, the method is suitable for processing large amounts of the data. It would be difficult to manually assess the contextual similarity of such a large number of words. About one fifth of ACs were identified using a combination of both methods. These results suggest that different methodological approaches allowed the researchers to detect more arbitrary collocations. It is maintained that taking into consideration the mentioned advantages and disadvantages, the best results in the Lithuanian arbitrary collocation identification are acquired when combining both manual and semi-automatic methods. [From the publication]

