Corpus-driven analysis of multi-word terms including the word ‘risk’ in English, French and Lithuanian

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Corpus-driven analysis of multi-word terms including the word ‘risk’ in English, French and Lithuanian
Alternative Title:
Anglų, prancūzų ir lietuvių kalbų daugiažodžių terminų su žodžiu „rizika“ analizė tekstynų lingvistikos metodais
In the Journal:
Terminologija. 2018, 25, p. 86-106
Summary / Abstract:

LTStraipsnyje pristatomi deskriptyviosios terminologijos tyrimo principai bei empirinis daugiažodžių terminų su žodžiu rizika tyrimas, kurio tikslas – taikant tekstynų lingvistikos metodus, surinkti terminus iš ES finansų srities dokumentų tekstynų ir atlikti jų formaliosios sandaros analizę. Tyrimo tikslams buvo sukaupti keturi tekstynai: finansų srities dokumentų anglų kalba (802 933 žodžiai), prancūzų kalba (940 655 žodžiai) ir lietuvių kalba (639 279 žodžiai) bei lygiagretusis anglų–prancūzų–lietuvių kalbų tekstynas. Iš tekstynų surinkta 210 terminų, kuriuose žodis rizika eina pagrindiniu dėmeniu: 70 angliškų terminų ir po tiek pat jų atitikmenų prancūzų ir lietuvių kalbomis. Žodžio rizika pasirinkimą lėmė tai, kad šis žodis buvo dažniausias visų trijų kalbų tekstynuose. Terminų atpažinimui ir surinkimui buvo naudojamos dvi kompiuterinės programos – AntConc ir AntPConc. Dirbta tokiais etapais: • dažniausių žodžių, galinčių būti terminų branduoliu, angliškame, prancūziškame ir lietuviškame tekstynuose nustatymas ir vieno iš jų (žodžio rizika) atrinkimas tolesnei analizei; • žodžio rizika kolokacijų ir daiktavardinių junginių su pagrindiniu dėmeniu rizika ir jo kairiaisiais bei dešiniaisiais kolokatais nustatymas angliškame tekstyne; • daiktavardinių junginių, laikytinų daugiažodžiais terminais, atrinkimas; • atrinktų angliškų terminų prancūziškų ir lietuviškų atitikmenų nustatymas. Pritaikyta metodologija leido rezultatyviai surinkti daugiažodžius terminus iš daugiakalbių tekstynų. Tai duoda pagrindą teigti, kad ji gali būti taikoma terminų kaupimui bei tyrimams.Surinktų terminų formaliosios sandaros analizė atskleidė keletą svarbių terminų darybos tendencijų tiriamose kalbose: • vyraujantis terminų tipas pagal dėmenų skaičių visose trijose tiriamose kalbose yra dvižodžiai terminai; tai rodo, kad ES terminų kūrėjai laikosi kalbos ekonomijos principo ir stengiasi kurti kuo trumpesnius daugiažodžius terminus; • tik keletas angliškų ir prancūziškų terminų turi daugiau kaip 2–3 dėmenis; tuo tarpu lietuviški terminai, susidedantys iš 4 ir daugiau dėmenų, sudaro beveik ketvirtadalį surinktų terminų; • anglų ir lietuvių kalbų terminų darybos modeliuose vyrauja prepozicinė ir postpozicinė modifikacija, o prancūzų kalbos – postpozicinė modifikacija; • daugumos anglų ir lietuvių kalbų terminų priklausomieji dėmenys yra daiktavardžiai ir būdvardžiai, o prancūzų kalboje – prielinksninės konstrukcijos. Formaliosios sandaros analizės rezultatai suteikia informacijos, kuri gali būti naudinga terminų kūrėjams ir vertėjams. Tyrimo metu nustatyti sintaksinių struktūrų modeliai gali būti taikomi, kuriant kompiuterinius lingvistinius metodus automatiniam terminų atpažinimui be iš anksto pasirinktų raktinių žodžių. [Iš leidinio]Reikšminiai žodžiai: Deskriptyvioji terminologija; Analizė tekstyno pagrindu; Finansiniai terminai; Terminų išgavimas; Terminų formavimo modeliai; Descriptive terminology; Corpus driven analysis; Financial terms; Term extraction; Term formation patterns.

ENThe aim of the research is to apply the methodology of corpus linguistics for extraction and formal structure analysis of financial multi-word terms including the word ‘risk’ as the head noun in English, French and Lithuanian. In order to achieve this aim, the following objectives were set: 1) to analyse the principles of descriptive corpus driven terminology including the methods of collocational-colligational analyses; 2) to compile corpora of the EU legal acts of financial domain in three languages (English, French and Lithuanian) and select the software appropriate for the corpus-driven research; 3) to extract the most frequent words from the corpora in the investigated languages and select the most frequent keyword (noun) for the further analysis; 4) to carry out collocational analysis of the selected keyword in the English corpus and extract multi-word terms including the selected keyword as the semantic and syntactic head of terms from the English corpus material; 5) to establish French and Lithuanian equivalents of the selected English terms in the parallel English-French-Lithuanian corpus; 6) to perform formal structure quantitative analysis of the selected multi-word terms and determine which modification patterns and syntactic structures of the terms are predominant in the investigated languages. Data and scope of the research. For the purposes of the research, four corpora of the EU documents of financial domain were compiled: three monolingual corpora (English, French and Lithuanian) and one parallel corpus (EN-FR-LT). The sizes of the corpora are as follows: EN 802 933 words, FR 940 655 words, LT 639 279 words. In total, 210 financial terms including the word ‘risk’ as the head noun were extracted from the corpora: 70 English terms and their equivalents in French and Lithuanian.The choice of word ‘risk’ was determined by the corpus data which revealed that this word was the most frequent in the selected EU documents. [Extract, p. 87-88]

ISSN:
1392-267X
Related Publications:
Permalink:
https://www.lituanistika.lt/content/80817
Updated:
2019-12-07 17:59:28
Metrics:
Views: 38    Downloads: 4
Export: