Towards a refined inventory of lexical bundles: an experiment in the "Formulex" method

Towards a refined inventory of lexical bundles: an experiment in the "Formulex" method
Leksinių samplaikų sąrašo tikslinimas: bandymas taikyti "Formulex" metodą
Kalbų studijos [Studies About Languages]. 2016, Nr. 29, p. 58-73
LTSvetimkalbių vartotojų produkuojamos kalbos tekstynai pastaruoju metu neretai tiriami aprašant leksines samplaikas, t. y. pasikartojančias tam tikro ilgio žodžių sekas, jų vartojimą bei funkcijas. Tokiuose tyrimuose neišvengiamai susiduriama su iš dalies sutampančiomis ar nepilnos struktūros samplaikomis. Pavyzdžiui, keturžodės anglų kalbos samplaikos at the same time, the same time it ir but at the same yra automatiškai generuojamos kompiuterio programa kaip tekstyne pasikartojančios sekos. Tačiau ar kiekviena jų laikytina tikrąja samplaika? Ar kiekvienai iš jų galima priskirti vienokią ar kitokią funkciją? Šiame straipsnyje siekiama parodyti, kaip „Formulex” metodas (Forsyth, 2015a, 2015b) leidžia parengti tikslesnį ir tyrimams vertingesnį leksinių samplaikų dažninį sąrašą ir tokiu būdu patikslinti programa „WordSmith Tools“ ar panašiu tekstynų analizės įrankiu automatiškai parengiamą samplaikų sąrašą, kuris tradiciškai grindžiamas samplaikų ilgiu, minimaliu dažniu tekstyne bei dispersija skirtinguose tekstyno tekstuose (Biber et al. 1999), tačiau nepaiso teksto dengimo (angl. coverage) kriterijaus, kuriuo ir grindžiamas „Formulex“ metodas.Siekiant pademonstruoti „Formulex“ metodo veikimą, straipsnyje naudojami du tarptautinio svetimkalbių produkuojamos rašytinės anglų kalbos tekstyno (ICLE, Granger et al. 2009) patekstyniai: lenkiškasis (PICLE) ir lietuviškasis (LICLE), pastarasis numatytas įtraukti į šiuo metu rengiamą atnaujintą ICLE versiją. Taip pat pateikiami duomenys iš LOCNESS tekstyno, sukaupto Liuveno anglų kalbos tekstynų lingvistikos centre (CECL). Straipsnyje aprašomas bandomasis tyrimas rodo, jog tradiciniu būdu išgaunamos leksinės samplaikos neretai yra ilgesnių pasikartojančių samplaikų dalys, tad jos turėtų būti analizuojamos ne kaip, pavyzdžiui, keturžodės, o penkiažodės samplaikos. Kitaip tariant, „Formulex“ metodas leidžia tyrėjui tiksliau apibrėžti tiriamų pasikartojančių žodžių sekų ribas ir atsisakius persidengiančių ar atsitiktinių leksinių samplaikų, kokybiškiau atlikti pirminę duomenų atranką tolesniems tyrimams. [Iš leidinio]Reikšminiai žodžiai: Kalbos tekstynai; Formulex metodas; Svetimkalbiai; Corpus linguistics; Learner language; Formulaicity; Lexical bundles; Lithuanian and Polish learners.

ENA number of corpus studies focusing on the description of the use and functions of lexical bundles have been conducted recently in order to explore the phraseology of learner language. As with any studies of lexical bundles, the problem of overlapping or structurally incomplete items poses a particular challenge. In practice, it is often difficult to align such units with specific discourse functions. The fact that lexical bundles do not constitute neat form-and-meaning mappings results from, among other reasons, their being grounded in language use rather than language system. In this pilot study we attempt to test a new method called Formulex (Forsyth, 2015a; 2015b) to verify whether an application of the criterion of coverage – in addition to the conventional criteria of orthographic length, minimum frequency and distribution range (Biber et al., 1999) – may help obtain a more refined inventory of lexical bundles and hence facilitate further qualitative analyses. To that end, we use Polish and Lithuanian components of the International Corpus of Learner English (ICLE, Granger et al., 2009), as well as the LOCNESS corpus (CECL), representing academic essays written by British and American students. The results revealed that many lexical bundles of fixed length identified in a conventional way are fragments of longer chunks of text and hence they should not be treated as complete or standalone 4-word lexical items. It was also revealed that the application of the Formulex method, where the word sequences are mutually exclusive, helps a researcher filter out overlapping or non-perceptually salient lexical bundles and, ultimately, specify more precise boundaries of lexical bundles of fixed length. [From the publication]

