LTStraipsnyje pristatomi bandymai automatiškai nustatyti lietuvių kalbos veiksmažodžių grupes. Pirmiausia analizuoti tik sudėtinio tarinio junginiai. Trumpai pristatytos problemos, susijusios su tarinių nustatymu, klasifikacija ir automatiniu atpažinimu morfologiškai anotuotuose tekstuose. Aprašyta, kaip naudojant tekstyną buvo aptikti veiksmažodžių jungimosi dėsningumai ir sudarytos veiksmažodžių junginius aprašančios taisyklės. Straipsnyje aprašyti statistiniai tyrimai, kuriais nustatyta, kad veiksmažodžių junginiai dabartinėje lietuvių kalboje yra pasiskirstę pagal Puasono skirstinį. Atliekant tyrimą pastebėta, kad 500 000 žodžių apimties elektroniniai tekstai – pakankama imtis veiksmažodžių junginiams analizuoti. Nustatyta, kad automatiškai galima skirti 40 grupių, kurios apima susijusias veiksmažodžių formas, pvz., tariamoji nuosaka, bendratis ir bendratis (norėčiau eiti pasivaikščioti); dalyvis, asmenuojamoji forma ir bendratis (galima buvo tikėtis) ir pan. Ilgiausi nustatyti veiksmažodžių junginiai yra keturžodžiai. Dažniausiai veiksmažodžių junginiai yra dvižodžiai arba trižodžiai. Remiantis sudarytu taisyklių rinkiniu, sukurtas veiksmažodžių junginių sintaksinis analizatorius, kuris veiksmažodžių junginius atpažįsta 95 proc. tikslumu ir morfologiškai vienareikšmina atpažintus junginius. [Iš leidinio]Reikšminiai žodžiai: Veiksmažodžių junginiai; Tarinys; Automatinis kalbos atpažinimas; Sintaksinė analizė; Verb phrase; Redicate; Automatic recognition; Syntax analysis.
ENThe first attempts to recognise Lithuanian language verb phrases automatically are presented in this article. Research is restricted to complex predicate groups. The problems related to predicates finding, classification and automated recognition in annotated texts are briefly introduced here as well. We describe our own way of finding the consistent patterns of predicate conjugations in the Lithuanian Corpora and creating verb phrase syntax rules. The results of statistical evaluation and of finding a reliable set of texts for adequate syntax analysis, and also estimating the longest possible verb phrase length the forms complex predicate,[12] are provided in this article. Forty different group models describing complex predicates in the Lithuanian language were determined. Using this 40 rules list in verb phrases recognition gives us a precision rate of 95 %. We are planning to apply the extracted syntax rules and reuse created syntax analysis and the Lithuanian verb phrases recognition tool in the Dependency Grammar parser of the Lithuanian language.