LTToliau tęsiami ir plėtojami Dabartinės lietuvių kalbos tekstyno (adresas internete http://donelaitis.vdu.lt) darbai. Tekstynas - tai didžiausia dabartinės lietuvių kalbos elektroninė duomenų bazė, kurią sudaro daugiau kaip 100 milijonų žodžių tekstai iš įvairių rašytinių šaltinių: periodinės spaudos, grožinių ir negrožinių knygų, vertimų, valstybės dokumentų ir kt. Visas šis didelis duomenų šaltinis yra laisvai prieinamas visiems interneto vartotojams. Kadangi tekstyno duomenys gausūs ir reprezentatyvūs, jais aktyviai naudojasi ne tik lingvistai, filologai, bet ir įvairių kitų sričių mokslininkai ir praktikai. Dabar tekstyną rengiamasi papildyti pastarųjų trejų metų įvairių stilių rašytiniais tekstais, tačiau vien tik rašytine kalba neapsiribojama - pradėtas kurti ir sakytinės, tiek viešosios, tiek privačiosios, kalbos tekstyno segmentas. Kiti darbai - tai tekstyno žodžių tarsenos, jų semantinio, sintaksinio ir morfologinio anotavimo priemonių kūrimas ir diegimas. [Iš straipsnio, p. 181]Reikšminiai žodžiai: Dabartinės lietuvių kalbos žodynas; Kompiuterinė lingvistika; Morfologinis anotavimas; Tekstynas; Tikriniai daiktavardžiai; Tikrinis daiktavardis; Computational linguistics; Corpus; Morphological annotation; Proper name; Proper noun; The Corpus of the Contemporary Lithuanian Language.
ENAfter having developed a representative electronic database of contemporary Lithuanian (the Corpus of the Contemporary Lithuanian Language) a necessity arose to start implementing another stage of language computerisation, i.e. to develop and inoculate tools for semantic, syntactic and morphological annotation. The present article refers to morphological annotating issues related to one of the classification groups of nouns, i.e. proper nouns and underlines some of the peculiarities connected with such an analysis, as well as related grammatical interpretation difficulties. Personal names and place names arc annotated morphologically on the basis of three features: they are assigned to a certain paradigm, a grammatical gender, and their relationships with the grammatical number category are marked. In order for the computer annotation software to identify and interpret relevantly some of the proper nouns having a polysemous usage, a necessity arose for introducing certain specific terms and their markings (annotations) unusual in traditional morphology. Thus not only first and last names of men and women were assigned to the ambigual number, but also words that can serve both as anthroponyms and as loconyms (c.g. Neringa, Miunsteris).Meanwhile, nouns expressing surnames of both men and women, c.g. Gete (Goethe), Handke (Handke) were fixed as anthroponyms of the common gender. The proper nouns that differed from each other in two or even all the three morphological features were registered twice and marked in different ways. While developing and continuing the annotation-related work, it is worthwhile thinking very well how exactly we could annotate non-adapted anthroponyms of other languages and those having original spelling, especially when a possibility arises to interpret them in several different ways, e.g. Linde may refer to the instrumental/ vocative case of the Lithuanian male surname, Lindė, or to the non-inflectcd original form of a male/ female surname from other languages. [From the publication]