LTLietuvos mokinių informatikos olimpiada (LMIO) - tai programavimo (algoritmų kūrimo) varžybos. Sprendimų (algoritmus vykdančių programų) vertinimas Lietuvos kaip ir pasaulio olimpiadose yra automatizuotas ir įgyvendinamas juodosios dėžės principu. Kiekvienam uždaviniui sukuriamas tam tikras testų skaičius, kiekviena programa sukompiliuojama ir vykdoma su šiais testais. Jei programa sėkmingai baigė darbą su konkrečiu testu neviršydama užduotyje nurodytų laiko ir atmindes ribojimų, testas laikomas įveiktu ir už jį skiriami taškai. Pasaulinėse olimpiadose neseniai pradėtas taikyti testų grupavimas, kai taškai už testą skiriami tik tada, jei įveikiami visi tos grupės testai. Pastaruoju metu tarptautinių olimpiadų bendruomenėje bei olimpiadas analizuojančiuose moksliniuose straipsniuose pasirodė abejonių dėl automatizuoto vertinimo objektyvumo. Pateikiami atvejai, kai neteisingos programos surenka daug taškų, o puikūs sprendimai dėl nedidelės klaidos visiškai negauna balų. Šio tyrimo metu buvo išsamiai išanalizuoti visi vieno 2008 m. LMIO finalinio etapo uždavinio sprendimai (jų buvo 153). Sprendimai buvo suskirstyti į tris kategorijas pagal algoritmus, kuriuos bandė vykdyti šios programos. Tai neteisingi sprendimai (nebaigti sprendimai, atsitiktinės strategijos, euristiniai algoritmai, kiti klaidingi algoritmai), iš dalies teisingi sprendimai (atskirų atvejų analizavimas) bei teisingi algoritmai (išsamios paieškos strategija bei dinaminis programavimas). Be abejo, net ir pasirinkęs teisingą ir efektyvų algoritmą, mokinys galėjo rašomoje programoje padaryti tiek klaidų, kad ir vertintojas žmogus ir vertintoja sistema jam paskirtų labai mažai balų. Tad algoritmo pasirinkimas iš esmės nulemia viršutinę, bet ne apatinę vertinimo ribą.Automatiškai vertinant galimos dviejų tipų problemos. Prastesniam sprendimui gali būti paskiriama daugiau balų nei jam priklausytų. Atlikus testą įprastu būdu (taip realiai buvo vykdomas testavimas olimpiadoje, iš kurios paimtas šis uždavinys) buvo rasti 29 sprendimai (19 proc), kurie surinko daugiau balų nei jiems priklausytų pagal pasirinktą algoritmą. Iš jų net 8 darbai (5,2 proc.) surinko gerokai daugiau papildomų balų ir šių darbų vertinimai jau galėjo iškreipti galutinių rezultatų tikslumą. Tuo tarpu taikant grupinį testavimą tik 6 darbai (3,9 proc.) surinko daugiau balų nei priklausė, tačiau tarp jų vis tiek buvo 3 darbai, kurie surinko gerokai daugiau bei priklausytų balų. Lieka potenciali rizika per daug balų skirti darbams, kuriuose naudojami įvairūs euristiniai algoritmai. Kita galima problema - kai geram sprendimui, kuriame yra labia nedidelė klaida, skiriamas labai mažas balų skaičius. Tyrimo metu rasta 12 tokių sprendimų (7,8 proc). Daugumoje šių darbų atlikta išsamios paieškos strategija (ją renkasi mažiau patyrę dalyviai) ir šių sprendimų autoriai dėl smulkių klaidų neteko palyginti nedaug balų. Tuo tarpu vienas dalyvis, taikęs dinaminį programavimą dėl vieną kartą sukeistų indeksų neteko net 80 proc. balų. Taikant grupinį testavimą rezultatai buvo žemesni (tai lemia pati tokio testavimo idėja), tačiau negalima teigti, kad grupinis testavimas labai padidino galimybę įvykti šiai paklaidai.Išanalizavus visus tyrimo rezultatus galima daryti išvadą, kad naudojant negrupinį testavimą gaunama nemaža paklaida ir derėtų pereiti prie grupinio testavimo. Olimpiadose itin svarbu tiksliai įvertinti darbus siekiant nustatyti nugalėtojus (kurių nėra daug), tad reikia toliau ieškoti būdų kaip išvengti vertinimo klaidų, kurios gali įvykti taikant grupinį testavimą. Galima pačių varžybų metu pateikti daugiau grįžtamojo ryšio (tai sumažintų gerų sprendimų lemtingų klaidų tikimybę), galima j vertinimą įtraukti privalomą sprendimo aprašymą, galbūt persvarstyti automatinio vertinimo schemą. [Iš leidinio]Reikšminiai žodžiai: Algoritmai; Automatinis vertinimas; Informatikos olimpiados; Programavimo varžybos; Algorithms; Automated assessment; Informatics olympiads; Programming competitions.
ENLithuanian Informatics Olympiad (LIO) is a programming (algorithmic) competition for students in secondary education where grading is done automatically following international standards. In order to evaluate credibility of automated assessment 160 programs designed during LIO ' 2008 were additionally assessed by human evaluator. The paper compares the results of human and automated assessment and discusses discrepancies between the two types of assessments. [From the publication]