Keelekonverents paneb masintõlke proovile Vikipeedia häkatonil

19.–20. aprillil 2017 toimub Tallinnas konverents „Eesti keeletehnoloogia 2017“. Konverentsi eelpäev, 18. aprill on aga huvitavate töötubade päralt. Üks neist on masintõlkimise häkaton, kus proovitakse järele, kuidas saavad masinad Vikipeedia arendamisele kaasa aidata.

Emakeelepäeval käivitunud Miljon+ projektiga soovitakse eestikeelse Vikipeedia tekstimahtu suurendada miljoni artiklini. „Kuidas saavad eesmärgile kaasa aidata tõlkemasinad, et seejuures keeleline ja sisuline kvaliteet säiliks? Just sellele küsimusele häkatonil lahendusi otsitaksegi,“ rääkis konverentsi üks korraldajatest Kadri Vare.

Häkatonil kasutatakse uusimaid närvivõrkudel põhinevaid masintõlkemudeleid, mis pakuvad ladusat eestikeelset tõlget just järeltoimetamise otstarbeks. Osalevad nii tõlkijad, kes annavad hinnanguid erinevatele tõlkimismeetoditele kui ka toimetajad, kes pimesi hindavad järeltoimetatud masintõlget ning inimtõlget.

Üheks masintõlkevahendiks, mida kasutatakse, on TÜ arvutiteaduse instituudi masintõlkeprojekt KaMa (Kasutatav Eesti Masintõlge), mida arendab TÜ keeletehnoloogia õppetooli juhataja Mark Fišel. Proovile pannakse ka eraturul masintõlget pakkuv Tilde Eesti OÜ tõlkeprogramm.

Samuti toimub Pythoni tarkvarateegi töötuba. Python pakub eestikeelsete tekstide töötlemiseks mitmeid funktsionaalsusi. Töötoa korraldab ka Eesti esimene keeletehnoloogia idufirma TEXTA, mis on töövahendite raamistik vabatekstiliste (suur)andmetega tutvumiseks ja nende analüüsimiseks. Töötoa raames kasutatakse seda ühe Eesti ministeeriumi dokumendiregistri uurimiseks. „Näiteks, kes ja millistel teemadel kirjutab ministeeriumisse kõige rohkem kirju, mil määral ja milliseid isikuandmeid leidub avaldatud dokumentides või milliseid tüüpvastuseid ametlikus kirjavahetuses kasutatakse,“ rääkis Vare.

19. aprillil on kavas ka lõppeva riikliku Eesti keeletehnoloogia programmi ülevaade ning uue programmi tutvustus. Samuti saab tutvuda keeletehnoloogilise tarkvara ja rakendustega. 20. aprillil on keeleressurssidega tegelevate projektide päev Eesti Keele Instituudis, mis toimub rööpselt traditsioonilise rakenduslingvistika kevadkonverentsiga.

Oodatud on kõik huvilised! Konverents ja õpipajad on tasuta, vajalik on registreerumine aadressil www.keeletehnoloogia.ee.

Lisainfo:

Sirli Zupping, Miljon+ projektijuht, sirli.zupping@ut.ee
Kadri Vare, Eesti Keeleressursside Keskuse programmi koordineerija, kadri.vare@ut.ee
 

Viivika Eljand-Kärp
Tartu Ülikooli pressinõunik
Tel: +(372) 737 5683
Mob: +(372) 5354 0689