Študija z naslovom Jeziki v evropski informacijski družbi je bila izvedena v okviru evropske mreže odličnosti Meta-net, ki jo sestavlja 60 raziskovalnih centrov iz 34 držav, med njimi tudi Institut Jožef Stefan (IJS). Projekt sofinancira Evropska komisija.

Več kot 200 strokovnjakov je v študiji, ki je dokumentirana v seriji 30 belih knjig projekta Meta-net, za vsakega od jezikov ocenjevalo podporo jezikovnim tehnologijam na štirih področjih: strojno prevajanje, govorne tehnologije, procesiranje pisnega jezika in dostopnost jezikovnih virov.

Pri ocenjevanju ravni podpore jezikovnim tehnologijam za 30 od približno 80 evropskih jezikov so nato prišli do sklepa, da je ta za 21 od 30 ocenjevanih jezikov "neobstoječa" ali v najboljšem primeru "nizka".

Nobeden od jezikov nima odlične podpore

Nekaj jezikov, npr. islandščina, latvijščina, litvanščina in malteščina, je dobilo najnižjo oceno v vseh kategorijah. Na drugi strani lestvice je bila le angleščina ocenjena kot jezik z "dobro podporo", medtem ko nobeden od jezikov ni dobil ocene "odlična podpora".

Angleščini sledijo nizozemščina, francoščina, nemščina, italijanščina in španščina kot jeziki s "povprečno podporo", jeziki kot baskovščina, bolgarščina, katalonščina, grščina, madžarščina, poljščina in tudi slovenščina pa so bili ocenjeni z "delno" oziroma "fragmentarno podporo", kar jih uvršča v niz ogroženih jezikov.

Kot je na današnji novinarski konferenci v Ljubljani pojasnil raziskovalec na IJS ter sodelavec pri projektu Simon Krek, so za slovenščino ta trenutek najbolj kritične točke razpoznava govora, pomenska interpretacija besedila ter tvorba besedila in slovnice za računalnike.

Da bi dosegli napredek pri reševanju teh kritičnih točk, bi po besedah Kreka morali sprejeti dolgoročne programe razvoja jezikovnih virov in orodij in vzpostaviti mehanizme, ki zagotavljajo, da bodo ti načrti uresničeni.

Siri v slovenščini ali popolnoma digitalizirani NUK?

Med drugim je treba digitalizirati kulturno dediščino Slovenije in vzpostaviti skupno infrastrukturo za hranjenje, vzdrževanje in distribucijo izdelanih virov in orodij. Le tako si bomo v prihodnosti zamislili denimo aplikacijo Siri v slovenščini, popolnoma digitalizirani NUK, celoten šolski sistem v oblaku ali slovenščino v sistemih sprotnega strojnega tolmačenja in podnaslavljanja.

Rezultat jezikovnih tehnologij so sicer računalniške aplikacije, ki znajo procesirati človeški govorjeni ali pisni jezik. Znani zgledi jezikovnotehnoloških računalniških programov so denimo črkovalniki in slovnični pregledovalniki, interaktivni osebni pomočniki na pametnih telefonih (npr. Siri na Applovem Iphonu), strojni prevajalniki, spletni iskalniki ter sintetizatorji govora v avtomobilskih navigacijskih sistemih.

Danes se jezikovnotehnološki sistemi v prvi vrsti opirajo na statistične metode, za katere so potrebne izjemno velike količine pisnega in govorjenega gradiva. Predvsem pri jezikih z relativno majhnim številom govorcev je težko zbrati potrebne količine podatkov.

"Ni razloga za jamranje, vendar pa to ne pomeni, da ni treba nadaljevati z delom"

"Če jezika ne znamo obvladovati na primeren način, praktično ne moremo uporabljati teh tehnologij in posledično zaostajamo," je na današnji novinarski konferenci v Ljubljani pojasnil vodja slovenske ekipe pri projektu Marko Grobelnik. "Slovenija na tem področju kar dobro napreduje, tako da ni razloga za jamranje, vendar pa to ne pomeni, da ni treba nadaljevati z delom," je še dodal.