Roberto Navigli: Računalnik učimo brati časopisne članke

To želi doseči s pomočjo BabelNeta – povezovanja široke mreže spletnih slovarjev, ki jih uporabljamo v vsakodnevnem življenju. Wikipedia in WordNet sta le dva med njimi. BabelNet je dobil ime po babilonskem stolpu, simbolu jezikovne pestrosti in pestrosti znanja. Gre za znanstveni projekt, ki neodvisno od interesov moči »konkurira« prizadevanjem velikih podjetij, kot so Google, Facebook ali Amazon, da bi iz naše zasebnosti zajela znanje, ki ga premoremo skupaj, in nam ga – vsakemu posebej – prodala nazaj.

Roberto Navigli je bil nedavno v Ljubljani gost velikega evropskega jezikoslovnega in slovaropisnega projekta ELEXIS, katerega nosilec je Inštitut Jožefa Stefana.

Vaš projekt, BabelNet, je slovar vseh slovarjev, drži?

Še več – BabelNet združuje slovarje, enciklopedije, slikovne zbirke, množico virov znanja, ki so bili večino dvajsetega stoletja dosegljivi le na papirju, zdaj pa so dostopni na spletu. To, da so dostopni, pa še ne pomeni, da lahko do vseh teh informacij tudi sami pridemo, saj jih je preveč. Ne morete vzeti stotin slovarjev in enciklopedij, da bi dobili enoten opis nekega pojma. Računalniški program pa zmore v kratkem času pregledati ogromno gradiva.

Zakaj to potrebujemo?

Moj namen, ker sem računalniški znanstvenik, je izdelati umetno inteligenco. Specifično – računalnike bi radi naučili, da bi razumeli besedila. To je zelo težko.

Na zadevo torej gledate z druge strani – pripravljate slovar, vendar je to osnova za ustvarjanje umetne inteligence?

Delam na področju računalniškega jezikoslovja, procesiranja naravnih jezikov… Moj namen je »vstavljanje« inteligentnosti v računalnike. Velikokrat se nam namreč zgodi, da kakšno besedilo prevajamo z računalniško podprtim prevajalnikom (na primer google translate, op. p.), a prevod ni razumljiv. Napake niso le slovnične, ampak tudi semantične – pomen se izgubi. To se zgodi, ker računalnik proizvaja zgolj simbole, ki pa med seboj niso ustrezno povezani. Namen BabelNeta pa je ustvarjanje podlag za razumevanje besedila, ne glede na to, za katero besedilo gre (torej tudi povsem neznanega besedila, s katerim se računalnik srečuje prvič, op. p.). Računalnik naj bi na primer razumel časopisne članke.

Za uporabnika pa to pomeni, da potrebuje le en slovar, ki združuje vse druge slovarje in enciklopedije, poleg tega pa napotuje na primarne in na nadaljnje vire. Torej, namesto da uporabnik najprej išče v googlu, potem v wikipedii, potem v wiktionaryju itd., je že vse združeno. BabelNet je kot nekakšen seznam virov, indeks. Združuje informacije, hkrati pa napotuje bralca naprej. Obenem je BabelNet jezikovni slovar – prevaja iz katerega koli jezika v kateri koli jezik (zajema dvesto enainsedemdeset jezikov, op. p.).

Je to vendarle nekaj podobnega kot to, kar nam že ponuja Google?

Googlov iskalnik nam res na desni strani ekrana, ob zadetkih iskanega pojma, ponuja tudi okence, v katerem sam razlaga iskani pojem. Vendar je edini način, kako vnesti znanje v te okvirčke, za zdaj »crowdsourcing« – zbiranje znanja posameznikov, ki se prostovoljno in brezplačno vključujejo v ustvarjanje. Podobno deluje tudi wikipedia. Če bi vse to delali plačani strokovnjaki, bi bil finančni zalogaj prevelik.

Poleg tega obstoječi viri znanja iskanje prepuščajo uporabniku, BabelNet pa kaže pot do znanja. Če na primer v BabelNet vtipkam besedo »mleko«, ne dobim le odgovorov v zvezi s tekočino, ki jo proizvaja krava, ampak tudi še druge asociacije in povezave, ki jih sproža beseda »mleko«. Enako se dogaja v naših možganih. Lahko namreč pomislim tudi na znani film z naslovom Milk (Mleko). Seveda pa je v BabelNetu kot najbolj relevanten prikazan osnovni pomen te besede.

Kako dosežete, da nam računalnik vendarle približa relevantne pomene, ne pa oddaljenih pomenov, ki bi lahko uporabnike tudi zmedli?

Opazujemo obnašanje uporabnikov – kolikokrat so kliknili in koliko časa so se zadržali pri relevantnih pomenih, koliko pa so se posvetili manj relevantnim.

Torej vendarle tudi vi uporabljate množične človeške vire?

To je res. Vendar se pri wikipedii na primer urednik odloči, na katere pojme bodo vodile nadaljnje spletne povezave. Pri BabelNetu pa se o tem odloča računalnik, na podlagi obnašanja uporabnikov.

Vaše delo financira Evropska unija. Kako ji takšen večjezični slovar koristi?

Vsi vemo, da sta v Evropski uniji med največjimi ovirami raznolikost jezikov in neenakomerno razširjeno znanje. Zatakne se že pri prevajanju v okviru institucij EU. Unija za prevajanje na vseh sestankih, srečanjih, zasedanjih porabi milijone in milijone evrov. Zlasti je problem prevajanje specifičnih tem, ki jih redkokdo obvlada. EU regulira različna področja, pri čemer je poleg znanja jezika treba poznati tudi tehnične oziroma strokovne izraze in razumeti ozadja. Z računalniško tehnologijo bi lahko prevajalcem pomagali, da bi se hitreje pripravili na takšne prevajalske podvige, pomoč pa bi jim lahko ponudili tudi sproti, ko prevajanje že poteka.

Kako zagotovite, da je vaš računalniški algoritem, ki izbira, katero znanje posredovati in kako ga posredovati, dovolj širok, da dostopa do znanja ne omejuje? Nam denimo Googlov iskalnik ponuja vse, kar bi morali vedeti, ali samo tisto, za kar Google misli, da bi morali vedeti?

To vprašanje je seveda pomembno. Vedno se je treba na neki način odločiti, katere rezultate bomo prikazali, saj vseh ni mogoče prikazati naenkrat, ker je informacij na spletu preveč.

Kako se računalnik lahko izogne prikazovanju »lažnih novic« ali sovražnemu govoru?

To je faza v raziskovanju umetne inteligence, v katero trenutno vstopamo. Vzpostavljamo razumevanje besedila, ki je neodvisno od jezika. Kako nameravamo to storiti? Ko preberem določen stavek, denimo v angleščini, ki ni moj materni jezik, si v glavi ustvarim predstavo o tem, kaj sem pravkar prebral. Ta predstava nima ne slovnične ne semantične strukture. Ni jezikovna. Nato pa to pretvorim nazaj v jezik – izberem besede in povezave med besedami, s katerimi to, kar sem prebral, nekomu povem ali napišem.

Ukvarjamo se z vprašanjem, kako računalnik s semantične, pomenske ravni premakniti na pragmatično raven razumevanja besedila. Semantika povezuje zgolj besedo s konceptom, ki je za njo. Za pravilno interpretiranje pa moramo vedeti, kako beseda učinkuje.

Na primer, nekdo bo trdil, da ima vaša država naraščajoč primanjkljaj, ki trenutno znaša pet odstotkov. Nekdo drug pa trdi, da to sploh ni res. Da bi računalnik prepoznal resnico ali neresnico, ni dovolj, da razume, kaj je kdo izrekel. Pred tem mora prebrati vrsto časopisnih člankov, v katerih je opisano finančno stanje Slovenije. Ta proces imenujemo strojno branje. Računalniki morajo prebrati velike količine besedil in iz njih potegniti ključne informacije.

Trenutno takšnim sposobnostim še nismo blizu. Z računalnikom lahko prepoznamo zgolj potencialne dvoumne informacije, ki pa jih morajo potem še vedno pregledati ljudje.

Kaj nam bo na tem področju prinesla prihodnost?

Hočete vprašati, kaj bi rad, da bi se zgodilo, ali kaj se bo zgodilo?

Oboje.

Verjetno bo v prihodnosti mišljenje veliko bolj omejeno, kot je danes. Vsakdo se bo ukvarjal z nečim zelo specifičnim, splošno znanje pa bo izginilo. Smer, v katero gremo, me na žalost spominja na neprijetne znanstvenofantastične romane. Velika podjetja zbirajo pomembne podatke o nas, mi pa jim jih prostovoljno prepuščamo – v zameno za domnevno brezplačno uporabo njihovih programov. Raziskave pa kažejo, da uporaba spletnih aplikacij že povzroča, da so ljudje vse manj pozorni na to, kar spremljajo, in da vse slabše razumejo. Spreminja se tudi avtoriteta – nekoč so to bili strokovnjaki in denimo pomembni novinarji, danes pa so avtoritete naši »prijatelji« na facebooku. Tam se odloča, kaj je za nas relevantno in kaj ne. Naš svet se na ravni informacij v resnici krči, postaja zelo lokaliziran.

Radi pa bi…?

Rad pa bi, da bi se zgodilo nasprotno – da bi prevladali znanstveni projekti, ki bi ljudem zagotovili neodvisnost od vira informacij. Da bi lahko ljudje brali v jeziku, ki ga razumejo, ne glede na to, v katerem jeziku je nastala izvorna informacija.

Ta hip bi bilo za vse pomembno, da bi lahko brali, kaj trenutno pišejo v Severni Koreji?

Natanko tako. Tega žal ne vemo, pa bi bilo zelo dobro, če bi lahko vedeli. Da bi bolje razumeli dogajanje. Zato potrebujemo znanstvene jezikovne projekte, ki so neodvisni od kakršnih koli interesov.

Roberto Navigli: Računalnik učimo brati časopisne članke

Geslo mora vsebovati:

Mala črka

Velika črka

Številka

Poseben znak

Vsaj osem znakov

Gesli se morata ujemati