Glede na notranjo preiskavo podjetja OpenAI sta njihova najnovejša modela  (GPT o3 in o4-mini) vse prej kot nezmotljiva. Kljub napredni logiki, s katero naj bi premikali meje razumevanja, pogosto ustvarjajo tako imenovane halucinacije, torej izmišljene informacije in napačne trditve. 

Bolj ko razmišlja, bolj se moti

V nasprotju s starejšimi generacijami, ki so se osredotočale na tekoče generiranje besedila, sta GPT o3 in o4-mini zasnovana tako, da »razmišljata po korakih« – podobno kot človek. OpenAI je celo trdil, da model o3 dosega ali presega rezultate znanstvenikov, a realnost kaže drugačno sliko.

Spletna analiza podjetja je pokazala, da je GPT o3 na testih iz poznavanja javnih osebnosti haluciniral v kar 33 odstotkih primerov – dvakrat več kot prejšnji model o1. Kompaktnejši o4-mini pa je dosegel še slabši rezultat, napačne podatke je podal v kar 48 odstotkih. Pri testu splošnih vprašanj se je odstotek halucinacij pri o3 povzpel na 51 odstotkov, pri o4-mini pa na kar 79 odstotkov. Strokovnjaki opozarjajo, da gre za sistemsko težavo, ne za naključno napako. 

Več razmišljanja, več prostora za napake

V AI-skupnosti razlagajo, da se kompleksnejši modeli bolj motijo zato, ker »preveč razmišljajo«. Medtem ko se starejši modeli držijo preverjenih podatkov, novejši sestavljajo informacije iz več virov, pri tem pa pogosto improvizirajo oziroma halucinirajo. V Open AI poudarjajo, da povečano število halucinacij ne pomeni nujno, da so modeli pomanjkljivi, ampak da enostavno podajajo bolj obširne in »kreativne« odgovore. 

Pomočnik ali težava?

Napaka umetne inteligence lahko hitro postane resen problem, zlasti ker se čedalje pogosteje uporablja v šolah, bolnišnicah, pisarnah in celo vladnih službah. Napredni modeli znajo napisati prošnje za zaposlitev, analizirati proračunske tabele ali pojasniti pravne zaplete, prav zato imajo vedno manj prostora za napake.

Če mora uporabnik vsako trditev preverjati, potem sistem ne prihrani časa, temveč ga jemlje. In čeprav so modeli, kot je GPT o3, izjemni pri programiranju in logiki, lahko ena sama neumnost, kot je trditev, da je Abraham Lincoln vodil podkast ali da voda zavre pri 27 stopinjah Celzija, popolnoma poruši zaupanje v sistem.

Priporočamo