Vse več ljudi podjetju OpenAI očita, da njihova umetna inteligenca chatGPT postaja vse bolj neumna. Gre za trend, ki smo ga v preteklosti opazili tudi pri drugih pogovornih botih, ki so znanje črpali iz vsebin, ki jih človeštvo objavlja na svetovnem spletu. Najbolj slaven primerek takšnega nazadovanja v razvoju se je zgodil Microsoftu leta 2016, ko so na twitterju svojemu botu Tayju ustvarili račun @TayandYou. Bot je imel izhodiščno osebnost mladega dekleta in je bil programiran za objavljanje tvitov oziroma odzivanje na objave na tem družbenem omrežju. Bot se je hkrati učil iz interakcij. Nekomu se je to zdela dobra ideja, da to ni bila, pa se je pokazalo že v manj kot 24 urah od odprtja računa. Bot se je namreč nalezel govorice tviteraške trolovske greznice in začel slaviti Hitlerja, objavljati antisemitska sporočila ter serijo drugih obscenosti. Microsoft je eksperiment prekinil in bota odklopil s spleta.

ChatGPT še ni zabredel tako globoko kot Tay, a govorice o slabših rezultatih, zlasti domnevno naprednejše različice chatGPT 4, se širijo. Tudi sami smo nedavno opazili, da si je umetna inteligenca izmišljevala vsebino besedila, ki smo ji ga dali v pregled, medtem ko smo v preteklosti opazili zgolj izmišljevanje podatkov, do katerih sicer ni imela dostopa. Da vse skupaj niso zgolj govorice, pritrjujejo raziskovalci ameriških univerz Stanford in Berkeley. Ekipa je primerjala marčevski in junijski različici chatGPT 3.5 in chatGPT 4. Preverjali so, kako uspešna je bila posamezna različica pri reševanju matematičnih problemov, odgovarjanju na občutljiva vprašanja, ustvarjanju računalniške kode in vizualnem razumevanju.

ChatGPT 4 je začel špricati matematiko

Ugotovili so, da sta se GPT 3.5 in GPT 4 zelo razlikovala skozi čas. Marčevski GPT 4 je zelo dobro prepoznaval praštevila (s 97,6-odstotno natančnostjo), medtem ko je junijski GPT 4 povsem padel na tem testu ter pravilno odgovoril le v 2,4 odstotka primerov. Po drugi strani se je GPT 3.5 do junija močno izboljšal v tej nalogi. GPT 4 je bil junija manj pripravljen odgovarjati na občutljiva vprašanja, odgovori pa so bili zelo skopi. Običajno sta rekla zgolj, da ne moreta odgovoriti. Hkrati pa sta oba domnevno delala tudi več »napak« pri pisanju kode. A gre izpostaviti, da so kot napake šteli tudi dodatno besedilo, ki je sporočalo, v katerem programskem jeziku je koda napisana ter druge nasvete, medtem ko so oni želeli zgolj kodo, ki jo lahko prekopiraš brez dodatne pozornosti ali poznavanja, kako mora biti videti.

Raziskovalci so svoja dognanja sklenili z opozorilom, da se delovanje umetne inteligence, kot je chatGPT, skozi čas spreminja, in izpostavili skrivnostnost OpenAI glede tega, kaj pravzaprav spreminjajo. Do sprememb v delovanju sicer lahko prihaja z vnosom novih vsebin, iz katerih se umetna inteligenca uči, spremembami pri naravnavanju ocenjevanja primernosti oziroma relevantnosti ustvarjenih odgovorov ter blokadami občutljivih vprašanj oziroma odgovorov, da se ne bi ponovil primer bota Tay. Strokovnjaki so sicer raziskavo vzeli s ščepcem soli in opozorili na morebitne metodološke težave. Zlasti to velja pri oceni napredka pri programiranju. Ob dejstvu, da se chatGPT s časom dejansko spreminja, krivdo za domnevno slabše delovanje pripisujejo bolj razširjeni uporabi. S tem ko ljudje umetno inteligenco vse bolj uporabljajo za resna opravila namesto za zabavo, vse bolj opažajo tudi pomanjkljivosti, ki jih pred tem niso opazili.