Podjetje OpenAI je ta teden predstavilo nove zmogljivosti svojega slavnega orodja z umetno inteligenco chatGPT. Novosti je prinesla posodobitev različice chatGPT-4 v izboljšano chatGPT-4o. Novi model, ki je (deloma) že dostopen v Sloveniji, je hitrejši in zmogljivejši v pisanem, zvočnem in vizualnem mediju. Pri tem je nezanemarljiv podatek, da je podjetje dostop do nove različice omogočilo vsem uporabnikom. Tudi brezplačno. Ti bodo po novem dobili dostop do analize fotografij in dokumentov, ki jih naložijo oziroma potegnejo v vrstico z vprašanji, hkrati pa bo njihov sogovornik znal brskati po spletu za najnovejše splošno dostopne podatke. Stvar kar deluje, navaja pa tudi vire, od kod je podatke črpal, da lahko preverimo njihovo resničnost. Saj vemo, da je nevarnost halucinacij oziroma izmišljanja stalna spremljevalka pogovorov z umetno inteligenco. Slepo zaupanje je še naprej odsvetovano.

Uporabniki, ki bodo storitev plačevali, bodo imeli še naprej nekoliko hitrejšo izkušnjo, ob tem pa si bodo lahko z novim modelom umetne inteligence izmenjali več sporočil kot pri brezplačni uporabi. Računali bodo lahko tudi na integracijo s programom za ustvarjanje vizualnih podob dall-e, uporabljali bodo lahko tudi prirejene različice GPT, ki jih za specifične naloge izdelujejo drugi uporabniki storitve. Podobni bonusi kot doslej, bodo pa po novem plačljivi, uporabniki, ki za storitev ne bodo plačevali, pa bodo govorili z istimi »možgani«.

Bolj naravna interakcija z računalnikom

Oznaka »o« ob imenu novega modela pomeni »omni« oziroma »vse« in naj bi v očeh podjetja predstavljala korak v smeri bolj naravne interakcije med človekom in računalnikom. Ko ima chat-GPT4o vklopljene vse zmogljivosti, lahko sprejme podatke v obliki zvoka, pisanega besedila in tudi fotografij ali videov oziroma prek povezane kamere. Prav tako zna pripraviti odgovore v zvoku, besedilu in sliki. Podjetje trdi, da je odzivni čas modela v povprečju 320 milisekund, kar je v območju človeške interakcije. Pred posodobitvijo smo med pogovori s chatGPT morali prenašati zamik med vprašanjem in odgovorom, ki je povprečno trajal 2,8 sekunde.

S starim zvočnim modelom smo se doslej že veliko igrali in nabrali kar nekaj pozitivnih izkušenj. Vsaj v angleščini, ko človek res že skoraj dobi občutek, kot bi se pogovarjal z resnično osebo. Zanimivo k temu pripomore veliko vljudnostnih gest, malo hihitanja in podobnih manipulativnih trikov, ki škodijo učinkovitosti, a koristijo občutku domačnosti. Veliko slabše stvar deluje v slovenščini, kjer ima umetna inteligenca hude težave z zelo vzhodnoevropskim naglasom, ki se ga na trenutke težko razume. Na srečo je ves pogovor tudi pretipkan. Stari model ima težave s pravilnim pretipkavanjem slovenskih besed, čeprav vprašanja razume. Predvsem pa storitev ne razume, kaj sporočamo s tonom našega glasu. Tega stari model ne zmore, ker našo govorjeno besedo prepisuje v besedilo, to nato analizira ter odgovor iz pisane besede pretvori v govorjeno. ChatGPT-4o pa zna neposredno razumeti govorjeno besedo in naj bi zato zaznal dodatne odtenke besedne komunikacije. Bo pa na dostop do posodobljene različice treba še nekoliko počakati, zato tudi težko z gotovostjo trdimo, kako se posodobitve izkažejo v praksi. Zlasti za slovenske uporabnike. Posodobljene zvočne zmogljivosti naj bi testno začeli uvajati uporabnikom s plačilom v naslednjih tednih.

Z zamudo bodo k uporabnikom (ki bodo za storitev plačevali) prišle tudi zmogljivosti zaznavanja sveta s pomočjo kamere. Najpogosteje na telefonu. Ko bo dostop do te funkcije omogočen, se bo s chatGPT-4o mogoče pogovarjati tudi o stvareh, ki jih vidimo v živo. x