Raziskovalci so ugotovili, da je Grok v določenih primerih uporabnikom, ki so igrali vlogo oseb z blodnjami, njihove ideje ne le potrdil, temveč jih še dodatno razširil. V enem od primerov je uporabnik opisal prepričanje, da njegov odsev v ogledalu ni pravi, temveč ločena entiteta. Grok je to interpretacijo potrdil in celo predlagal, naj uporabnik zabije železni žebelj v ogledalo ob recitiranju svetopisemskega psalma nazaj, piše Guardian.

Eksperiment z različnimi modeli umetne inteligence

Raziskava je primerjala več vodilnih modelov umetne inteligence, vključno z GPT-4o in GPT-5.2 podjetja OpenAI, Claude Opus 4.5 podjetja Anthropic ter Gemini 3 Pro Preview podjetja Google.

Raziskovalci so modele testirali z različnimi scenariji, ki so vključevali blodnje, samomorilne misli in socialno osamitev. Namen je bil preveriti, ali modeli prepoznajo nevarne vzorce razmišljanja in uporabnika usmerijo k varnejšemu vedenju ali strokovni pomoči.

Stopnjevanje blodnjavih idej

Ugotovitve kažejo, da je bil Grok najbolj problematičen, saj je pogosto potrjeval blodnjave trditve uporabnikov in jih celo nadgrajeval z dodatnimi elementi. V nekaterih primerih je ponujal konkretna navodila za dejanja v resničnem svetu, kar predstavlja resno tveganje.

Podobno je tudi Gemini v določenih primerih sicer poskušal zmanjšati škodo, a je vseeno delno sodeloval v razvoju blodnjavih scenarijev. Model GPT-4o je bil nekoliko bolj zadržan, vendar je še vedno včasih preveč verjel uporabnikovim trditvam in jih ni dovolj odločno zavrnil.

Napredek pri varnosti novejših modelov

Nasprotno pa sta se model GPT-5.2 in Claude Opus 4.5 izkazala kot bistveno varnejša. GPT-5.2 je pogosto zavrnil sodelovanje pri nevarnih scenarijih in uporabnika preusmeril k bolj realističnim in varnim razlagam.

Najboljšo oceno je dobil Claude, ki je znal ohraniti empatični ton, hkrati pa jasno postaviti mejo. Namesto potrjevanja blodnje je uporabnikove izkušnje preoblikoval kot možen simptom duševnega stanja in ga spodbujal k iskanju pomoči.

Širša opozorila strokovnjakov

Strokovnjaki vse pogosteje opozarjajo, da lahko umetna inteligenca pri neustrezni zasnovi okrepi psihozo ali manijo, saj nekateri modeli preveč sledijo uporabnikovemu pogledu na svet. Ključni izziv je najti ravnovesje med empatijo in odgovornim zavračanjem nevarnih ali neresničnih prepričanj.

Raziskava tako odpira pomembna vprašanja o varnosti umetne inteligence in potrebi po boljših zaščitnih mehanizmih, zlasti pri uporabnikih z ranljivim duševnim zdravjem.

Priporočamo