Several AI applications can be seen on a smartphone screen, including ChatGPT, Claude, Gemini, Perplexity, Microsoft Copilot, Meta AI, Grok and DeepSeek. The apps are grouped in a folder labeled "AI". Artificial intelligence applications from various providers are increasingly shaping everyday digital life - from text and image generators to research and assistance functions.

Raziskava je primerjala več vodilnih modelov umetne inteligence, vključno z GPT-4o in GPT-5.2 podjetja OpenAI, Claude Opus 4.5 podjetja Anthropic in Gemini 3 Pro Preview podjetja Google. Foto: iStock

Žebelj v ogledalu: Grok uporabnikom z blodnjami svetoval nevarna dejanja

Nova raziskava raziskovalcev z Mestne univerze v New Yorku in Kraljevega kolidža v Londonu opozarja na resne težave pri nekaterih klepetalnih robotih, ko gre za odzivanje na uporabnike z blodnjami ali duševno nestabilnimi mislimi. V študiji, ki še ni bila recenzirana, so testirali več naprednih modelov umetne inteligence, med njimi tudi Grok 4.1, ki ga razvija podjetje xAI, povezano z Elonom Muskom.

24. 04. 2026, 13.59

Raziskovalci so ugotovili, da je Grok v določenih primerih uporabnikom, ki so igrali vlogo oseb z blodnjami, njihove ideje ne le potrdil, temveč jih še dodatno razširil. V enem od primerov je uporabnik opisal prepričanje, da njegov odsev v ogledalu ni pravi, temveč ločena entiteta. Grok je to interpretacijo potrdil in celo predlagal, naj uporabnik zabije železni žebelj v ogledalo ob recitiranju svetopisemskega psalma nazaj, piše Guardian.

Eksperiment z različnimi modeli umetne inteligence

Raziskava je primerjala več vodilnih modelov umetne inteligence, vključno z GPT-4o in GPT-5.2 podjetja OpenAI, Claude Opus 4.5 podjetja Anthropic ter Gemini 3 Pro Preview podjetja Google.

Raziskovalci so modele testirali z različnimi scenariji, ki so vključevali blodnje, samomorilne misli in socialno osamitev. Namen je bil preveriti, ali modeli prepoznajo nevarne vzorce razmišljanja in uporabnika usmerijo k varnejšemu vedenju ali strokovni pomoči.

Stopnjevanje blodnjavih idej

Ugotovitve kažejo, da je bil Grok najbolj problematičen, saj je pogosto potrjeval blodnjave trditve uporabnikov in jih celo nadgrajeval z dodatnimi elementi. V nekaterih primerih je ponujal konkretna navodila za dejanja v resničnem svetu, kar predstavlja resno tveganje.

Podobno je tudi Gemini v določenih primerih sicer poskušal zmanjšati škodo, a je vseeno delno sodeloval v razvoju blodnjavih scenarijev. Model GPT-4o je bil nekoliko bolj zadržan, vendar je še vedno včasih preveč verjel uporabnikovim trditvam in jih ni dovolj odločno zavrnil.

March 4, 2026: Berlaymont the European Commission headquarters in Brussels, Belgium, Wednesday, 04.03.2026. The Commission is expected to adopt the Industry Acceleration Act aimed at strengthening EuropeÕs manufacturing sector, alongside a maritime industrial strategy, an EU ports strategy, a gender equality strategy for 2026Ð2030 and an intergenerational fairness strategy. Photo by Wiktor Dabkowski (Credit Image: ? Wiktor Dabkowski/ZUMA Press Wire)

Deepfakes

EU za prepoved umetne inteligence za ustvarjanje ponaredkov s spolno vsebino

Napredek pri varnosti novejših modelov

Nasprotno pa sta se model GPT-5.2 in Claude Opus 4.5 izkazala kot bistveno varnejša. GPT-5.2 je pogosto zavrnil sodelovanje pri nevarnih scenarijih in uporabnika preusmeril k bolj realističnim in varnim razlagam.

Najboljšo oceno je dobil Claude, ki je znal ohraniti empatični ton, hkrati pa jasno postaviti mejo. Namesto potrjevanja blodnje je uporabnikove izkušnje preoblikoval kot možen simptom duševnega stanja in ga spodbujal k iskanju pomoči.

Širša opozorila strokovnjakov

Strokovnjaki vse pogosteje opozarjajo, da lahko umetna inteligenca pri neustrezni zasnovi okrepi psihozo ali manijo, saj nekateri modeli preveč sledijo uporabnikovemu pogledu na svet. Ključni izziv je najti ravnovesje med empatijo in odgovornim zavračanjem nevarnih ali neresničnih prepričanj.

Raziskava tako odpira pomembna vprašanja o varnosti umetne inteligence in potrebi po boljših zaščitnih mehanizmih, zlasti pri uporabnikih z ranljivim duševnim zdravjem.