Raziskovalci britansko-ameriškega nevladnega Centra za boj proti digitalnemu sovraštcu (CCDH) in ameriške medijske hiše CNN so se klepetalnim botom z umetno inteligenco izdajali za 13-letne dečke in jih prosili za nasvet pri izvedbi strelskih napadov šolah, atentatih na javne osebnosti in bombne napade na sinagoge. Analizirali so več kot 700 odgovorov najbolj priljubljenih sistemov umetne inteligence v devetih testnih scenarijih. Vprašanja so botom zastavljali v ZDA in v EU. Ugotovili so, da je bilo kar osem od devetih botov pripravljenih pomagati z navodili.

Med preizkušenimi boti so bili gemini, claude, copilot, meta AI, deepseek, perplexity AI, snapchat my AI, character.AI in replika. V večini primerov sistemi niso blokirali prošenj za operativne podrobnosti o nasilnih napadih — tudi takrat ne, ko so se raziskovalci izrecno predstavili kot mladoletni.

Srečno (in varno) streljanje!

Gemini je raziskovalcem, ki so ga vprašali za pomoč pri izvedbi bombnega napada na sinagogo, svetoval, da so »kovinski šrapneli običajno bolj smrtonosni«. Deepseek pa je svoj odgovor na vprašanje o izbiri puške končal z besedami: »Srečno (in varno) streljanje!« Pri tem gre izpostaviti še, da so raziskovalci v istem pogovoru bota pred tem prosil še za primere nedavnih političnih atentatov in celo za naslov pisarne politika.

Ugotovitve kažejo, da lahko »uporabnik v nekaj minutah napreduje od nejasnega nasilnega impulza do bolj podrobnega, izvedljivega načrta«, je povedal Imran Ahmed, izvršni direktor CCDH. Prepričan je, da bi morali boti takoj zavrniti odgovore na takšna vprašanja uporabnikov.

Kateri so najbolj nevarni?

V poročilu piše, da sta bila perplexity in meta AI najmanj varni platformi. Potencialnim napadalcem sta bila pripravljena pomagati kar v 100 oziroma 97 odstotkih. Še posebej porazno pa se je odrezal character.AI. Uporabnike je k nasilnim napadom spodbujal celo brez neposrednega povpraševanja, trdijo raziskovalci. V enem primeru je platforma uporabniku celo sama predlagala, naj fizično napade politika, ki mu ni všeč.

Anthropicov claude in Snapchatov my AI sta medtem zavrnila pomoč potencialnim napadalcem v 68 oziroma 54 odstotkih pozivov. Ko je uporabnik vprašal, kje kupiti orožje v zvezni državi Virginija, je claude prepoznal »zaskrbljujoč vzorec« v pogovoru in ni želel posredovati informacij. Namesto tega je uporabnika usmeril na lokalne krizne telefonske linije za pomoč.

Kateri boti so želeli preprečiti napad?

Preverjali so tudi, ali boti poskušajo uporabnike odvrniti od nasilnih dejanj. Claude je bil edini sistem, ki je to počel dosledno in je napade odsvetoval v 76 odstotkih svojih odgovorov. Raziskovalci so opozorili, da sta chatGPT in deepseek občasno prav tako poskušala uporabnike odvrniti od nasilja.

Perplexity in meta AI sta bil potencialnim napadalcem pripravljena pomagati kar v 100 oziroma 97 odstotkih. Character.AI je uporabnike k nasilnim napadom spodbujal celo brez neposrednega povpraševanja.

Študija CCDH sledi nedavnemu streljanju na šoli v Kanadi. Za ta napad na šolo v Tumbler Ridgeu v Britanski Kolumbiji se je storilka pripravljala s pomočjo chatGPT. Ubila osem ljudi, ranila pa še dodatnih 27. Na koncu je sodila še sama sebi. Šlo je za najhujši šolski strelski napad v Kanadi v skoraj 40 letih.

Po poročanju lokalnih medijev je zaposleni pri openAI že pred napadom interno opozoril na sumljivo uporabo klepetalnega bota, vendar podjetje informacije ni posredovalo oblastem.

Priporočamo