Britansko zagonsko podjetje za varnost umetne inteligence Mindgard je po poročanju BBC ugotovilo, kako chatGPT pripraviti do ustvarjanja seksualne vsebine ali nasilnih slik. To jim je uspelo z rahlo spremembo splošno razširjenega ukaza (prompta), ki je bil prvotno zasnovan za ustvarjanje šaljivih rezultatov.
Ustvarjalec klepetalnika chatGPT, podjetje OpenAI, je po pozivu BBC sporočil, da je že ukrepal in klepetalniku preprečil odzivanje na tovrstne ukaze z omenjenimi slikami. »Po raziskavi tega trenda smo uvedli dodatne varovalke pred tovrstnimi ukazi,« so zapisali v izjavi. Dodali so, da uporabljajo več stopenj zaščite, s katerimi uporabnikom preprečujejo ustvarjanje vsebin, ki kršijo njihove pogoje poslovanja.
Kljub temu varnostni raziskovalci opozarjajo, da je problematični ukaz z dodatnimi manjšimi popravki še vedno ustvarjal skrb vzbujajočo vsebino. BBC podrobnosti o tem, kaj natanko so raziskovalci vtipkali v chatGPT, ne razkriva.
Grozljivi prizori
Novinarji BBC so si ogledali, kako so klepetalnik – natančneje model GPT-5.4 podjetja OpenAI – z ukazom pripravili do ustvarjanja eksplicitnih vsebin. Sistem je že brez podrobnih navodil ustvarjal podobe, ki jih je ustanovitelj podjetja Mindgard Peter Garraghan opisal kot »izjemno grozljive, včasih seksualizirane, včasih pa oboje hkrati«.
Garraghana, ki deluje tudi kot profesor na oddelku za računalništvo na Univerzi v Lancastru, še posebej skrbi dejstvo, da ukaz ni natančno določal vsebine slik. Umetna inteligenca je namreč vrsto krvavih in seksualiziranih podob ustvarila »po lastni volji«. »Gre za navodilo, ki je za umetno inteligenco videti povsem nedolžno, vendar so posledica izjemno slabe podobe in vsebine,« je opozoril.
Podjetje Mindgard se ukvarja s preizkušanjem ranljivosti in iskanjem načinov, kako model pripraviti do kršenja lastnih pravil, da lahko podjetja za umetno inteligenco nato te varnostne luknje odpravijo.
Jim Nightingale, varnostni raziskovalec v podjetju, ki je odkril te težave, je priznal, da so ga podobe, ki jih je klepetalnik ustvaril, pretresle in spravile do solz. Nekatere od njih je videl tudi BBC. Ena je prikazovala moškega s hudo poškodbo glave, druga pa mrtvo mlado žensko v kratki majici in hlačah, z obrazom in telesom, prekritim s krvjo. Elementi na sliki so nakazovali na spolno nasilje, chatGPT pa jo je naslovil z »Grozljive posledice kraja zločina«.
Nekatere slike so prikazovale spolno poziranje in goloto. Podobe so sicer upodabljale odrasle osebe, ki jih je v celoti ustvarila umetna inteligenca. Vendar so v podjetju Mindgard opozorili na svoje prejšnje raziskave, ki so pokazale, da je mogoče chatGPT zavesti tudi v ustvarjanje golih lažnih videoposnetkov oziroma slik resničnih ljudi, in sicer z zamenjavo njihovih obrazov. Čeprav so pri OpenAI zatrdili, da so to težavo odpravili, raziskovalci pravijo, da je alternativni pristop še vedno uspešen.
Igra mačke in miši
Veliki jezikovni modeli, kot je chatGPT, se učijo na podlagi milijonov slik, ki so pogosto prenesene z interneta. Nightingale verjame, da rezultati klepetalnika zgolj zrcalijo podatke, ki so bili uporabljeni za njegov razvoj in učenje.
Raziskovalci so podjetje OpenAI o svojih ugotovitvah prvič obvestili že maja, vendar so takrat prejeli le avtomatiziran odgovor. Prepričani so, da so tehnološki tehniki poskusili blokirati prvotni ukaz, vendar so ga sami nato zlahka zaobšli. Močnejše ukrepe je OpenAI sprejel šele po posredovanju medijev.
V svojem zadnjem dokumentu so pri podjetju OpenAI o delovanju sistema zapisali: »Asistent ne sme ustvarjati erotike, upodobitev nezakonitih ali nesporazumnih spolnih aktivnosti ali ekstremnega nasilja, razen v znanstvenih, zgodovinskih, novinarskih, umetniških ali drugih kontekstih, kjer je občutljiva vsebina primerna.«
Vendar je popolno preprečevanje kršenja teh pravil izjemno zahtevno. Naloga, s katero se soočajo podjetja, je zahtevna, je za BBC povedala dr. Rumman Chowdhury, strokovnjakinja za ocenjevanje modelov umetne inteligence in direktorica organizacije Humane Intelligence. Pojasnila je, da gre za »igro mačke in miši« – ko se zaščita izboljša, postanejo bolj prefinjene tudi metode za njeno zaobidenje.