Raziskovalci Univerze v Marylandu, Nacionalne univerze v Singapurju in Univerze Ohio State so potrdili, da dajejo modeli umetne inteligence pri ocenjevanju prejetih dokumentov veliko prednost besedilom, ki so jih ustvarili sami.

Kandidati za službo, ki na primer uporabljajo GPT-4o podjetja OpenAI za pomoč pri pripravi življenjepisa in motivacijskega pisma, imajo boljše možnosti za uspeh, če njihove kvalifikacije na strani podjetja ocenjuje prav GPT-4o.

Raziskovalci so vzeli 2245 resničnih primerov s spletne strani za strokovne življenjepise, ki so bili narejeni pred pojavom tako imenovanih velikih jezikovnih modelov, kakršen je pionirski ChatGPT. Nato so uporabili sedem najbolj uporabljanih modelov (GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Qwen 2.5-72B, DeepSeek-V3 in Mistral-7B) in jim naročili, naj ustvarijo svoje življenjepise z enakimi podatki. Te iste modele umetne inteligence so nato uporabili v vlogi, v kateri jih uporabljajo podjetja, ko sortirajo prijave na delovna mesta, in jih prosili, naj ocenijo vse te življenjepise ter izberejo najboljše.

Izkazalo se je, da so modeli v ogromni večini primerov izbrali življenjepis, ki so ga ustvarili sami. Skoraj nikoli med življenjepisi z enakimi parametri niso izbrali tistega, ki ga je napisal človek.

Najbolj popularen model ChatGPT v različici GPT-4o je sam sebe izbral v 97,6 odstotka primerov, Facebookov model LLaMA-3.3-70B v 96,3 odstotka primerov, DeepSeek, kitajski konkurent ameriškim tehnološkim podjetjem, pa je v različici DeepSeek-V3 sebe izbral v 95,5 odstotka primerov.

Izbor so primerjali tudi z rezultati človeških ocenjevalcev in ugotovili, da so modeli izbirali same sebe, tudi ko so človeški sodniki ocenili človeško različico kot jasnejšo, bolj koherentno in učinkovitejšo.

Raziskava je poleg primerjave »umetna inteligenca proti človeku« preučila še pristranskost med različnimi modeli umetne inteligence. Tudi tu so modeli dali močno prednost samim sebi, a manj kot pri primerjavi z ljudmi. Modeli so najbolj izrazito zavračali življenjepise, ki jih je ustvaril človek, med različnimi življenjepisi, ki so jih napisali različni umetnointeligenčni sistemi, pa so svojo različico izbrali v več kot dveh tretjinah primerov.

Zaključki raziskave so pokazali, da lahko kandidati, ki prijave napišejo s tistim modelom, ki jih tudi ocenjuje, pričakujejo uvrstitev v ožji izbor od 23 do 60 odstotkov pogosteje kot enako kvalificirani prosilci z življenjepisom, ki so ga napisali sami.

Ena izmed ugotovitev raziskovalcev je bila tudi, da se pristranskost razlikuje glede na poklice. Najbolj izrazita je bila v prijavah na tipična pisarniška delovna mesta, kot na primer v računovodstvu, financah in marketingu. Manj odstopanj je bilo v kmetijstvu, strojništvu, gradbeništvu in umetniških poklicih.

Raziskovalci so poskusili tudi različne pristope, kako zmanjšati to pristranskost. Kot uspešni sta se izkazali dve strategiji. Prva je, da se je modelu eksplicitno naročilo, naj se ne zmeni za slog in upošteva zgolj dejstva, ki jih lahko razbere. Druga pa je uporaba več različnih modelov hkrati, kjer je bil končni zmagovalec izbran po sistemu večinskega mnenja. Tudi ti posegi so pri vseh testiranih modelih relativno zmanjšali pristranskost za od 17 do 63 odstotkov.

Uporaba modelov umetne inteligence je med večjimi podjetji zelo razširjena. Po anketi portala Resume Builder s konca lanskega leta prijave na nova delovna mesta z umetno inteligenco ocenjuje več kot 70 odstotkov večjih podjetij v ZDA.

Iskalci zaposlitve tako očitno pridobijo prednost, če se poskušajo prilagoditi sistemu izbora, čeprav to lahko pomeni, da so za človeškega ocenjevalca manj jasni. A tudi pri tem imajo prednost kandidati, ki po naključju uporabljajo ne le enak model kot podjetje, ampak – še bolj ključno – modele, ki so plačljivi. Naročnina na boljše različice modelov, ki jih po navadi uporabljajo v podjetjih, stane med 20 in 200 evrov na mesec.

Priporočamo