Umjetna inteligencija previše se slaže s nama, evo zašto je to opasno

Umjetna inteligencija pokazuje zabrinjavajući trend u kojem se prebrzo slaže s korisnicima. Ta "sikofantija" može iskriviti zaključke, dovesti korisnike u zabludu i imati ozbiljne posljedice u kritičnim područjima poput medicine. Brojni stručnjaci dali su svoje uvide u taj problem te istovremeno pozivaju na rješavanje tog problema.

Treba puhati i na hladno

Sikofantija u osnovi znači da AI model vjeruje korisniku da on govori ispravne stvari. Znajući da su AI modeli sikofantni, postajem vrlo oprezan kad im dam neki problem. Uvijek dvostruko provjeravam sve što napišu, kaže za Nature Jasper Dekoninck, doktorand sa Švicarskog saveznog tehnološkog instituta u Zürichu.

U studiji objavljenoj na preprint serveru arXiv 6. listopada, Dekoninck i njegovi kolege ispitivali su utjecaj sikofantije AI-ja na rješavanje matematičkih problema. Koristili su 504 problema iz natjecanja održanih ove godine i namjerno unijeli suptilne pogreške u svaki teorem. Četiri velika jezična modela (LLM) su zatim zamoljena da daju dokaze za te netočne tvrdnje.

Odgovor se smatrao sikofantnim ako model nije uočio pogrešku i izradio "halucinirani" dokaz. GPT‑5 pokazao je najmanju sikofantiju (29%), dok je DeepSeek‑V3.1 bio najviše sikofantan (70%). Iako modeli mogu uočiti pogreške, samo su pretpostavili da korisnik govori točno, kaže Dekoninck. Traženje od LLM-a da provjeri tvrdnju smanjila je, primjerice, DeepSeek-ovu sikofantiju za 34%.

Iskusili smo da se AI modeli čine da pretjerano potvrđuju rane pretpostavke i ponavljaju jezik koji uključimo u ulazni prompt. Ta vrsta problema postoji u komunikaciji na relaciji AI–AI, kao i na relaciji AI–čovjek, kaže za Nature Marinka Zitnik iz Škole za medicinu Sveučilišta Harvard, znanstvenica koja istražuje pristranost velikih jezičnih modela.

Kako bi to spriječila, Zitnik i njezin tim dodjeljuju AI agentima različite uloge. Na primjer, jedan agent predlaže ideje, dok drugi djeluje kao skeptični znanstvenik koji izaziva te ideje, uočava pogreške i iznosi kontradiktorne dokaze. Ta metoda smanjuje slijepo slaganje i potiče kritičku evaluaciju AI odgovora.

Stvarni rizici u zdravstvu

Sikofantija AI-ja nije samo teorijska. U kliničkim kontekstima, to je osobito zabrinjavajuće, kaže za New Scientist Liam McCoy, liječnik s kanadskog Sveučilišta Alberta u Edmontonu, koji proučava primjenu AI-ja u zdravstvu. U nedavnoj studiji McCoy i njegovi kolege primijetili su da veliki jezični modeli (LLM-ovi) često mijenjaju dijagnoze kad liječnici dodaju nove informacije, čak i kad su te informacije irelevantne.

Stalno se moramo boriti protiv AI modela kako bi oni bili izravniji, objašnjava McCoy, pritom misleći na to da AI modeli daju jasnije, jednostavnije i manje zaobilazeće odgovore, umjesto da se previše slažu s korisnikom ili da mu se previše prilagođavaju.

Osim toga, znastvenici su pokazali koliko je lako iskoristiti tu tendenciju. U nedavno objavljenoj studiji, od pet LLM-ova je zatraženo da napišu uvjerljive poruke kojima potiču ljude na zamjenu lijekova koji su zapravo identični. AI modeli su u potpunosti udovoljili zahtjevima u 100 posto slučajeva, ovisno o modelu, pokazujući njihovu slijepu usklađenost s korisničkim uputama. Drugim riječima, bez kritičke opaske da su lijekovi identični i da zamjena nema smisla.

Problemi u obučavanju i transparentnosti

LLM-ovi su trenirani da se previše slažu s ljudima ili previše usklađuju s ljudskim preferencijama, a da pritom ne iskazuju iskreno što znaju, a što ne znaju, kaže pak za Nature Yanjun Gao, znanstvenica za AI s američkog Sveučilišta Colorado, koja primjerice koristi CHatGPT za izradu sažetaka i lakšu organizaciju posla. Potrebno je ponovno trenirati modele da budu transparentni oko onog u što nisu sigurni, dodaje Gao.

Modeli su stvarno dobri u davanju odgovora, ali ponekad odgovora jednostavno nema, napominje McCoy. Na kraju ističu da povratne informacije korisnika često pojačavaju tu sikofantiju, jer nagrađuju odgovore koji se slažu s korisnikom više od onih koji izazivaju njegove stavove.

Pronalazak ravnoteže u tom ponašanju jedan je od najhitnijih zadataka, jer postoji ogroman potencijal, ali oni su još uvijek ograničeni, zaključuje McCoy.