Umjetna inteligencija transformira čitave industrije, ali njezine rastuće ranjivosti zabrinjavaju stručnjake. Trovanje, pojam koji se obično povezuje s ljudima ili ekosustavima, sve se značajnije koristi i u svijetu umjetne inteligencije, posebno kod velikih jezičnih modela (LLM) poput ChatGPT-a i Claude-a.
tri vijesti o kojima se priča


Seyedali Mirjalili, profesor umjetne inteligencije s australskog Sveučilišta Torrens, ističe u članku za The Conversation da se pojam trovanja u slučaju AI-ja odnosi na proces namjernog podučavanja AI modela pogrešnim lekcijama. Cilj je korumpirati znanje ili ponašanje modela, uzrokujući njegovo loše djelovanje, proizvodnju određenih pogrešaka ili prikazivanje skrivenih, zlonamjernih funkcija.
Zajednička studija Instituta UK AI Security, Instituta Alan Turing i Anthropic-a, objavljena ranije ovog mjeseca, utvrdila je da umetanje svega 250 zlonamjernih datoteka među milijune podataka u skupu za treniranje modela može taj model tajno "zatrovati". Takvi su primjeri alarmantni jer pokazuju koliko malo je ponekad potrebno da se ozbiljno naruši povjerenje u sustav.
Kako trovanje funkcionira?
Treba razlikovati dvije metode - trovanje podataka i trovanje AI modela. Trovanje podataka odnosi se na napad pri kojem se tijekom procesa učenja u model unose netočni ili zlonamjerni podaci. Kada se promjene čine izravno na već uvježbanom modelu, riječ je o trovanju modela. Obje metode često se nadovezuju jedna na drugu te dovode do istog cilja, a on je narušavanje pouzdanosti i točnosti umjetne inteligencije.
Mirjalili pojašnjava na primjeru studenta koji uči pomoću AI-ja - ako se među materijale iz kojih sustav uči, potajno ubace pogrešni primjeri, sustav daje pogrešne odgovore studentu koji je uvjeren da su točni. Student, nesvjestan manipulacije, tako automatski daje pogrešne odgovore na ispitu.
Trovanje može biti izravno ili neizravno. Izravni napadi, često nazvani “backdoor” (stražnja vrata), pokreću zlonamjerne reakcije kada model primi određeni upit. Na primjer, AI model može normalno odgovoriti na pitanje o javnoj osobi, ali odgovor postaje uvredljiv ako se u uključi specifična fraza (koja može biti bilo što). Neizravni napadi, poput usmjeravanja teme, preplavljuju skupove podataka pristranim ili lažnim informacijama. Ako napadači na AI sustav stvore brojne web stranice koje tvrde da primjerice “jedenje salate liječi rak,” model koji pretražuje te stranice može to početi tretirati kao činjenicu, napominje australski stručnjak.
Utjecaji u stvarnom svijetu
Studije ističu učinkovitost trovanja podataka za uvježbavanje. Istraživanje iz siječnja ove godine pokazalo je da izmjena samo 0,001 posto tokena u medicinskom skupu podataka uzrokuje da modeli šire štetne pogreške, dok i dalje postižu dobre rezultate na standardnim medicinskim testovima. Eksperimenti s namjerno kompromitiranim modelom, nazvanim PoisonGPT, dodatno su pokazali da zatrovani modeli mogu izgledati normalno, a ipak širiti lažne informacije.
Osim dezinformacija, zatrovana AI predstavlja i rizike za kibernetičku sigurnost. U ožujku 2023. godine OpenAI je privremeno isključio ChatGPT nakon što je bug izložio podatke korisnika. Zanimljivo je da neki umjetnici koriste trovanje kao obrambeni mehanizam, osiguravajući da AI koji pretražuje njihov rad proizvodi iskrivljene rezultate, napominje Mirjalili.
Na kraju naglašava da unatoč pompi oko AI-ja, ta je tehnologija daleko krhkija nego što se čini. Kako integracija AI-ja postaje sve dublja, razumijevanje i ublažavanje trovanja postaje ključno, kako za za programere, tako i za korisnike.