Otkrivena neočekivana ranjivost AI chatbotova: Odgovaraju na apsolutno sve upite ako im se govori ovim riječnikom

Poetski riječnik možda djeluje zastarjelo u svakodnevnoj komunikaciji, no u svijetu umjetne inteligencije otkrivena je njegova opasna primjena.

Nedavno istraživanje tvrtke Icaro Labs, objavljeno na preprint serveru arXiv, otkrilo je da razgovor s chatbotovima u poetskom obliku može zaobići njihove sigurnosne zaštite, otkrivajući zabranjeni sadržaj. Njihovo istraživanje objašnjava kako su uobičajeni upiti preoblikovani u poeziju, što je rezultiralo iznenađujuće učinkovitim rezultatima.

Autori su istaknuli da ova metoda djeluje kao univerzalni operator u probijanju zaštite za AI chatbotove, omogućujući pristup materijalima koji su inače ograničeni njihovim filtrima. Icaro Labs nije otkrio točne poetske upite, navodeći zabrinutost za kibenretičku sigurnost kao razlog njihova neotkrivanja.

Prema timu Icaro Labsa, ti upiti mogli su izvući osjetljive sadržaje, uključujući upute za nuklearno oružje, materijale o seksualnom zlostavljanju djece ili informacije o samoozljeđivanju, prenosi portal Wired.

Ispitivanja su provedena na glavnim AI platformama, uključujući ChatGPT tvrtke OpenAI, Google Gemini i Claude tvrtke Anthropic. Neki sustavi, poput Google Geminija, DeepSeeka i MistralAI-a, dosljedno su odgovarali na poetske upite zabranjenim informacijama. Nasuprot tome, ChatGPT s GPT-5 i Claude s Haiku 4.5 bili su najmanje osjetljivi, pokazujući jaču otpornost.

Otkriveno je da rezultati Icaro Laba ističu potencijalne rizike sigurnosti AI sustava, pokazujući da čak i kreativni oblici jezika, tradicionalno bezopasni, mogu biti iskorišteni za zaobilaženje ključnih sigurnosnih mjera vezanih za način na koji se AI može koristiti.