Brzi razvoj umjetne inteligencije i eksplozija popularnosti različitih alata pogonjenih umjetnom inteligencijom već je pred tvrtke koje se bave njihovim razvojem postavila zanimljiv izazov. Kad ponestane podataka na temelju kojih se veliki jezični modeli i drugi oblici umjetne inteligencije treniraju - što im dalje dati?
tri vijesti o kojima se priča


Mnoge tvrtke okrenule su se stvaranju "sintetičkih podataka" odnosno podataka koje su stvorili sustavi umjetne inteligencije, kako bi se na njima mogli trenirati drugi sustavi umjetne inteligencije.
Međutim, proizvodnja sintetičkih podataka, zajedno s gomilom odgovora koje alati umjetne inteligencije svakodnevno izbacuju na pitanja korisnika, dovela je do nezgodne situacije. Na internetu je sad toliko beskorisnih informacija, da svojim postojanjem ugrožavaju razvoj budućih modela umjetne inteligencije.
U članku objavljenom na The Register, upozoravaju na "kolaps modela umjetne inteligencije" koji je rezultat prevelike količine podataka kreiranih umjetnom inteligencijom koji nemaju istu težinu kao oni koje su tvorili ljudi. Kao posljedica toga, ističu u The Registeru, podaci koji su nastali prije uspona ChatGPT-a i sličnih alata, postaju izuzetno vrijedni.
Slična je situacija s čelikom koji je proizveden prije detonacije prvih nuklearnih bombi prije srpnja 1945.) i onim proizvedenim poslije. Naime, eksplozije nuklearnih bombi nepovratno su oslobodile radionukleide i druge čestice koje mogu utjecati na rezultate ispitivanja u znanosti i medicini. Pa se za takve osjetljive testove koristi čelik s niskim udjelom radionukleida, odnosno onaj koji je proizveden prije 1945. A gdje ga se može pronaći? U bojnim brodovima iz Prvog i Drugog svjetskog rata, koji se nalaze na dnu mora.
Preslikamo li to na podatke, svi podaci proizvedeni prije 2022. godine su "prilično čisti" i vjerojatno nisu stvoreni pomoću umjetne inteligencije. Sve nakon toga, smatra se "prljavim".
Maurice Chiodo, znanstveni suradnik u Centru za proučavanje egzistencijalnog rizika Sveučilišta u Cambridgeu koautor je rada iz 2024. godine, u kojem se navodi kako je, želimo li dalje razvijati umjetnu inteligenciju i spriječiti "kolaps", nužno pronaći izvor "čistih podataka". Ne samo kako bi i budući modeli bili korisni, već i kako bi se osigurala "poštena konkurencija među programerima". Kako navodi, u protivnom bi se rani pioniri tehnologije mogli pohvaliti ogromnom prednošću, jer su imali čišće izvore podataka za obuku, od onih koji razvijaju modele na "sintetičkim podacima".
No, "čišćenje podataka" jednom kad su zagađeni gotovo je nemoguće. Chiodo nagađa da bi djelomično mogli pomoći stroži propisi, kojima bi se obvezalo na označavanje podataka koji su nastali pomoću umjetne inteligencije. Međutim, u AI industriji se takvi prijedlozi smatraju previše restriktivnima i načinom za "gušenje inovacija".
Znanstvenici poput Chiodoa pak upozoravaju da će daljnje "zagađivanje" podataka smanjiti točnosti i preciznost odgovora koje AI daje na korisnikova pitanja, a to bi u konačnici moglo dovesti do zaustavljanja daljnjeg razvoja AI i "udaranja u zid".
Za sad nitko nije dao konkretan prijedlog što napraviti kako bi se zaustavilo daljnje "onečišćenje" podataka na internetu i omogućilo razvoj umjetne inteligencije u smjeru u kojem svi očekuju. Možda AI ima odgovor na to pitanje?