Većina tvrtki koje razvijaju umjetnu inteligenciju koristi isti princip za "učenje" svojih sustava. "Hrane" ih prvo podacima iz vlastitih baza podataka, a onda i podacima s interneta.
No, što kad ti podaci "presuše"? Upravo se s takvim problemom pomalo susreću najveće tvrtke koje su razvile i najpoznatije AI alate. Prema nekim procjenama podaci za obuku mogli bi presušiti veća u sljedećih nekoliko godina. Kako piše Wall Street Journal, neke tvrtke već traže alternativne izvore podataka poput javno dostupnih video transkripata, a čak se i okreću "sintetičkim podacima" koje generira druga umjetna inteligencija.
Međutim, nije problem u tome što te tvrtke traže alternativne izvore podataka, već što se sve češće koriste pomalo kontroverznim sredstvima za njihovo stvaranje.
Prema izvorima WSJ, OpeAI je planirao koristiti transkripte javnih videa s YouTubea za obučavanje svog alata GPT-5.Jesu li ih i upotrijebili, za sad nije poznato.
"Sintetički podaci" našli su se u središtu opsežne rasprave posljednjih mjeseci, nakon što su istraživači prošle godine otkrili da bi obučavanje AI alata podacima koje je generirao AI, doveli do kolapsa cijelog modela. Tvrtke poput OpenAI pokušavaju napraviti kvalitetnije "sintetičke podatke", ali ne otkrivaju što bi to točno značilo.
S druge strane, postoji još jedno rješenje - da se tvrtke fokusiraju na ispravljanje grešaka koje njihove umjetne inteligencije čine i samo pričekaju da se stvore novi podaci. Uostalom, svake se minute na interentu stvaraju novi podaci koje je moguće upotrijebiti za poboljšavanje umjetne inteligencije.
Izvor: Wall Street Journal