Stručnjaci već neko vrijeme upozoravaju kako više nema previše podataka iz stvarnog svijeta na kojima bi mogli trenirati umjetnu inteligenciju, a u prosincu prošle godine na to je ukazao i Ilya Sutskever. Riječ je o dobro poznatoj osobi u svijetu AI industrije koji je dugo godina bio glavni znanstvenik u OpenAI-u. Tijekom jedne konferencije prošlog mjeseca rekao je kako je ova industrija došla do “vrhunca podataka” te je predvidio da će nedostatak podataka za treniranje utjecati na promjenu u načinu razvoja AI modela.
S njegovim razmišljanjima i predviđanjima slaže se i Elon Musk. Najbogatija osoba na svijetu čiji bogati portfelj kompanija koje posjeduje uključuje i AI startup xAI koji, među inim, razvija alat generativne umjetne inteligencije Grok, komentirao je nedavno kako smo za treniranje AI-a u osnovi iscrpili kumulativno ljudsko znanje. Tijekom razgovora s Markom Pennom, direktorom kompanije Stagwell, koji je uživo emitiran na platformi X, Musk je rekao kako je do toga došlo još prošle godine.
S obzirom na to da više nemamo ljudskih podataka na kojima bi mogli trenirati ovu tehnologiju, trebamo se okrenuti drugoj vrsti podataka - sintetičkim podacima. Riječ o onim podacima koje je stvorila sama umjetna inteligencija i upravo bi oni trebali popuniti tu prazninu nastalu nedostatkom stvarnih podataka. Pema nekim ranijim podacima, više od polovice podataka (čak oko 60 posto) koji su se koristili za treniranje AI i analitičke projekte bili su umjetno stvoreni. Među inim, takve podatke za treniranje koriste i kompanije poput Microsofta, Mete, OpenAI-a i drugih veliki AI i tehnoloških tvrtki.
U odnosu na stvarne podatke, sintetički podaci imaju jednu veliku prednost, a to je da su jeftiniji za korištenje i treniranje umjetne inteligencije.
No postoji i druga, negativna strana korištenja podataka koje je stvorila umjetna inteligencija. Dio stručnjaka tako upozorava na kolaps modela do kojeg može doći ako se AI trenira na umjetnim podacima. Dok Musk vjeruje kako bi AI tako mogla sama sebe ispravljati i sama učiti, jedno ranije istraživanje pokazalo je kako bi nakon što se AI upadne u krug treniranja na podacima nastalim korištenje AI-a, ova tehnologija mogla početi stvarati - besmisleni sadržaj. U spomenutom istraživanju naveden je primjer jednog sustava koji je treniran na tekstu o arhitekturi u srednjem vijeku, a nakon devet generacija što je AI trenirana na svojim podacima o tom tekstu, konačan rezultat postao je bezvrijedna hrpa ponavljajućih gluposti.
Izvor: Tech Crunch