Googleova konferencija I/O pokazala je smjer u kojem će se Googleovi proizvodi razvijati sljedećih mjeseci. No, usred poplave najava vezanih uz umjetnu inteligenciju, bilo je lako propustiti jednu koja bi mogla biti presudna.
Naime, iako je na glavnoj pozornici dobio tek nekoliko minuta vremena i kratku demonstraciju, Googleov Gemini Diffusion, privukao je pozornost stručnjaka za umjetnu inteligenciju.
O čemu se točno radi? Gemini Diffusion eksperimentalni je istraživački veliki jezični model (LLM) Google DeepMinda. Prema podacima koji su trenutno dostupni, ovaj model ima nevjerojatno brz izlaz rezultata (između 1000 i 2000 "tokena" ili dijelova teksta u sekundi, što je četiri do pet puta brže od Geminijevog najmoćnijeg javnog LLM-a). Osim toga, otkriveno je kako ima gotovo iznenađujuće dobre performanse, posebno u područjima poput kodiranja i složenog matematičkog zaključivanja.
Google je o Gemini Diffusionu napisao tek nekoliko riječi na blogu, istaknuvši kako se radi o eksperimentalnoj demo verziji Gemini Diffusion koja „generira sadržaj znatno brže od našeg najbržeg modela do sada, a istovremeno je jednaka njegovim performansama kodiranja.“ Za sve one koji bi željeli i sami isprobati ovaj novi AI model - loše vijesti. Moraju se upisati u listu čekanja za pristup istraživačkoj verziji i nadati se najboljem.
Iako bi Googleove najave trebalo uzeti sa zrnom soli, stručnjaci za umjetnu inteligenciju ističu da bi, ako Gemini Diffusion izađe u javnost, to moglo potencijalno preoblikovati ratove modela umjetne inteligencije koji se vode između Googlea, OpenAI-ja, Anthropica, Mete i kineskih konkurenata, poput Alibabe i DeepSeeka. No, o tome će se moći razgovarati ako i kad Gemini Diffusion postane dostupan i ostatku javnosti.
Jednostavno učinkovitiji... za neke stvari
Ono što trenutno više zabrinjava je pitanje samog troška izgradnje i održavanja modela, zahtjeva za računalnom snagom i energijom i ostalo. Za Davea Nicholsona, glavnog analitičara u Futuru Groupu, za neke će zadatke Gemini Diffusion jednostavno biti učinkovitiji.
Sve će se to na kraju mjeriti u odnosu na operativne troškove svakog modela. Nakon što se stvarni troškovi odraze u cijenama (što danas nije nužno slučaj, jer se tvrtke za umjetnu inteligenciju i njihovi podupiratelji bore za tržišni udio), kupci će postati puno selektivniji u odabiru modela koji najbolje odgovara zadatku, rekao je Nicholson za Fortune.
Difuzijski vs. tradicionalni model?
Pa što Gemini Diffusion čini drugačijim od ostalih LLM modela? Prema onome što su otkrili u Googleu, glavna je razlika upravo u tehnici "difuzije" na kojoj se model temelji. Difuzija je drugačija vrsta LLM-a od one koju koriste popularni AI alati kao što je ChatGPT. Difuzija je metoda kojom su nastali AI alati za generiranje slika i multimedije poput DALL-E 2.
Kako su pojasnili iz Googlea, tradicionalni autoregresivni jezični modeli generiraju tekst riječ po riječ – ili token – u isto vrijeme. Ovaj sekvencijalni proces može biti spor i ograničiti kvalitetu i koherentnost rezultata.
Difuzijski modeli funkcioniraju drugačije. Umjesto izravnog predviđanja teksta, oni uče generirati izlaze pročišćavanjem šuma, korak po korak. To znači da mogu vrlo brzo iterirati na rješenju i ispravljati pogreške tijekom procesa generiranja. To im pomaže da izvrsno obavljaju zadatke poput uređivanja, uključujući i kontekst matematike i kodiranja.
I dok neki istraživači upozoravaju kako difuzijski modeli, iako brzi, mogu stvarati tekstualne segmente samo određene duljine, pa možda nisu pogodni za pisanje duljih tekstova, čini se kao da su savršni za pisanje računalnog koda.
Jack Rae, glavni znanstvenik u Google DeepMindu, napisao je na X-u da Gemini Diffusiona „izgleda kao prekretnica“, da su tradicionalni LLM-ovi za generiranje teksta oduvijek nadmašivali difuzijske modele u smislu kvalitete. Nije bilo jasno hoće li se jaz ikada zatvoriti... rezultat je fascinantan i moćan model koji je ujedno i munjevito brz.
Izvor: Fortune