tri vijesti o kojima se priča



Kineska tvrtka za razvoj umjetne inteligencije DeepSeek objavila je svoj najnoviji "eksperimentalni" model za koji tvrdi da je učinkovitiji za učenje i bolji u obradi dugih nizova teksta od njenih prethodnih iteracija velikih jezičnih modela.
Tvrtka sa sjedištem u Hangzhouu nazvala je DeepSeek-V3.2-Exp "međukorakom prema našoj arhitekturi sljedeće generacije" u objavi na forumu za razvojne programere Hugging Face.
Ta će arhitektura vjerojatno biti najvažnije izdanje proizvoda DeepSeeka otkako su V3 i R1 šokirali Silicijsku dolinu i tehnološke investitore izvan Kine.
Model V3.2-Exp uključuje mehanizam pod nazivom DeepSeek Sparse Attention, za koji kineska tvrtka tvrdi da može smanjiti troškove računanja i poboljšati performanse nekih vrsta modela. DeepSeek je u ponedjeljak na X-u objavio da smanjuje cijene sučelja za programiranje aplikacija za "više od 50 posto".
Iako je malo vjerojatno da će DeepSeekova arhitektura sljedeće generacije uzburkati tržišta kao što su to učinile prethodne verzije u siječnju, i dalje bi mogla značajno pritisnuti domaće konkurente poput Alibabinog Qwena i američke rivale poput OpenAI-a, uspije li ponoviti uspjeh DeepSeeka R1 i V3.
To bi od modela zahtijevalo da se iskaže u visokoj sposobnosti, a da istovremeno traži tek dio resursa koje konkurenti naplaćuju i troše na obuku modela.