Anthropic želi da njihov AI agent kontrolira vaše računalo

Anthropic, rastući konkurent OpenAI-u, podigao je razvoj umjetne inteligencije na novu razinu podučavajući svoj model, Claude, da obavlja zadatke poput pretraživanja weba, korištenja aplikacija i rukovanja unosom teksta putem miša i tipkovnice na računalu. Taj razvoj sugerira da bi umjetna inteligencija mogla preuzeti neke naše svakodnevne digitalne zadatke.

Obavljanje kompleksnih zadataka na računalu

Ući ćemo u novu eru u kojoj model može koristiti sve alate koje vi kao osoba koristite za obavljanje zadataka, rekao je Jared Kaplan, Anthropicov glavni znanstveni direktor i izvanredni profesor na Sveučilištu Johns Hopkins. U demonstraciji za portal WIRED, Claude je dobio upute da planira promatranje izlaska sunca na mostu Golden Gate u San Franciscu. AI je otvorio Google Chrome, istražio idealna vremena gledanja i zabilježio taj događaj u kalendaru. Međutim, nije sugerirao upute.

U drugoj demonstraciji, Claude je dobio zadatak izraditi jednostavnu web stranicu. Koristeći tekstualni upit, AI je generirao kod, otvorio Visual Studio Code i pokrenuo web poslužitelj za testiranje stranice, što je rezultiralo odredišnom stranicom u retro stilu. Kad je zatraženo da riješi problem, Claude je identificirao pogrešku i ispravio je.

Impresivne mogućnosti, no izazovi ostaju

Mike Krieger, Anthropicov glavni direktor proizvoda, predviđa da će AI agenti poput Claudea smanjiti ponavljajuće zadatke i osloboditi vrijeme za kreativniji rad. Što biste učinili kada biste se riješili hrpe sati kopiranja i lijepljenja ili što god na kraju radite? Otišao bih više svirati gitaru, rekao je Krieger. Agentske mogućnosti pokreću se danas putem Claude 3.5 Sonneta, Anthropicovog najnaprednijeg jezičnog modela. Nadograđeni, manji model, Claude 3.5 Haiku, također je dostupan.

Iako su demonstracije poput navedenih impresivne, pouzdanost u stvarnom svijetu ostaje izazov. Trenutni modeli umjetne inteligencije, kao što je Claude, mogu voditi razgovore i izvršavati računalne zadatke, ali isto tako još uvijek mogu činiti skupe ili dosadne pogreške. Ti AI agenti komuniciraju sa zaslonima, tipkovnicama i softverskim sučeljima niske razine za obavljanje zadataka. Anthropic tvrdi da Claude nadmašuje konkurente na mjerilima kao što su SWE-bench, koji testira sposobnost kodiranja, i OSWorld, koji mjeri korištenje računala. Međutim, te se rezultate tek treba neovisno provjeriti, piše WIRED.

AI ima problem s dugoročnim planiranjem i pogreškama

Claude je postigao stopu uspješnosti od 14,9 posto na OSWorldu, što je niže od ljudi koji su postigli 75 posto, ali više od OpenAI-jevog GPT-4, koji je dosegao samo 7,7 posto. Canva i Replit već testiraju Claudeove sposobnosti - Canva za automatizaciju zadataka dizajna, a Replit za kodiranje. Drugi rani korisnici uključuju The Browser Company, Asanu i Notion.

Ofir Press, postdoktorand na američkom Sveučilištu Princeton i ko-kreator SWE-bench-a, rekao je da agenti umjetne inteligencije često imaju problema s dugoročnim planiranjem i oporavkom od pogrešaka. Kako bismo ih pokazali korisnima, moramo postići snažne performanse na teškim i realnim mjerilima, rekao je Press, misleći pritom na primjere poput planiranja i rezerviranja cijelih putovanja.

Riječ upozorenja

Ipak, Kaplan ističe da Claude ima neke vještine rješavanja problema. U jednom slučaju, Claude je revidirao svoju naredbu kako bi riješio pogrešku terminala prilikom pokretanja web poslužitelja. Također je omogućio skočne prozore kada je zaglavio tijekom pregledavanja weba.

Nekoliko tehnoloških tvrtki vodi utrku u razvoju AI agenata. Microsoft, koji je uložio preko 13 milijardi dolara u OpenAI, testira agente koji mogu upravljati Windows računalima. Amazon, ključni podupiratelj Anthropica, istražuje kako agenti mogu pomoći kupcima pri odabiru proizvoda i kupnji. Anthropic je, s druge strane, nametnuo određena ograničenja na ono što Claude može učiniti, primjerice ograničavajući njegovu mogućnost korištenja kreditne kartice korisnika za kupnju stvari.

Unatoč tim razvikanim mogućnostima, Sonya Huang, partnerica u tvrtki Sequoia koja je fokusirana na umjetnu inteligenciju, upozorava da mnoge tvrtke samo jednostavno rebrendiraju AI alate u agente. Ona je za WIRED pojasnila da ta tehnologija trenutno najbolje funkcionira kada se primjenjuje u uskim domenama, kao što je rad vezan uz kodiranje.