Studija s Harvarda otkriva veliku manu umjetne inteligencije i zašto ona ne može zamijeniti ljudske liječnike

Napredni AI modeli briljiraju u profesionalnim medicinskim pregledima, ali zaostaju u kritičnom zadatku dijagnosticiranja pacijenata putem razgovora, pokazalo je najnovije istraživanje.

Iako veliki jezični modeli pokazuju impresivne rezultate na testovima višestrukog izbora, njihova točnost značajno opada u dinamičnim razgovorima. Modeli se posebno bore s otvorenim dijagnostičkim zaključivanjem, kaže Pranav Rajpurkar sa Sveučilišta Harvard, jedan od autora navedenog istraživanja koje je objavljeno u časopisu Nature Medicine.

Pravi test - simuliranje uvjeta iz stvarnog života

Znanstvenici s Harvarda stvorili su referentnu točku, CRAFT-MD, za procjenu AI razmišljanja tijekom simuliranih interakcija liječnika i pacijenta. Te su simulacije uključivale 2000 medicinskih slučajeva izvučenih uglavnom iz ispita medicinskog odbora SAD-a.

Simulacija interakcije s pacijentima omogućuje procjenu vještina prikupljanja medicinske povijesti, kritične komponente kliničke prakse koja se ne može procijeniti korištenjem vinjeta slučaja, objašnjava Shreya Johri sa Sveučilišta Harvarda i vodeća autorica studije. Ona dodaje da CRAFT-MD oslikava scenarije iz stvarnog života, gdje pacijenti možda ne znaju koje su pojedinosti ključne za dijeljenje s liječnikom.

Evaluacija tima s Harvarda koristila je OpenAI-jev GPT-4 kao "AI pacijenta" u razgovorima s testiranom kliničkom umjetnom inteligencijom. GPT-4 također je ocjenjivao dijagnoze, koje su potvrdili ljudski stručnjaci. Ti su stručnjaci pregledali dijaloge kako bi procijenili točnost, i pacijentove, i kliničke umjetne inteligencije.

Svi AI modeli padaju na dijagnozama

Eksperimenti su pokazali da su GPT-3.5, GPT-4, Metin Llama-2-7b i Mistral AI-jev Mistral-v2-7b imali loše rezultate u simuliranoj razgovornoj interakciji s pacijentima u usporedbi s pisanim sažetcima povijesti bolesti pacijenata. Na primjer, GPT-4 postigao je 82 posto točnosti sa strukturiranim sažetcima slučajeva, ali je pao na tek 26 posto u simuliranim razgovorima. To je također bio jedini model koji je uspješno kompletirao povijesti bolesti u 71 posto slučajeva. Kad bi AI modeli i uspjeli prikupiti kompletne povijesti bolesti, s druge strane, često nisu davali točne dijagnoze.

Snažna izvedba na našoj referentnoj razini sugerira da bi umjetna inteligencija mogla biti moćan alat za podršku kliničkom radu, ali ne nužno i zamjena za holističku prosudbu iskusnih liječnika, upozorava na kraju Rajpurkar.

Izvor: New Scientist