OpenAI LifeSciBench: AI rešava trećinu naučnih zadataka

Kompanija OpenAI objavila je 17. juna 2026. godine LifeSciBench, novo merilo za procenu koliko veštačka inteligencija stvarno može da pomogne u istraživanjima iz oblasti nauka o životu. Uz merilo, kompanija je predstavila i primer takozvanog skoro samostalnog AI hemičara, sistema koji je, prema njenim navodima, uspeo da poboljša jednu reakciju važnu za razvoj lekova. Glavni nalaz je otrežnjujući: i najjači testirani model rešava manje od polovine zadataka koje su sastavili stručnjaci.

Objava dolazi u trenutku kada laboratorije, farmaceutske kompanije i istraživački timovi sve češće postavljaju isto pitanje. Da li jezički modeli mogu da urade nešto više od pisanja sažetaka i traženja referenci, odnosno da li mogu da nose deo stvarnog naučnog rasuđivanja. LifeSciBench je pokušaj da se na to pitanje odgovori brojkama, a ne utiscima.

Šta meri LifeSciBench

Prema podacima koje je objavio OpenAI, a koje prenosi specijalizovani portal MarkTechPost, LifeSciBench sadrži 750 zadataka koje je napisalo 173 naučnika sa doktoratima i iskustvom u biotehnologiji ili farmaciji. Kvalitet zadataka proveravalo je 453 recenzenata, od kojih 97 odsto takođe ima doktorat, uz saglasnost ocenjivača iznad 96 odsto.

Za razliku od testova sa ponuđenim odgovorima, zadaci u ovom merilu postavljeni su kao pitanja otvorenog tipa, onako kako bi jedan istraživač ukratko opisao problem kolegi. Oko 79 odsto zadataka traži više koraka rasuđivanja, u proseku četiri po zadatku. Ocenjivanje se ne svodi na tačno ili netačno, već na detaljne rubrike koje je sastavila struka. Tih kriterijuma ima 19.020, odnosno oko 25 po zadatku, pa model može da dobije i delimične bodove.

Sedam tokova rada i sedam oblasti

Zadaci pokrivaju sedam tipova naučnog rada, od rukovanja dokazima i analize, preko dizajna, optimizacije i naučnog rasuđivanja, do provere, prevođenja nalaza i naučne komunikacije. Biološke oblasti idu od genomike i medicinske hemije do kliničkih i translacionih istraživanja. Više od polovine zadataka, oko 53 odsto, dolazi uz prateći materijal poput sekvenci, slika, tabela, dokumenata ili hemijskih struktura, kojih je u celom merilu 1.062.

Rezultati: i najbolji model pada na većini zadataka

Zadatak se smatra položenim ako model ispuni prag uspeha od 70 odsto. Po tom kriterijumu, rezultati pokazuju koliko je naučni rad i dalje težak za današnje sisteme.

Najbolje je prošao GPT-Rosalind, model koji je OpenAI posebno prilagodio za nauke o životu, sa stopom prolaznosti od 36,1 odsto i normalizovanim skorom 0,576. Za njim slede GPT-5.5 sa 25,7 odsto, Gemini 3.1 Pro kompanije Google sa 23,6 odsto, GPT-5.4 sa 20,7 odsto i Grok 4.3 sa 13 odsto. Drugim rečima, i model koji vodi rešava nešto više od trećine zadataka, dok ostali padaju ispod te granice.

Zanimljiv je i podatak da nijedan model ne dominira u svemu. GPT-Rosalind je, prema istom izvoru, jedini bio najbolji na 386 od 750 zadataka, dok je Gemini 3.1 Pro samostalno vodio na njih 214. To sugeriše da različiti sistemi imaju različite jake strane, pa izbor modela zavisi od konkretne oblasti.

Gde modeli najviše greše

Najveći pad dešava se kada zadatak nije čist tekst. Kod GPT-Rosalinda stopa uspeha pada sa 45,1 odsto na zadacima koji su samo tekst na 28,1 odsto kada uz zadatak ide prateći materijal. Slabe tačke su i dizajn i optimizacija, sa prolaznošću oko 30,7 odsto, kao i rad sa sekvencama i strukturama, gde uspeh po pojedinačnim kriterijumima varira od 46,9 do svega 18 odsto. Sve to upućuje na isti zaključak. Modeli relativno dobro barataju opisima i tekstom, a znatno teže tumače stvarne naučne podatke.

AI hemičar koji je popravio reakciju

Uporedo sa merilom, OpenAI je u saradnji sa kompanijom Molecule.one prikazao primer skoro samostalnog AI hemičara zasnovanog na modelu GPT-5.4. Prema navodima kompanije, taj sistem je pomogao da se poboljša jedna zahtevna reakcija u medicinskoj hemiji, oblasti koja se bavi pronalaženjem i optimizacijom jedinjenja za buduće lekove.

Kompanija nije predstavila taj rezultat kao dokaz da veštačka inteligencija sama vodi otkrića. Naprotiv, poruka uz LifeSciBench je da će se prava vrednost ovakvih sistema videti tek kroz duže korišćenje u stvarnim istraživanjima, kroz više krugova rasuđivanja, povratnih informacija i eksperimentalne provere. Pojedinačan uspeh na jednoj reakciji i visok rezultat na merilu nisu isto što i ubrzanje nauke u praksi.

Zašto je ovo važno

Merila poput LifeSciBench imaju dvostruku ulogu. S jedne strane, daju kupcima i istraživačima konkretan način da uporede modele umesto da se oslanjaju na marketinške tvrdnje. S druge strane, otkrivaju koliko je daleko granica između asistenta koji ubrzava papirologiju i sistema kojem bi se moglo poveriti rasuđivanje u laboratoriji.

Za istraživačke timove u regionu, uključujući fakultete, biotehnološke startape i farmaceutske kompanije, ovakvi podaci su koristan podsetnik. Današnji modeli mogu da skrate pretragu literature, predlože hipoteze i pomognu u pisanju, ali rezultati pokazuju da samostalno rešavanje složenih naučnih zadataka i dalje nije pouzdano. Ljudski nadzor ostaje neophodan, naročito tamo gde se radi sa stvarnim podacima i strukturama.

Treba imati u vidu i da merilo dolazi od same kompanije koja proizvodi neke od testiranih modela. OpenAI navodi da su zadatke pisali i proveravali nezavisni stručnjaci sa doktoratima, ali nezavisne provere ovakvih merila po pravilu daju potpuniju sliku. Do tada, jedan zaključak stoji bez spora. Veštačka inteligencija je u nauci o životu stigla do tačke u kojoj je korisna, ali još daleko od tačke u kojoj bi mogla da radi sama.

Često postavljana pitanja

Šta je LifeSciBench?

To je merilo koje je objavio OpenAI 17. juna 2026. godine, namenjeno proceni koliko veštačka inteligencija može da pomogne u istraživanjima iz nauka o životu. Sadrži 750 zadataka koje su pisali i proveravali naučnici sa doktoratima, a modeli se ocenjuju po detaljnim rubrikama, a ne samo po tačnom odgovoru.

Koji je model bio najbolji?

Najbolje je prošao GPT-Rosalind, model koji je OpenAI prilagodio za ovu oblast, sa stopom prolaznosti od 36,1 odsto. Slede GPT-5.5, Gemini 3.1 Pro, GPT-5.4 i Grok 4.3. I najbolji rezultat znači da model pada na skoro dve trećine zadataka.

Da li to znači da AI može sam da vodi naučna istraživanja?

Ne. Rezultati pokazuju da modeli i dalje teško tumače stvarne podatke, slike i strukture, a uspeh na zadacima sa pratećim materijalom znatno opada. OpenAI sam navodi da će se prava vrednost videti tek kroz duže korišćenje uz nadzor istraživača.

Šta je AI hemičar koji je predstavljen uz merilo?

Reč je o skoro samostalnom sistemu zasnovanom na modelu GPT-5.4, razvijenom u saradnji sa kompanijom Molecule.one, koji je prema navodima OpenAI pomogao da se poboljša jedna reakcija u medicinskoj hemiji. To je prikazano kao primer mogućnosti, ne kao dokaz da sistem radi bez ljudi.

OpenAI predstavio LifeSciBench, merilo koje pokazuje da AI rešava tek trećinu naučnih zadataka

Šta meri LifeSciBench

Sedam tokova rada i sedam oblasti

Rezultati: i najbolji model pada na većini zadataka

Gde modeli najviše greše

AI hemičar koji je popravio reakciju

Zašto je ovo važno

Često postavljana pitanja

Šta je LifeSciBench?

Koji je model bio najbolji?

Da li to znači da AI može sam da vodi naučna istraživanja?

Šta je AI hemičar koji je predstavljen uz merilo?

Možda vas zanima

Altmanov predlog da ChatGPT vodi porodicni raspored izazvao buru...

OpenAI SynthID žigom obeležava AI glas dan pred pravila EU

OpenAI besplatno daje ChatGPT za 100.000 naucnika sirom sveta

Budi u toku sa AI revolucijom