Anthropic i rivali prave skalu za ozbiljnost AI proboja

Kompanija Anthropic saopštila je da zajedno sa Amazonom, Majkrosoftom, Guglom i još nekoliko partnera radi na prvom zajedničkom okviru za ocenjivanje ozbiljnosti proboja veštačke inteligencije. Predlog je objavljen 30. juna, istog dana kada je američka administracija ukinula izvozne kontrole nad modelima Fable 5 i Mythos 5, a dan pre nego što se Fable 5 vratio korisnicima širom sveta. Prema navodima kompanije, u industriji za sada ne postoji dogovoren način da se objektivnim rečnikom opiše koliko je opasno pojedino zaobilaženje zaštite modela.

Proboj, ili takozvani jailbreak, označava postupak kojim korisnik navede model da zaobiđe ugrađena ograničenja i uradi ono što bi inače odbio. Do sada je, kako navodi Anthropic, svaki takav slučaj u javnosti tretiran manje-više jednako, bez obzira na to da li je reč o bezazlenom triku ili o tehnici koja stvarno proširuje mogućnosti napadača. Cilj predloženog okvira jeste da se ta razlika izmeri.

Četiri merila za istu pojavu

Nacrt okvira ocenjuje svaki proboj po četiri kriterijuma. Prvi je dobitak u sposobnosti, odnosno pitanje koliko tehnika zapravo prevazilazi alate koji su napadaču ionako već dostupni. Nizak rezultat znači da zaobiđena zaštita otvara nešto što se može uraditi i drugim putem, dok visok rezultat znači da postupak ubrzava posao na nivou stručnjaka.

Drugi kriterijum je širina tog dobitka, to jest da li se ista tehnika može upotrebiti za više različitih zlonamernih zadataka ili je vezana za jedan uzak cilj. Treći je lakoća pretvaranja u oružje, koja meri koliko je ljudskog truda i veštine potrebno da bi se od proboja napravio stvarni napad. Postupak koji zahteva mnogo pokušaja i vešto sastavljanje upita dobija nizak rezultat, a onaj koji radi iz prvog ili drugog pokušaja dobija visok. Četvrti kriterijum je dostupnost, odnosno koliko je tehnika laka za pronalaženje. Ako je već široko poznata i objavljena na internetu, ocena je visoka.

Anthropic navodi da najteže ocenjeni proboji pokreću najbržu reakciju. Za takve slučajeve kompanija je najavila trenutno uvođenje privremenih mera zaštite i neprekidan nadzor kanala preko kojih istraživači prijavljuju ranjivosti. Detaljne stepenice između najblažih i najtežih ocena u objavljenom nacrtu nisu razrađene.

Poređenje sa skalom za softverske ranjivosti

Analitičari koji su pratili objavu okvir opisuju kao pokušaj da se za veštačku inteligenciju napravi nešto slično sistemu CVSS, standardu kojim se već godinama meri težina klasičnih softverskih ranjivosti. Ideja je da zajednička skala omogući istraživačima, kupcima i regulatorima da o probojima govore istim rečnikom, umesto da svaka laboratorija koristi svoje merilo. Sam Anthropicov dokument, prema dostupnim izveštajima, ne poziva se izričito na CVSS, ali je poređenje u stručnim komentarima postalo uobičajeno.

Vrednost ovakvog standarda leži u tome što bi razdvojio incidente koji zaslužuju hitnu reakciju od onih koji su tehnički zanimljivi, ali bez stvarne opasnosti. Bez zajedničke skale, kako pokazuje nedavni slučaj, isti nalaz može da izazove i potpuno povlačenje modela i ocenu da nije reč o ozbiljnoj pretnji.

Povod je bio slučaj Fable 5

Okvir je predstavljen uz povratak modela Fable 5, čija je istorija u proteklih mesec dana pokazala zašto merilo nedostaje. Fable 5 i snažniji Mythos 5 predstavljeni su 9. juna. Samo tri dana kasnije američka vlada uvela je izvozne kontrole koje su oba modela praktično povukle iz upotrebe, pošto su istraživači kompanije Amazon opisali način da se zaobiđu zaštite i navede model da prepozna softverske ranjivosti, a u jednom slučaju i da proizvede kod koji pokazuje kako se jedna od njih iskorišćava.

Anthropic je kasnije naveo da nalaz nije bio jedinstven za Fable 5, jer su i drugi modeli, uključujući Opus 4.8 i GPT-5.5, prepoznali iste ranjivosti kada su suočeni sa sličnim upitima. Kontrole su ukinute 30. juna, a već sutradan model se vratio u globalnu ponudu, ovog puta uz nov bezbednosni klasifikator koji spornu tehniku, prema tvrdnji kompanije, zaustavlja u više od 99 odsto slučajeva. Upravo taj raspon, od hitnog povlačenja do ocene da pretnja nije velika, kompanija sada nastoji da uokviri.

Šta ostaje nejasno

Predlog je za sada nacrt, a ne usvojen standard, i nekoliko važnih pitanja ostaje otvoreno. U dostupnim materijalima nije naveden nosilac izrade okvira niti javni rok za objavu konačne verzije. Nije objašnjeno ni kako će se rešavati situacije u kojima dve laboratorije isti proboj ocene različito, što je kod ovako subjektivnih merila realan rizik. Vredi naglasiti i da veći deo detalja za sada počiva na tvrdnjama kompanije, koje nezavisni izvori nisu potvrdili.

Uz povratak modela stigli su i uslovi američkog Ministarstva trgovine, koji od kompanije traže aktivan bezbednosni nadzor i obavezno prijavljivanje pokušaja zloupotrebe. Anthropic je saopštio da su istraživači Centra za standarde i inovacije u veštačkoj inteligenciji, tela pri istom ministarstvu, testirali stare i nove zaštite. Zajednički okvir, ako ga prihvate i ostale laboratorije, mogao bi da bude tačka u kojoj se dobrovoljni dogovor industrije i državni zahtevi za nadzorom sretnu.

Zašto je to važno i za korisnike u regionu

Za programere u regionu koji Claude, ChatGPT ili slične modele koriste kroz alate poput Claude Code, način na koji se meri ozbiljnost proboja nije apstraktno pitanje. Od te procene zavisi koliko brzo i koliko široko neki model biva povučen ili ograničen, kao što je pokazao tronedeljni prekid dostupnosti modela Fable 5. Jasnija skala bi u teoriji značila ređe nagle prekide zbog nalaza koji se naknadno pokažu kao manje ozbiljni, mada će stvarni efekat zavisiti od toga koliko laboratorija zaista prihvati zajednički jezik.

Često postavljana pitanja

Šta je proboj, odnosno jailbreak AI modela?

To je postupak kojim korisnik posebno sastavljenim upitima navede model da zaobiđe ugrađena ograničenja i uradi nešto što bi inače odbio, na primer da pomogne u prepoznavanju ili iskorišćavanju softverskih ranjivosti.

Ko učestvuje u izradi okvira?

Anthropic navodi da na okviru radi zajedno sa Amazonom, Majkrosoftom, Guglom i drugim partnerima. Reč je o predlogu koji tek treba da bude usvojen kao zajednički industrijski standard.

Da li je okvir već na snazi?

Nije. U pitanju je nacrt sa četiri merila za ocenu ozbiljnosti proboja. Konačna verzija, nosilac izrade i rok za objavu za sada nisu poznati.

Kakve veze okvir ima sa povratkom modela Fable 5?

Anthropic je okvir predstavio istog dana kada su ukinute izvozne kontrole nad modelom Fable 5. Upravo je slučaj tog modela, koji je zbog jednog nalaza bio povučen na skoro tri nedelje, pokazao da industriji nedostaje zajednička mera za ozbiljnost ovakvih incidenata.

Anthropic sa Amazonom, Majkrosoftom i Guglom pravi zajedničku skalu za ozbiljnost proboja AI modela

Četiri merila za istu pojavu

Poređenje sa skalom za softverske ranjivosti

Povod je bio slučaj Fable 5

Šta ostaje nejasno

Zašto je to važno i za korisnike u regionu

Često postavljana pitanja

Šta je proboj, odnosno jailbreak AI modela?

Ko učestvuje u izradi okvira?

Da li je okvir već na snazi?

Kakve veze okvir ima sa povratkom modela Fable 5?

Možda vas zanima

Vašington ukinuo izvozne kontrole za Anthropicove modele Mythos...

Anthropic predstavio Claude Science, radni sto za naučnike koji...

Gemini personalizovane slike postaju besplatne za korisnike u SA...

Budi u toku sa AI revolucijom