Istraživači bezbednosti kritikuju zaštite Fable modela

Kompanija Anthropic suočila se sa kritikama dela zajednice bezbednosnih istraživača svega dan nakon što je objavila Fable, javno dostupnu i namerno ograničenu verziju svog moćnog modela za sajber bezbednost poznatog kao Mythos. Istraživači tvrde da su sigurnosne zaštite ugrađene u model toliko stroge da u praksi onemogućavaju i sasvim bezopasan, odbrambeni rad.

Kako je prvi izvestio TechCrunch, model odbija veliki broj zahteva koji samo posredno dodiruju temu sajber bezbednosti. Po navodima istraživača, blokada se aktivira i kod zadataka koji nemaju nikakve veze sa napadom na tuđe sisteme, što je izazvalo talas nezadovoljstva među profesionalcima koji bi takav alat koristili za zaštitu, a ne za zloupotrebu.

Šta je Fable i zašto ima zaštite

Fable je predstavljen kao javna, ograničena varijanta modela Mythos, koji je Anthropic opisivao kao izuzetno sposoban u domenu sajber bezbednosti. Prema kompaniji, zaštite su ugrađene da bi se smanjio rizik da model bude zloupotrebljen za izradu zlonamernog softvera ili za kompromitovanje tuđih sistema, kao i za osetljive biološke teme. Reč je o bojaznima koje u Anthropicu postoje već duže vreme i koje su pratile razvoj najsnažnijih modela ove kompanije.

Kada poruka korisnika aktivira zaštitni mehanizam, Fable prekida razgovor i poručuje da su, prema navodima istraživača, sigurnosne mere označile poruku zbog tema iz sajber bezbednosti ili biologije. U tom slučaju model se vraća na Claude Opus 4.8, što znači da korisnik dobija odgovor slabije prilagođen zadatku koji je zaista tražio.

Šta zameraju istraživači

Valentina Palmioti, istraživačica iz tima IBM X-Force, navela je da Fable odbija praktično svaki zahtev koji bi mogao biti makar posredno povezan sa sajber temama, uključujući i bezazlene zadatke poput čitanja teksta sa nekog bloga. Po njenom opisu, model reaguje preventivno i na sadržaj koji nije ni u kakvoj vezi sa napadom.

Mat Suiš, osnivač firme Tolmo i poznato ime u zajednici, ukazao je na drugu vrstu problema. Prema njegovim rečima, ako se od modela zatraži da napiše bezbedan kod, on to tumači kao rad iz oblasti sajber bezbednosti, a ne kao uobičajenu praksu u razvoju softvera, pa kvalitet odgovora opada. Suiš je ocenio da sistem deluje kao da je zasnovan na ključnim rečima i pretpostavio da će Anthropic vremenom popustiti ograničenja kako bude prikupljao povratne informacije.

Pojedini istraživači, koji su govorili anonimno, naveli su da i običan zahtev za pregled koda ume da pokrene blokadu. Time se, kako tvrde, alat pretvara u prepreku upravo onim korisnicima kojima je namenjen da pomogne.

Zašto ovo pogađa odbrambeni rad

Odbrambena sajber bezbednost se u velikoj meri oslanja na razumevanje načina na koji napadi funkcionišu. Analiza zlonamernog koda, pregled ranjivosti i pisanje sigurnog softvera spadaju u svakodnevne poslove timova koji štite sisteme. Kada model po automatizmu tretira sve te aktivnosti kao potencijalno opasne, on otežava posao stručnjacima čiji je zadatak da spreče napade. To je suština zamerki koje su istraživači izneli u prvim danima nakon objavljivanja.

Odgovor kompanije i alternativni pristup

Anthropic se, prema pisanju TechCruncha, nije odmah oglasio povodom zamerki. Deo medija izvestio je da je kompanija priznala postojanje spornih zaštita i najavila njihovo doterivanje, ali ti navodi u trenutku objavljivanja ovog teksta nisu bili potvrđeni nezavisnim zvaničnim saopštenjem, pa ih treba uzeti sa rezervom.

Za proverene profesionalce Anthropic nudi poseban program pod nazivom Cyber Verification Program, koji odobrenim korisnicima omogućava pristup sa znatno manje ograničenja. Sličan pristup primenjuje i OpenAI kroz svoj program Trusted Access for Cyber, čime obe kompanije pokušavaju da razdvoje legitimne istraživače od potencijalnih zloupotreba.

Širi kontekst

Fable je od prvog dana predmet pažnje i šire javnosti i regulatora, jer otvara pitanje kako uskladiti moć modela sa rizikom od zloupotrebe. Prethodne nedelje ista porodica modela bila je u središtu rasprave o bezbednosti veštačke inteligencije, a sada se debata prenela na suprotnu stranu, na to da li su zaštite postale prestroge i da li koče korisne primene.

Suiševa pretpostavka da će ograničenja vremenom biti ublažena u skladu je sa praksom koju kompanije iz ove oblasti često primenjuju: model se objavljuje sa strogim podrazumevanim pravilima, koja se potom prilagođavaju na osnovu stvarnog ponašanja korisnika. Otvoreno pitanje ostaje koliko će vremena biti potrebno i da li će legitimni istraživači do tada potražiti druge alate.

Slučaj Fablea ilustruje i širu napetost koja prati razvoj najsposobnijih modela. Što je model bolji u pronalaženju i analizi ranjivosti, to je veći i rizik da bude zloupotrebljen, pa kompanije pribegavaju strogim podrazumevanim pravilima. Nuspojava takvog pristupa je da prvi na udaru ograničenja budu upravo dobronamerni korisnici, dok oni sa lošim namerama često imaju i druge alate na raspolaganju. Pronalaženje ravnoteže između bezbednosti i upotrebljivosti pokazuje se kao jedan od težih zadataka u ovoj oblasti.

Zašto je relevantno za region

Domaće firme koje se bave bezbednošću, kao i pojedinačni istraživači u regionu, sve više se oslanjaju na velike jezičke modele za analizu pretnji i pregled koda. Ako vodeći alati po automatizmu blokiraju takav rad, korisnici u manjim sredinama, koji ređe imaju pristup posebnim programima za proverene profesionalce, mogu biti dodatno ograničeni. Iskustvo sa Fableom pokazuje da izbor modela za bezbednosne zadatke nije samo pitanje sposobnosti, već i toga koliko model dozvoljava legitiman posao.

Često postavljana pitanja

Šta je Fable?

Fable je model kompanije Anthropic predstavljen kao javna i ograničena verzija snažnijeg modela za sajber bezbednost pod imenom Mythos. Namenjen je široj upotrebi, uz ugrađene zaštite koje treba da spreče zloupotrebu.

Zašto istraživači kritikuju zaštite?

Tvrde da su zaštite preširoke i da blokiraju i bezopasne, odbrambene zadatke, poput pregleda koda ili pisanja sigurnog softvera, čime otežavaju legitiman rad u oblasti bezbednosti.

Šta se dešava kada se aktivira zaštita?

Prema navodima istraživača, Fable prekida razgovor uz poruku da je sadržaj označen zbog sajber ili bioloških tema i vraća se na model Claude Opus 4.8.

Postoji li način da stručnjaci ipak koriste model?

Anthropic nudi Cyber Verification Program za proverene profesionalce, koji odobrenim korisnicima daje pristup sa manje ograničenja. Sličan program ima i OpenAI.

Istraživači bezbednosti kritikuju zaštite na Anthropicovom Fableu

Šta je Fable i zašto ima zaštite

Šta zameraju istraživači

Zašto ovo pogađa odbrambeni rad

Odgovor kompanije i alternativni pristup

Širi kontekst

Zašto je relevantno za region

Često postavljana pitanja

Šta je Fable?

Zašto istraživači kritikuju zaštite?

Šta se dešava kada se aktivira zaštita?

Postoji li način da stručnjaci ipak koriste model?

Možda vas zanima

HAWK povučen iz trke za postkvantni standard posle napada AI mod...

Anthropicov model Mythos pronasao slabosti u HAWK i AES sifrovan...

Nezavisni test potvrdio rekord Claude Opusa 5 na ARC-AGI-3 testu

Budi u toku sa AI revolucijom