Troškovi AI agenata: kako kontrolisati račun za tokene

Dugo se o veštačkoj inteligenciji pričalo kao o nečemu što je praktično besplatno. Probni nalozi, velikodušni besplatni paketi i agresivno snižene cene stvorili su utisak da tokeni ne koštaju ništa. Ta faza se završava. Veliki provajderi — OpenAI, Anthropic, Google — pripremaju se za izlazak na berzu i listanje, a to neizbežno znači jedno: cene rastu, a popusti nestaju. U industriji se već uveliko priča o onome što neki zovu „tokenpokalipsom". Za firme koje su agente uvele u svakodnevni rad, račun počinje da stiže — i ume da bude neprijatno visok.

Razlika u odnosu na klasične softverske troškove je suštinska. Kod pretplatničkog softvera plaćate fiksnu cenu po korisniku. Kod AI agenata plaćate po obavljenom poslu — tačnije, po obrađenom tokenu. Što agent više „razmišlja", poziva alate i čita dokumente, to više košta. A upravo agentski pristup, koji čini AI moćnim, istovremeno je i ono što troškove čini nepredvidivim.

Zašto agenti troše neuporedivo više od običnog četa

Kada postavite pitanje u običnom četu, model jednom pročita vaš upit i jednom odgovori. AI agent radi drugačije. On problem razbija na korake, poziva spoljne alate, čita rezultate, pa ponovo razmišlja — i tako u krug, dok ne završi zadatak. Svaki taj ciklus je nov poziv modelu, a svaki poziv ponovo šalje ceo dosadašnji kontekst.

Praktičan primer: agent koji treba da obradi reklamaciju kupca možda će u jednom zadatku napraviti deset ili petnaest poziva modelu — da pročita mejl, proveri istoriju porudžbina, formuliše odgovor, proveri ton, generiše interni izveštaj. Ono što korisniku izgleda kao jedna radnja, iza kulisa je čitava serija naplativih operacija. Ako uz to koristite napredne modele sa „razmišljanjem" (reasoning), broj utrošenih tokena lako se udvostručuje ili utrostručuje.

Skriveni multiplikatori troška

Nekoliko stvari naročito naduvava račun, a lako se previde:

Ponavljanje konteksta. Pri svakom koraku agent ponovo šalje istoriju razgovora. Što je razgovor duži, svaki sledeći korak je skuplji.
Predugi sistemski prompt. Ako u svaki poziv ubacujete ogromna uputstva i primere, plaćate ih iznova i iznova.
Petlje koje se ne zaustavljaju. Agent koji „zaglavi" pokušavajući da reši nerešiv zadatak ume da napravi desetine poziva pre nego što odustane.
Preterano moćan model za jednostavan posao. Korišćenje najskupljeg modela za zadatke koje bi obavio i mali, jeftin model je čist gubitak.

Šta ovo konkretno znači za firme u regionu

Za kompanije u Srbiji i regionu situacija ima dodatnu dimenziju. Troškovi tokena se naplaćuju u dolarima, pa kurs direktno utiče na mesečni račun. Budžet planiran na početku godine ume da naraste samo zbog promene kursa, bez ijednog dodatnog poziva modelu.

Uz to, mnoge domaće firme su AI uvele kroz pilot-projekte na kojima je potrošnja bila zanemarljiva. Problem nastaje pri skaliranju: ono što je na deset internih korisnika koštalo nekoliko desetina evra mesečno, na hiljadu krajnjih korisnika postaje ozbiljna stavka u budžetu. Računica koja je delovala odlično u testu ne mora da važi u produkciji.

Dobra vest je da region ovde ima i prednost. Cene rada i dalje su niže nego na Zapadu, pa ulaganje u inženjera koji će optimizovati potrošnju tokena često se isplati brže nego u skupljim tržištima. Drugim rečima, optimizacija je ovde posebno isplativa.

Praktične mere za kontrolu troškova

Razgovor u industriji se, kako primećuju i sami praktičari, pomerio sa „idemo što brže" na „treba nam kontrola, kako da ovo obuzdamo". Evo konkretnih koraka koji realno smanjuju račun.

1. Pravi model za pravi zadatak

Ne treba svaki zadatak da rešava najskuplji model. Klasifikaciju, kratke odgovore i jednostavne radnje prepustite manjim i jeftinijim modelima, a vrhunski model rezervišite za složeno rezonovanje. Ova jedna mera ume da prepolovi račun bez vidljivog pada kvaliteta.

2. Keširanje konteksta

Veliki provajderi nude keširanje (prompt caching) — delovi prompta koji se ponavljaju naplaćuju se znatno jeftinije ako su keširani. Za agente sa stabilnim, dugim sistemskim uputstvima ovo donosi velike uštede.

3. Ograničenja i alarmi na potrošnju

Postavite tvrde limite po korisniku, po sesiji i po danu. Definišite maksimalan broj koraka koje agent sme da napravi pre nego što preda zadatak čoveku. Uvedite alarme koji vas obaveštavaju kada potrošnja pređe očekivani prag — pre nego što stigne račun, a ne posle.

4. Merenje pre optimizacije

Ne možete da kontrolišete ono što ne merite. Beležite koliko tokena troši svaki tip zadatka i svaki agent. Tek kada vidite gde odlazi novac, možete da optimizujete ono što zaista pravi razliku, umesto da nagađate.

5. Skraćivanje i sažimanje konteksta

Umesto da agentu pri svakom koraku šaljete celu istoriju, sažmite stariji deo razgovora. Tehnike poput sažimanja konteksta i pametnog izbora samo relevantnih dokumenata drastično smanjuju broj tokena bez gubitka kvaliteta odgovora.

Trošak nije razlog da se odustane

Poenta nije da su AI agenti preskupi da bi se koristili — naprotiv. Poenta je da ih treba tretirati kao svaki drugi operativni trošak: meriti, planirati i optimizovati. Firme koje na vreme uspostave disciplinu oko potrošnje tokena imaće ogromnu prednost kada cene dodatno porastu. One koje to ignorišu rizikuju da ih iznenadi račun koji obesmisli celu računicu.

„Tokenpokalipsa" nije kraj jeftinog AI-ja — to je kraj nepromišljenog AI-ja. A za firme koje znaju da broje, to je zapravo dobra vest.

Često postavljana pitanja

Šta je token i zašto se po njemu naplaćuje?

Token je osnovna jedinica teksta koju model obrađuje — otprilike komad reči ili par karaktera. Provajderi naplaćuju i tokene koje pošaljete (ulaz) i tokene koje model generiše (izlaz). Pošto agent u jednom zadatku napravi više poziva i pri svakom šalje kontekst, broj tokena, a time i trošak, brzo raste.

Koliko realno može da košta jedan AI agent mesečno?

Raspon je ogroman i zavisi od broja korisnika, složenosti zadataka i izabranog modela. Interni alat za nekoliko zaposlenih može da košta desetine evra, dok agent koji opslužuje hiljade krajnjih korisnika lako prelazi u stotine ili hiljade evra mesečno. Zato je merenje pre skaliranja ključno.

Da li je jeftiniji model uvek lošiji izbor?

Ne. Za veliki deo zadataka — klasifikaciju, kratke odgovore, izvlačenje podataka — manji modeli rade sasvim dovoljno dobro uz višestruko nižu cenu. Greška je koristiti najskuplji model za sve. Pametna kombinacija modela po složenosti zadatka donosi najbolji odnos cene i kvaliteta.

Kako da počnemo da kontrolišemo troškove ako tek uvodimo AI?

Krenite od merenja i tvrdih limita. Postavite dnevne i mesečne granice potrošnje, beležite koliko troši svaki tip zadatka i uključite keširanje konteksta. Tek kada vidite stvarne brojeve iz produkcije, optimizujte izbor modela i dužinu promptova tamo gde to najviše vredi.

Račun za tokene stiže: kako da AI agenti ne pojedu budžet