Demoda büyüleyen ajan, üretimde neden tökezler? Araç çağrısı, durum yönetimi ve maliyet kontrolünü sahada nasıl kurduğumuz.
Ajan tek bir prompt değildir
Bir AI ajanı; planlama, araç çağrısı ve hafıza döngüsüdür. Demoda tek bir başarılı çalıştırma yeterli görünür; üretimde ise yüzlerce farklı yolun hepsinin güvenli bitmesi gerekir. İlk kararımız hep aynı: ajana verilen araç sayısını minimumda tutmak. Az ama iyi tanımlı araç, çok ama bulanık araçtan her zaman daha güvenilirdir.
Döngüyü sınırlayın
Sonsuz döngü ve "araç savurganlığı" en pahalı iki hatadır. Her ajana sert bir adım limiti, adım başına bütçe ve net bir pes etme koşulu koyarız. Bir adım başarısız olduğunda ajanın körlemesine yeniden denemesi değil, kontrollü biçimde insana devretmesi gerekir.
Gözlemlenebilirlik şart
Üretimdeki bir ajanı; her adımın girdisi, seçtiği araç, aracın çıktısı ve toplam token maliyetiyle loglamadan yönetemezsiniz. Biz her ajan çalıştırmasını tek bir trace altında topluyoruz; böylece bir hata raporu geldiğinde tahmin değil, kayıt konuşuyor.
Değerlendirme (eval) hattı
Modeli ya da prompt’u güncellediğinizde "daha iyi mi oldu" sorusunu hisle değil sayıyla cevaplayın. Gerçek üretim örneklerinden kürate edilmiş bir eval seti olmadan her güncelleme bir kumardır. Bir ajanı ölçeğe almak, aslında onu ölçülebilir kılmaktır.