Token fiyatı bir gösterge, gerçek maliyet değil. Üretimde LLM çalıştırırken ölçmediğiniz altı maddeyle başlayın.
P95 ve kuyruk
Bir LLM çağrısı P50'de hızlı, P95'te dramatik biçimde yavaş olabilir. Kuyruk uzadıkça front-end'in "düşünüyor" mesajı, kullanıcının güvenini tüketir.
Retrieval kalitesi
Yanlış parçalama (chunking), tekrarlı içerik ve embed güncellenmediği için biriken yanlış cevaplar; tüm bunlar modelin değil, çevresinin sorunudur.
Gözlemlenebilirlik
Token'lar dışında üç şeyi loglayın: prompt sürümü, retrieval bağlamı boyutu ve son adımda kullanıcı geri-bildirimi. Bu üçü olmadan iyileştirme ölçemezsiniz.