AI · 15 dk

LLM'i ürüne yerleştirmenin sessiz maliyetleri

LLM'i ürüne yerleştirmenin sessiz maliyetleri

Token fiyatı bir gösterge, gerçek maliyet değil. Üretimde LLM çalıştırırken ölçmediğiniz altı maddeyle başlayın.

P95 ve kuyruk

Bir LLM çağrısı P50'de hızlı, P95'te dramatik biçimde yavaş olabilir. Kuyruk uzadıkça front-end'in "düşünüyor" mesajı, kullanıcının güvenini tüketir.

Retrieval kalitesi

Yanlış parçalama (chunking), tekrarlı içerik ve embed güncellenmediği için biriken yanlış cevaplar; tüm bunlar modelin değil, çevresinin sorunudur.

Gözlemlenebilirlik

Token'lar dışında üç şeyi loglayın: prompt sürümü, retrieval bağlamı boyutu ve son adımda kullanıcı geri-bildirimi. Bu üçü olmadan iyileştirme ölçemezsiniz.

Share
LinkedIn·X·
More

Other posts