AI · 15 dk

LLM'i ürüne yerleştirmenin sessiz maliyetleri

Enes Yıldız·21 Mar 2026

Token fiyatı bir gösterge, gerçek maliyet değil. Üretimde LLM çalıştırırken ölçmediğiniz altı maddeyle başlayın.

P95 ve kuyruk

Bir LLM çağrısı P50'de hızlı, P95'te dramatik biçimde yavaş olabilir. Kuyruk uzadıkça front-end'in "düşünüyor" mesajı, kullanıcının güvenini tüketir.

Retrieval kalitesi

Yanlış parçalama (chunking), tekrarlı içerik ve embed güncellenmediği için biriken yanlış cevaplar; tüm bunlar modelin değil, çevresinin sorunudur.

Gözlemlenebilirlik

Token'lar dışında üç şeyi loglayın: prompt sürümü, retrieval bağlamı boyutu ve son adımda kullanıcı geri-bildirimi. Bu üçü olmadan iyileştirme ölçemezsiniz.

LLM'i ürüne yerleştirmenin sessiz maliyetleri

P95 ve kuyruk

Retrieval kalitesi

Gözlemlenebilirlik

Other posts

Taking AI agents to production: from pilot to scale

Core Web Vitals 2026: actually fixing INP

Next.js 16 and Server Components: what really changed