
Bir promptu “iyi” yapan şey çoğu zaman göz kararıyla anlaşılır; fakat üretime yaklaşınca bu yaklaşım hızla yetersiz kalır. Küçük bir prompt değişikliği, bir görevde başarıyı artırırken başka bir görevde hataları tetikleyebilir. Bu yüzden prompt başarısını ölçmek, tek seferlik bir kontrol değil; tekrarlanabilir KPI’lar, otomatik değerlendirme ve düzenli insan denetimi ile kurulan bir süreçtir.
Bu yazıda, genel kitle için anlaşılır ama uygulamaya dönük bir çerçeve sunacağız: görev-özgü KPI seti nasıl tanımlanır, otomatik değerlendirme nasıl kurulur, “model as judge” (LLM-yargıç) nerede işe yarar, nerede dikkat ister ve human-in-the-loop döngüsü nasıl tasarlanır. Referans olarak OpenAI Evaluation Best Practices kılavuzunu, OpenAI Evals (GitHub) deposunu ve iki arXiv ön baskısını (hakem değerlendirmesi süreci devam ediyor olabilir) kullanıyoruz.
Prompt engineering’de “başarı” çoğunlukla birden fazla hedefin aynı anda karşılanmasıdır. Örneğin:
Bu nedenle KPI’ları tek bir “kalite skoru”na indirgemek yerine, iş hedefinize göre ağırlıklandırılmış bir KPI sepeti tasarlamak daha sağlıklıdır. OpenAI Evaluation Best Practices, ölçümü “görev-özgü” kurmayı ve değerlendirmeyi iteratif geliştirmeyi vurgular: önce neyi ölçmek istediğinizi netleştirir, sonra ölçümü otomasyonla ölçeklersiniz.
İlk adım basit ama kritik: Promptunuzun çözdüğü görevi 2–5 maddeyle açıklayın ve “başarılı çıktı”nın şartlarını yazın.
Bu tanım, hem otomatik kontrollerin (format doğrulama, şema uyumu gibi) hem de insan değerlendirmesinin ortak referansı olur.
Aşağıdaki tablo, pratikte en sık kullanılan KPI sınıflarını ve nasıl ölçülebileceklerini özetler. Bazıları tamamen otomatik ölçülebilirken, bazıları örnekleme ve insan puanlamasıyla daha güvenilir olur.
| KPI kategorisi | Ne ölçer? | Otomasyon örneği | Dikkat edilmesi gereken |
|---|---|---|---|
| Görev başarısı / doğruluk | İstenen işi doğru yapma | Exact match, beklenen alanlar, hesap sonucu, çalıştırılabilir test | Tek metrik her alt görevi kapsamayabilir |
| Talimata uyum | Format/ton/kapsama uyma | JSON şema doğrulama, regex kontrolleri, kural tabanlı denetim | Kurallar gerçek kaliteyi tek başına temsil etmez |
| Tutarlılık | Benzer girdilerde benzer çıktı | Aynı örneği tekrar çalıştırıp fark analizi | Model stokastiktir; tolerans tanımlayın |
| Temelsiz ekleme riski | Verilmeyen bilgiyi kesin gibi sunma | LLM-yargıç rubriği + seçilmiş insan kontrolü | LLM-yargıçlar duyarlı olabilir; kalibrasyon ister |
| Gecikme | Yanıt süresi | Loglardan p50/p95 takibi | Model/altyapı değişiklikleri sonucu etkiler |
| Maliyet | İstek başı maliyet, token kullanımı | Token/çağrı metrikleri, bütçe alarmı | Kalite-maliyet dengesi hedefe göre değişir |
Not: KPI adları ve metrikler kullanım senaryosuna göre değişir. Önemli olan, her KPI’ın nasıl ölçüleceğini ve hangi kararları tetikleyeceğini önceden tanımlamaktır.
Üretime yakın bir değerlendirme için, tekrar tekrar çalıştıracağınız bir test seti gerekir:
OpenAI Evaluation Best Practices, değerlendirmeyi görev-özgü tasarlamayı ve yinelemeli olarak geliştirmeyi önerir.
Pratikte en sağlam kurgu, otomasyonu üç katmanda düşünmektir: (1) kural/kod tabanlı testler, (2) LLM-yargıç değerlendirmeleri, (3) insan örneklemesiyle doğrulama.
Bunlar “unit test” mantığıyla çalışır ve regresyon yakalamada çok etkilidir:
Bu yaklaşım, otomatik testlerin üretim öncesi regresyonları yakalamada etkili olduğu fikriyle uyumludur; ancak gerçek hayatta veri dağılımı değişebilir ve bu yüzden periyodik insan örneklemesi genellikle gereklidir. Bu denge, OpenAI Evals gibi çerçevelerde pratik bir şekilde uygulanabilir.
Her şeyi kural ile ölçemezsiniz. Örneğin “yanıt faydalı mı?”, “gerekçelendirme sağlam mı?”, “talimatı gerçekten takip ediyor mu?” gibi boyutlar için LLM-yargıç, ölçeklenebilir bir seçenek sunar. OpenAI Evaluation Best Practices, rubrik tanımları ve değerlendirme tasarımı konusunda pratik öneriler içerir.
Yine de önemli bir sınırlılık var: LLM-yargıç sonuçları, kullandığınız rubriğe, örneklere ve model seçimine duyarlı olabilir. Bu konuda, örneğin PLHF (arXiv ön baskı) prompt optimizasyonunda az sayıda insan geri bildiriminin (few-shot) nasıl kullanılabildiğini tartışır. Ön baskı olduğu için sonuçları üretim geneli için kesin kabul etmek yerine, şu tür temkinli çıkarımlar yapmak daha güvenlidir:
Uygulanabilir önlemler:
Güvenilir bir üretim hattı çoğu zaman hibrittir:
Örneğin CoTAL (arXiv ön baskı), insanın sürece dahil olduğu değerlendirme/puanlama senaryolarında, insan incelemesini daha “bilgi değeri yüksek” örneklere yönlendiren (ör. belirsiz veya sınırda kalan örnekler) yaklaşımları ele alır. Ön baskı olduğu için genelleme yapmadan, şu iki pratik ders çıkarılabilir:
OpenAI Evals, prompt ve model davranışını farklı değerlendirme türleriyle test etmek için açık kaynak bir çerçeve sunar. Depoda, model-graded değerlendirmeler ve programatik testlere benzer şablonlar bulunur. Bu tip bir araç, özellikle şu ihtiyaçlarda işe yarar:
Başlangıç için pratik bir yol haritası:
Aşağıdaki örnek, “özetleme” görevi için tek bir test vakasının nasıl tanımlanabileceğini kavramsal olarak gösterir (amaç, format + kalite KPI’larını aynı pakette düşünmektir):
Test vakası (1 satır)
- Girdi: “Aşağıdaki metni 6 maddeyle özetle ve 3 aksiyon öner.” + (metin)
- Beklenen format/şema (programatik kontrol): Çıktı JSON olmalı ve alanlar şu şekilde olmalı:
- summary_points: tam 6 madde (liste)
- actions: tam 3 madde (liste)
- LLM-yargıç rubriği (1 madde): “Kapsam: Özet, metindeki ana fikri ve en az 4 kritik noktayı içeriyor mu?” (Geçti/Kaldı)
- Geçme eşiği (örnek): Şema uyumu %100 + “Kapsam” rubriğinde %90+ test vakasında Geçti
Bu yaklaşım, format gibi deterministik kontrollerle (hızlı regresyon yakalama) daha öznel kalite boyutlarını (rubrikle) aynı çatı altında izlemeyi kolaylaştırır.
OpenAI Evaluation Best Practices, değerlendirmeyi iteratif iyileştirmeyi, metrikleri görevle hizalamayı ve sonuçları üretim kararlarıyla bağlamayı önerir.
Değerlendirme yalnızca skor üretmemeli; iyileştirme için teşhis üretmelidir. Bunun için çıktıları hata türlerine ayırmak çok işe yarar:
Bu sınıflandırmayı hem insan etiketleyiciye hem LLM-yargıca aynı terimlerle uygularsanız, “hangi prompt değişikliği hangi hata türünü etkiledi?” sorusuna daha hızlı yanıt alırsınız.
Otomasyonun sınırlı kaldığı yerde insan denetimi devreye girer. Human-in-the-loop tasarlarken amaç, her çıktıyı tek tek incelemek değil; en yüksek riski ve en yüksek öğrenme değerini yakalayacak şekilde örneklemektir.
PLHF (arXiv ön baskı) gibi çalışmalar, az sayıda insan geri bildirimi örneğinin optimizasyon sürecini yönlendirmede nasıl kullanılabileceğini tartışır. Ön baskı niteliği nedeniyle, bunu “kanıtlanmış üretim standardı” gibi değil; kurum içi pilotla test edilebilecek bir yaklaşım olarak ele almak daha güvenlidir.
Promptunuzu “yayına almak”, ölçümün bittiği değil başladığı yerdir. Kullanıcı davranışı değişebilir, girdiler çeşitlenebilir, model sürümleri güncellenebilir. Bu yüzden:
OpenAI Evals, bu regresyon yaklaşımını sistematik hale getirmeyi kolaylaştırabilir.
Diyelim ki bir blog yazısını 6 maddelik özet ve 3 aksiyon önerisine dönüştüren bir promptunuz var. Basit bir KPI seti şöyle olabilir:
Bu senaryoda “tek skor” yerine, örneğin önce şema uyumunu %100’e yaklaştırmak (kolay ve otomatik), sonra kapsam ve temelsiz ekleme riskini human-in-the-loop ile kademeli azaltmak genellikle daha verimli olur.
Değerlendirmeyi tasarlarken, ölçümün tek seferlik değil iteratif bir süreç olduğunu hatırlayın. OpenAI Evaluation Best Practices bu iteratif yaklaşımı ve görev-özgü metrik tasarımını özellikle vurgular.
Prompt başarısını ölçmek; KPI’ları görev hedefiyle hizalamak, otomatik değerlendirmeyi (kod tabanlı + LLM-yargıç) doğru yerde kullanmak ve human-in-the-loop ile güvenilirliği korumakla mümkün olur. Açık kaynak araçlar (ör. OpenAI Evals) bu süreci sistematikleştirir; ancak özellikle LLM-yargıç yaklaşımlarında kurum içi pilot ve insan doğrulaması, üretim kalitesi için belirleyicidir.
Not: Bu içerik genel bilgilendirme amaçlıdır. Hassas alanlarda (ör. sağlık, finans, hukuki yönlendirme) üretim öncesi kapsamlı risk değerlendirmesi ve kurumunuzun politika/uyum gereklilikleriyle birlikte ilerlemek gerekir.
Yorumlar