Prompt Metrikleri ve A/B Testi ile Performans Ölçümü

Bir promptu “iyileştirdim” demek kolay; gerçekten iyileştirdiğinizi kanıtlamak ise ölçüm disiplini ister. Üretken yapay zeka sistemlerinde küçük bir prompt değişikliği; doğruluğu, kullanıcı memnuniyetini, maliyeti ve hata türlerini aynı anda etkileyebilir. Bu nedenle etkili prompt optimizasyonu, yalnızca yaratıcı düzenleme değil; ölçüm, deney tasarımı ve sürüm yönetimi işidir.

Bu rehberde; prompt metrikleri seçimini, otomatik değerlendirme ile insan değerlendirmesini nasıl birlikte kullanacağınızı, A/B testi kurgusunu ve üretimde ölçeklenebilir iyileştirme döngüsünü adım adım ele alacağız. Yaklaşımın omurgası, üretim senaryolarını temsil eden test vakalarıyla değerlendirme fikrini anlatan OpenAI rehberi ile otomatik metriklerin sınırlılıklarına dair akademik bulguları birlikte dikkate almaktır (bkz. OpenAI Evaluation best practices; EMNLP/ACL Findings).

1) Ölçmeye başlamadan: “Başarı” ne demek?

Önce hedefi netleştirin; çünkü doğru metrik, görev türüne bağlıdır. Örneğin “daha iyi” şu anlama gelebilir:

Doğruluk: Bilgi sorularında doğru yanıta ulaşma.
Faydalılık: Kullanıcıya uygulanabilir adımlar verme, soruyu gerçekten çözme.
Tutarlılık: Aynı girdiye benzer kalitede çıktı üretme.
Biçim uyumu: JSON/markdown gibi istenen formatta yanıt üretme (özellikle entegrasyonlarda kritiktir).
Maliyet ve gecikme: Daha kısa yanıtlar, daha düşük token kullanımı veya daha hızlı yanıt süreleri.

Pratik öneri: Tek bir “genel kalite” puanı yerine, 2–4 ana metrik seçin (ör. doğruluk + biçim uyumu + maliyet) ve her prompt değişikliğini bu metriklerle kıyaslayın. Üretim kullanımını temsil eden test vakalarıyla ölçmeyi ve ölçütleri önceden tanımlamayı vurgulayan rehber için: OpenAI Evaluation best practices.

OpenAI Evaluation best practices ve Prompt engineering best practices (PDF) bu planlama adımını “önce ölç, sonra değiştir” yaklaşımının temeli olarak ele alır.

2) Metrik aileleri: Hızlı tarama mı, karar verme mi?

Metrikleri iki katmanlı düşünmek işinizi kolaylaştırır:

Katman A (hızlı tarama): Ucuz ve otomatik metrikler ile çok sayıda örneği hızlıca elersiniz.
Katman B (karar verme): İnsan değerlendirmesi ve/veya iyi kalibre edilmiş bir hakem model ile nihai kalite kararını verirsiniz.

Akademik bulgular, otomatik değerlendirme yöntemlerinin görev türüne göre değişen güvenilirliğe sahip olabildiğini; özellikle açık uçlu üretimde tek başına otomatik puanlara güvenmenin riskli olabileceğini vurgular. Bu nedenle otomatik ölçümü, insan örneklemesiyle periyodik doğrulama ile birlikte tasarlamak daha güvenlidir (bkz. How Reliable Are Automatic Evaluation Methods).

2.1 Otomatik metrikler: Ne zaman işe yarar?

Aşağıdaki metrikler, doğru bağlamda kullanıldığında çok değerlidir; ancak yanlış bağlamda yanıltıcı sonuç verebilir.

Metrik/ yaklaşım	Ne ölçer?	Güçlü yön	Dikkat edilmesi gereken
Biçim doğrulama (schema/regex)	Çıktı formatının kurallara uyumu	Net, deterministik, hızlı	“Doğru içerik” yerine “doğru format”ı ölçer
Görev-özel doğruluk (ör. doğru seçenek)	Kapalı uçlu doğruluk	Karar vermeye daha uygun	Test seti temsil edici değilse yanıltır
N-gram tabanlı (BLEU/ROUGE gibi)	Referans metne yüzey benzerliği	Özet/çeviri gibi bazı görevlerde tarama	Açık uçlu yanıtlarda semantiği kaçırabilir
Anlamsal benzerlik (BERTScore/embedding)	Anlam düzeyi yakınlık	Parafrazları daha iyi yakalayabilir	“Doğru gerekçe” veya “gerçeklik” garanti etmez
Perplexity	Dil modelinin olasılık uyumu	Dil akıcılığına dair sinyal sağlayabilir	Kalite/faydalılık ile her zaman doğrudan örtüşmeyebilir

Otomatik metriklerin insan değerlendirmesiyle korelasyonunun görevden göreve değişebileceğine dair arka plan için: EMNLP/ACL Findings.

2.2 İnsan değerlendirmesi: Altın standart, ama ölçek sorunu var

İnsan değerlendirmesi; “yardımcı mı, doğru mu, net mi, güven veriyor mu?” gibi nüansları yakalar. Ancak pahalıdır ve tutarlılık sorunları yaşayabilir. Bu yüzden süreç tasarımı önemlidir:

Rubrik yazın: 1–5 puan yerine, “şu koşullarda geçer/kalır” gibi net kriterler.
Kör değerlendirme yapın: Değerlendirici hangi prompt sürümünü gördüğünü bilmesin.
Çakışma çözümü: Anlaşmazlık durumunda ikinci değerlendirici veya kısa hakem süreci.

Test vakalarının tasarlanması ve net puanlama yönergeleriyle tutarlılığı artırmaya dair pratikler için: OpenAI Evaluation best practices.

2.3 Hakem model ile değerlendirme: Ölçeklenebilir ama kalibrasyon ister

Hakem model (judge model), üretilen yanıtları sizin yazdığınız rubriğe ve “beklenen kritik noktalar” listesine göre otomatik puanlayan ikinci bir LLM’dir. Bu yaklaşım ölçek kazandırır; ancak sonuçların güvenilir kalması için kalibrasyon ve periyodik insan kontrolü gerekir (bkz. OpenAI Evaluation best practices; otomatik ölçümlerin sınırları için EMNLP/ACL Findings).

Uygulamada güçlü bir desen şudur:

Test vakası: Girdi + bağlam + beklenen kritik noktalar.
Rubrik: “Doğruluk”, “eksiksizlik”, “biçim” gibi boyutlar.
Hakem model yönergesi: Rubriği ve referansları açıkça içerir.
Kalibrasyon: Rastgele örneklerin bir kısmını insan da puanlar; sapma izlenir (öneri için: OpenAI Evaluation best practices).

3) Sağlam bir eval seti nasıl kurulur?

Eval setiniz, gerçek kullanıcı davranışını temsil etmiyorsa en iyi metrik bile zayıf kalır. Aşağıdaki adımlar, üretim odaklı bir set oluşturmanıza yardım eder:

3.1 Kullanım senaryolarını sınıflandırın

Sık gelen istekler (top intents)
Hata üretme olasılığı yüksek uç durumlar
Politika/uyum açısından hassas istekler (kurumunuza göre)

3.2 Her sınıf için test vakası yazın

Her vaka için şu alanlar pratik olur:

Girdi (kullanıcı mesajı)
Bağlam (gerekirse bilgi tabanı pasajı, ürün politikası özeti)
Beklenen kritik noktalar (mutlaka geçmesi gereken maddeler)
Yasaklananlar (ör. uydurma kaynak ekleme gibi)
Format beklentisi (madde madde, tablo, JSON vb.)

3.3 “Altın” örnekleri dengeli kullanın

Her vaka için tek bir “mükemmel yanıt” yazmak bazen zorunlu değildir. Açık uçlu görevlerde, beklenen kritik noktalar ve rubrik daha sürdürülebilir olabilir. Bu yaklaşım, test vakası + referans-kılavuzlu puanlama fikrini anlatan rehberle uyumludur: OpenAI Evaluation best practices.

4) A/B testi: Prompt değişikliğini üretimde doğrulama

Offline eval seti hızlı yön verir. Ancak gerçek kullanıcı çeşitliliği ve etkileşim dinamikleri için, kritik prompt değişikliklerinde A/B testi çoğu zaman daha güvenilir bir doğrulamadır. Uygulama rehberleri, A/B testine hipotez ve önceden tanımlı analiz planı ile girmeyi önerir (bkz. Advanced Prompt Optimization | Field Guide to AI).

4.1 A/B testi tasarım kontrol listesi

Hipotez: “Yeni prompt, biçim hatalarını azaltacak” gibi tek cümle.
Birincil metrik: Tek bir ana başarı metriği seçin (ör. doğru format oranı).
İkincil metrikler: Maliyet, gecikme, kullanıcı geri bildirimi gibi.
Guardrail metrikler: Kötüye gidişi yakalayan sınır metrikler (ör. kritik hata oranı).
Rastgele atama: Kullanıcıları A ve B’ye adil dağıtın; aynı kullanıcı mümkünse test boyunca aynı varyantı görsün.
Süre ve örnek büyüklüğü: Test başlamadan planlayın; sonuçları sık sık kontrol edip erken karar vermek (peeking/early stopping) yanlılığa yol açabilir (rehber: Field Guide to AI).

4.2 Offline vs online: Ne zaman hangisi?

Offline eval (staging): Yeni prompt fikirlerini hızlı elemek, regresyonları yakalamak.
Online A/B (prod): Kullanıcı davranışı ve gerçek veri dağılımı belirleyici olduğunda.

Üretim değişikliklerinde değerlendirmeyi sürekli hale getirme ve sürüm bazlı takip gibi pratikler için: Prompt engineering best practices (PDF).

5) Üretimde ölçeklenebilir iyileştirme: Sürümleme, canary ve izleme

Promptlar da yazılım gibidir: sürümlenir, dağıtılır, izlenir, gerektiğinde geri alınır. Üretimde güvenli ilerlemek için aşağıdaki üçlü oldukça etkilidir:

5.1 Prompt sürümlendirme

Her prompta sürüm etiketi verin (ör. support_v12).
Prompt metnini, model adını, sıcaklık gibi parametreleri ve bağlam kaynaklarını birlikte “bir sürüm” olarak kaydedin.
Her sürüm değişikliğini bir değişiklik günlüğü ile belgeleyin: amaç, beklenen etki, risk.

Sürümleme ve performans takibine dair pratik çerçeve: Prompt engineering best practices (PDF).

5.2 Canary / rolling dağıtım

Yeni promptu bir anda herkese açmak yerine, küçük bir kullanıcı diliminde test edip kademeli yaymak sorunları erken yakalamanıza yardım eder. Üretimde doğrulama ve kademeli yayılım yaklaşımına dair pratik rehber: Field Guide to AI.

5.3 İzleme panoları ve alarmlar

İzleme sadece “ortalama puan” değildir. Aşağıdaki sinyaller, prompt değişikliklerinin yan etkilerini yakalamada faydalıdır:

Hata türleri: biçim hatası, eksik adım, yanlış araç kullanımı gibi kategoriler
Uzunluk ve maliyet: token kullanımı eğilimleri
Gecikme: p95 gibi uç değerler (ortalama tek başına yetmeyebilir)
Şikayet/geri bildirim sinyalleri: kullanıcı değerlendirmesi veya destek eskalasyonları

Üretime yakın test vakalarıyla sürekli değerlendirme fikri için: OpenAI Evaluation best practices.

6) Uçtan uca örnek iş akışı (pratik)

Diyelim ki bir “ürün destek asistanı” için prompt geliştiriyorsunuz. Hedef: daha doğru ve daha formatlı (madde madde) yanıt.

Adım adım

Hedef metrikleri seçin: (1) biçim uyumu, (2) doğruluk kontrol listesi geçiş oranı, (3) ortalama token.
Eval seti oluşturun: En sık 30–50 destek konusu + uç durumlar (sayısı ekibinize göre değişir; önemli olan temsil gücü).
Rubrik yazın: “Yanıt şu 3 kritik noktayı içeriyorsa geçer” gibi.
Offline değerlendirme: Eski ve yeni promptu aynı vakalarda koşturun; farkları raporlayın.
Hakem model ekleyin: Rubriğe göre otomatik puanlayın; rastgele örneklerin bir kısmını insan da kontrol etsin (kalibrasyon önerisi: OpenAI Evaluation best practices).
A/B testi planlayın: Birincil metrik + guardrail metrikler + süre/analiz planı (pratik rehber: Field Guide to AI).
Canary yayılım: Önce küçük dilim; sorun yoksa kademeli artırın (bkz. Field Guide to AI).
Geri besleme döngüsü: Hata örneklerini etiketleyin, eval setine yeni vaka olarak ekleyin.

7) Sık yapılan hatalar (ve güvenli alternatifler)

Tek metriğe kilitlenmek: Alternatif: 1 birincil + 2–3 ikincil/guardrail metrik.
Test setini güncellememek: Alternatif: Yeni hata türlerini düzenli olarak eval setine eklemek.
Hakem model sonuçlarını sorgusuz kabul etmek: Alternatif: İnsan örneklemesiyle periyodik kalibrasyon (bkz. OpenAI Evaluation best practices).
Sürüm kaydı tutmamak: Alternatif: Prompt değişiklik günlüğü + geri alma planı (bkz. Prompt engineering best practices PDF).

Otomatik değerlendirme yöntemlerinin güvenilirliğinin görevden göreve değişebileceğine dair arka plan için: EMNLP/ACL Findings.

8) Hızlı “yayına hazır” kontrol listesi

Prompt sürümü etiketlendi ve değişiklik günlüğü yazıldı.
Temsil edici eval setinde regresyon yok.
Biçim doğrulama ve kritik guardrail metrikleri yeşil.
Hakem model rubriği açık; insan örneklemesiyle kalibrasyon yapıldı (bkz. OpenAI Evaluation best practices).
A/B testi hipotezi, birincil metrik ve analiz planı testten önce sabitlendi (bkz. Field Guide to AI).
Canary/rolling dağıtım ve geri alma adımı hazır (bkz. Field Guide to AI).
İzleme panosu ve alarm eşikleri tanımlandı.

Bu listeyi kendi ürün risklerinize göre genişletin. Ama temel fikir değişmez: ölçmeden optimize etmeyin; tek kanala güvenmeyin; sürümleyin ve izleyin.

Prompt Performansını Ölçme: Metrikler, A/B Testleri ve Ölçeklenebilir İyileştirm