Prompt Başarımını Değerlendirme: KPI, Skor ve Analiz Şablonu

Prompt mühendisliği, yapay zekâ modellerinden amaçlanan davranışı almak için kritik bir süreçtir; iyi tanımlanmış metrik ve izleme olmadan gelişim zorlaşır. Bu rehber, ölçülebilir KPI'lar tanımlamak, bir "prompt skoru" hesaplama yaklaşımı oluşturmak ve uygulamaya hazır bir analiz şablonu sunmak için pratik adımlar içerir. Kavramlar ve bazı uygulama önerileri kaynaklarla desteklenmiştir.

Neden KPI'lara İhtiyaç Var?

Prompt'ların performansı göreve, veri dağılımına ve kullanıcı beklentisine göre değişir. Bu nedenle net KPI'lar (anahtar performans göstergeleri) belirlemek, hangi prompt değişikliklerinin işe yaradığını ve hangi risklerin ortaya çıktığını nesnel olarak göstermek için şarttır. Platform ve üretim ortamı gereksinimlerine göre ölçüm periyodu ve sahiplik de açıkça tanımlanmalıdır. Azure Databricks gibi ortamlarda özel değerlendiriciler ile izleme ve otomasyon kurmak mümkündür; bu tür yaklaşımlar, üretim telâşında rutin kontroller yapmayı kolaylaştırır (Microsoft Learn — Özel komut değerlendiricileri).

Hangi KPI'lar Ölçülmeli? (Önem ve Ölçüm Önerileri)

Aşağıdaki KPI'lar birçok görev için başlangıç noktası sağlar. Her birinin nasıl ölçüleceğine dair kısa öneriler verilmiştir.

Doğruluk (Accuracy): Görev-özgü doğruluk ölçütleri (sınıflandırma için doğruluk/precision/recall; bilgi çıkarımı için doğruluk) kullanın. Otomatik skorlar ile insan doğrulamasını kombinleyin.
İlgililik (Relevance): Model çıktısının verilen isteğe ne kadar uygun olduğunu ölçer. İnsan değerlendirmesi ve semantik benzerlik metrikleri birlikte değerlendirilebilir.
Tutarlılık (Consistency): Aynı veya benzer girdilerde tutarlı cevaplar verip vermediğini test edin; varyans analizi yapılabilir.
Format Uyumu (Format Conformance): İstenen yapı/şablona uyum (JSON, bullet list, başlık vs.). Regex kontrolleri ve örneklem insan incelemesiyle doğrulanabilir.
Güvenlik & Zararlı İçerik (Safety): Yanıtlarda zararlı, yanıltıcı veya uygunsuz içerik bulunup bulunmadığını ölçün. Otomatik filtre + insan denetimi kombinasyonu önerilir.
Okunabilirlik/Fluency: Dil akıcılığı, gramer ve okunabilirlik skorları (ör. dil modeli tabanlı kalite skorları veya insan puanlaması).
Hız / Gecikme (Latency): Kullanıcı deneyimi için kritikse, yanıt sürelerini ölçün ve SLA hedefleri belirleyin.

Prompt Skoru: Pratik Hesaplama Yaklaşımı

Genel prensip: birden fazla KPI'yı normalize edip ağırlıklandırarak tek bir "prompt skoru" oluşturabilirsiniz. Bu skor, farklı prompt versiyonlarını kıyaslamada hızlı bir özet sağlar. Aşağıda örnek bir adım dizisi verilmiştir.

KPI'ları seçin ve normalleştirin: Her metrik için 0–1 aralığına normalize edilmiş bir değer kullanın (örnek: yüzdeyi bölerek).
Ağırlıklandırma: İş hedeflerine göre her KPI'ya ağırlık atayın (örnek: doğruluk %40, ilgililik %30, hız %10, güvenlik %20). Bu bir örnektir; kendi risk/önceliklerinize göre ayarlayın.
Skor hesaplama: Toplam skor = (∑ weight_i × normalized_metric_i) / (∑ weight_i). Bu, ağırlıklı ortalama sonucu verir.
Eşikler ve uyarılar: Skor ve bireysel KPI'lar için eşikler belirleyin; kritik KPI'larda düşüş gözlemlendiğinde uyarı oluşturun.

Bu yaklaşım, otomatik değerlendirme (ör. semantik benzerlik, yapı doğrulaması) ile periyodik insan incelemesini birleştirir; böylece hem nicel hem nitel sinyaller toplanır.

Analiz Şablonu (Örnek Tablo)

KPI	Tanım	Ölçüm Yöntemi	Sıklık	Hedef / Eşik
Doğruluk	Görev-uyumlu doğru yanıt oranı	Otomatik skor + aylık insan örneklemesi	Günlük/Haftalık	Örnek hedef: %90 doğruluk
İlgililik	Cevabın isteğe uygunluğu	Semantik benzerlik ölçütü + insan puanlama	Haftalık	Minimum 0.8 (normalize)
Format Uyumu	İstenen çıktı formatına uyum	Regex / şema doğrulama	Gerçek zamanlı	%98 uyum
Güvenlik	Zararlı veya uygunsuz içerik oranı	Filter logları + insan incelemesi	Günlük	Hedef: sıfıra yakın ihlal

Değerlendirme Süreci: Uygulama Adımları

Görev ve kabul kriterlerini netleştirin: Hangi çıktı kabul edilecek, hangi durumlar reddedilecek açık olmalı.
Test veri seti oluşturun: Gerçek kullanıcı verisi veya temsili senaryolar içeren bir örneklem hazırlayın.
Otomatik değerlendirme hattı kurun: Format, semantik eşleşme ve hız gibi otomatik kontrolleri devreye alın.
İnsan değerlendirmesi planlayın: Periyodik örnekleme ile niteliksel kontroller yapın; aynı puanlama rehberini (rubric) kullanın.
Skorlama ve raporlama: Ağırlıklı skor hesaplayın, trend grafikleri oluşturun ve düzenli rapor gönderin.
İyileştirme döngüsü: Sorunlu prompt veya örnekleri belirleyip revize edin; A/B testleri yapın.

Otomasyon ve Özel Değerlendiriciler

Üretimde sürekli izleme için platform destekleri önemlidir. Örneğin Azure Databricks, "prompt-based judge" benzeri yapıların entegrasyonunu ve otomatik değerlendirme hatlarını destekleyerek izlemeyi kolaylaştırır. Bu tür özel değerlendiriciler, otomatik kurallar ve insan geri bildirimini birleştirmede faydalıdır (Microsoft Learn kaynağı).

PEEM: Prompt ve Yanıtların Ortak Değerlendirilmesi

Akademik çalışmalarda, prompt ve model yanıtlarını birlikte ve yorumlanabilir şekilde değerlendiren yöntemler önerilmektedir. PEEM (Prompt Engineering Evaluation Metrics) gibi yaklaşımlar, çok eksenli ve yapılandırılmış değerlendirmeler sunar; örneğin PEEM'in 9 eksende yapılandırıldığı rapor edilmiştir. Bu tür yöntemler, hem prompt tasarımını hem de çıktı kalitesini paralel değerlendirmek için yararlı olabilir (arXiv — PEEM).

Not: PEEM gibi akademik çerçeveler uygulamada güçlü içgörüler sağlar, ancak daha fazla pratik vaka çalışması ve uygulama örneği, yöntemlerin üretim koşullarında nasıl çalıştığını göstermek için faydalı olacaktır.

Raporlama ve İzleme Önerileri

Bir gösterge tablosu (dashboard) üzerinde hem toplam prompt skorunu hem de bireysel KPI'ları gösterin.
Trend izleme—haftalık ve aylık eğilimleri raporlayın; ani düşüşler için uyarı kuralları belirleyin.
Her değişiklikte A/B veya canary testleri uygulayarak etkileri ölçün.
İnsan denetimi sonuçlarını izleyin ve etik/güvenlik bulgularını ayrı bir logda tutun.

Örnek Vaka (Örnek Uygulama)

Örneğin bir özetleme görevinde prompt değişiklikleri test ediyorsunuz. Aşamalar:

50–200 örnekten oluşan test seti oluşturun (örnek sayısı gereksinime göre artar).
Aynı set üzerinde eski ve yeni prompt'u çalıştırın.
Otomatik metrikler: ROUGE/BERTScore benzeri semantik skor ve format uyumu kontrolleri çalıştırın.
Rastgele seçilen 30 örneği insan değerlendiricilere vererek anlamlılık, eksiksizlik ve zararlı içerik açısından puanlayın.
Ağırlıklı skorları hesaplayıp karar verin; eğer yeni prompt toplam skoru ve güvenlik metriklerini iyileştirdiyse, aşamalı geçiş başlatın.

Bu örnek, nasıl birleştirilmiş ölçüm ve insan incelemesi yapılabileceğini gösterir; değerleri ve eşikleri kendi iş hedeflerinize göre ayarlayın.

Sınırlamalar ve İyi Uygulamalar

KPI seti göreve göre değişir—tek bir standart her senaryo için uygun olmayabilir.
Otomatik metrikler her zaman insan algısını tam yansıtmayabilir; bu yüzden periyodik insan doğrulaması gereklidir.
Güvenlik metriklerini ayrı ve öncelikli tutun; potansiyel zararlı çıktılar için düşük tolerans uygulanmalıdır.
Anahtar paydaşları (ürün, etik, güvenlik, MLOps) değerlendirme tasarımına dahil edin.

Hızlı Kontrol Listesi

KPI'lar tanımlandı ve sahipleri atandı mı?
Test veri seti temsili ve güncel mi?
Otomatik hatlar ve insan inceleme kombinasyonu kuruldu mu?
Skorlama yöntemi (ağırlıklar ve eşikler) belgelenmiş mi?
Raporlama ve uyarı mekanizmaları hazır mı?

Kaynaklar ve İleri Okuma

Prompt mühendisliğinin temelleri ve iyi uygulamalar için kaynaklar:

Bu rehber, hem günlük uygulamalara hem de uzun vadeli izlemeye yönelik pratik adımlar sunuyor. Başlangıç için küçük, iyi tanımlanmış KPI setleriyle başlayıp zaman içinde genişletmeniz genellikle en güvenli yaklaşımdır.