Benchmark — Nedir? · AI Sözlüğü

Tanım

Bir AI modelinin "iyi olduğunu" söylemek için standart bir ölçme aracı gerekir. Benchmark, herkesin aynı sorulara cevap verip aynı kurallarla puanlandığı bir sınav. Modeller karşılaştırılabilir olur.

Yaygın benchmark'lar: - MMLU (Massive Multitask Language Understanding): 57 alanda çoktan seçmeli sorular (matematik, hukuk, tıp, vs.) - HumanEval / MBPP: kod yazma — Python fonksiyonu tamamla - GSM8K / MATH: matematik problem çözme - HellaSwag: cümle tamamlama (commonsense) - BBH (BIG-Bench Hard): 23 zor akıl yürütme görevi - GPQA: yüksek lisans seviyesi bilim soruları - SWE-bench: GitHub issue'larından gerçek bug fix - Chatbot Arena (LMSys): insan karşılaştırma yarışması (en güvenilir, çünkü manipüle edilemez)

Yeni modeller bu listenin sonuçlarını yarıştırır. "GPT-5 MMLU'da %92" sözü "şu kadar zeki" demenin standart yolu.

Benzetme

Üniversite kabul sınavı gibi. SAT, YKS, GRE — herkes aynı soruyu çözer, puan listelenebilir. Adayları karşılaştırmanın tek nesnel yolu standart sınav. Benchmark'lar AI dünyasının SAT'ı.

Gerçek dünyadan örnek

DeepSeek V3 (2024 sonu) yayınlandığında benchmark sonuçları: - MMLU: 88.5 (GPT-4o 88.7 — neredeyse aynı) - GSM8K: 89.3 (matematik) - HumanEval: 82.6 (kod) - AlignBench: en yüksek (Çince hizalama)

Ama: Chatbot Arena'da insan oylamasında daha düşük çıktı. Çünkü benchmark'larda iyi olmak ≠ kullanıcının tatmin olduğu cevap üretmek. Pratik kullanımda Claude/GPT daha doğal hissettiriyor.

Benchmark'lar bir başlangıç noktası — production seçimi için kendi eval setinde test etmek şart.

Ne zaman kullan

Model seçerken ön eleme yapmak
Yeni modelin yeteneklerini tanımak (MMLU 50 → 90 büyük fark)
Domain-specific bench yapmak (kendi şirket görevlerin için)
Fine-tune sonrası karşılaştırma — base vs tuned

Ne zaman kullanma

Sadece benchmark'a göre model seçmek — production farklı davranır
Kullanıcı memnuniyetini benchmark ile ölçmek (subjektif)
Eski benchmark'lara güvenmek (model eğitim verisinde olabilir → contamination)

Sık yapılan hatalar

Benchmark contamination (eğitim verisinde test soruları)

MMLU 2020'de yayınlandı, GPT-4 web verisiyle eğitildi → test soruları muhtemelen eğitim verisinde. Yapay yüksek puan. Yeni benchmark'lar (GPQA) çıkıyor; gold standard değişiyor.

Tek metriğe odaklanma

Bir model MMLU'da 92, ama production'da kullanıcı reddediyor. MMLU iyi olmak yararlı/zararsız/dürüst olmak demek değil. Multi-dimensional eval şart.

Sentetik vs gerçek görev farkı

Çoktan seçmeli sınav gerçek dünyayı yansıtmaz. SWE-bench (gerçek GitHub issue), Chatbot Arena (insan kıyaslama) daha güvenilir ama daha zor ölçülür.