AI Sözlüğü
Orta· ~2 dk okuma#benchmark#evaluation#mmlu

Benchmark

Standart Değerlendirme

Modelleri tek bir ölçütte karşılaştırmak için kullanılan standartlaştırılmış sınav. "Bu model şu görevde X puan aldı" diyebilmek için.

MODEL DEĞERLENDİRMELERİ — MMLU SKORU025507510087GPT-4o92Claude 4.684Gemini 2.576Llama 481DeepSeek V3MMLU, HumanEval, GSM8K — modelleri karşılaştırmak için standart sınavlar
Tanım

Bir AI modelinin "iyi olduğunu" söylemek için standart bir ölçme aracı gerekir. Benchmark, herkesin aynı sorulara cevap verip aynı kurallarla puanlandığı bir sınav. Modeller karşılaştırılabilir olur.

Yaygın benchmark'lar: - MMLU (Massive Multitask Language Understanding): 57 alanda çoktan seçmeli sorular (matematik, hukuk, tıp, vs.) - HumanEval / MBPP: kod yazma — Python fonksiyonu tamamla - GSM8K / MATH: matematik problem çözme - HellaSwag: cümle tamamlama (commonsense) - BBH (BIG-Bench Hard): 23 zor akıl yürütme görevi - GPQA: yüksek lisans seviyesi bilim soruları - SWE-bench: GitHub issue'larından gerçek bug fix - Chatbot Arena (LMSys): insan karşılaştırma yarışması (en güvenilir, çünkü manipüle edilemez)

Yeni modeller bu listenin sonuçlarını yarıştırır. "GPT-5 MMLU'da %92" sözü "şu kadar zeki" demenin standart yolu.

Benzetme

Üniversite kabul sınavı gibi. SAT, YKS, GRE — herkes aynı soruyu çözer, puan listelenebilir. Adayları karşılaştırmanın tek nesnel yolu standart sınav. Benchmark'lar AI dünyasının SAT'ı.

Gerçek dünyadan örnek

DeepSeek V3 (2024 sonu) yayınlandığında benchmark sonuçları: - MMLU: 88.5 (GPT-4o 88.7 — neredeyse aynı) - GSM8K: 89.3 (matematik) - HumanEval: 82.6 (kod) - AlignBench: en yüksek (Çince hizalama)

Ama: Chatbot Arena'da insan oylamasında daha düşük çıktı. Çünkü benchmark'larda iyi olmak ≠ kullanıcının tatmin olduğu cevap üretmek. Pratik kullanımda Claude/GPT daha doğal hissettiriyor.

Benchmark'lar bir başlangıç noktası — production seçimi için kendi eval setinde test etmek şart.

Ne zaman kullan
  • Model seçerken ön eleme yapmak
  • Yeni modelin yeteneklerini tanımak (MMLU 50 → 90 büyük fark)
  • Domain-specific bench yapmak (kendi şirket görevlerin için)
  • Fine-tune sonrası karşılaştırma — base vs tuned
Ne zaman kullanma
  • Sadece benchmark'a göre model seçmek — production farklı davranır
  • Kullanıcı memnuniyetini benchmark ile ölçmek (subjektif)
  • Eski benchmark'lara güvenmek (model eğitim verisinde olabilir → contamination)
Sık yapılan hatalar

Benchmark contamination (eğitim verisinde test soruları)

MMLU 2020'de yayınlandı, GPT-4 web verisiyle eğitildi → test soruları muhtemelen eğitim verisinde. Yapay yüksek puan. Yeni benchmark'lar (GPQA) çıkıyor; gold standard değişiyor.

Tek metriğe odaklanma

Bir model MMLU'da 92, ama production'da kullanıcı reddediyor. MMLU iyi olmak yararlı/zararsız/dürüst olmak demek değil. Multi-dimensional eval şart.

Sentetik vs gerçek görev farkı

Çoktan seçmeli sınav gerçek dünyayı yansıtmaz. SWE-bench (gerçek GitHub issue), Chatbot Arena (insan kıyaslama) daha güvenilir ama daha zor ölçülür.