Knowledge Distillation — Nedir?

Tanım

Knowledge distillation (bilgi damıtma), Hinton ve ekibinin 2015'te önerdiği bir model sıkıştırma yöntemidir. Mantığı basit: büyük bir teacher model'in sadece nihai cevaplarını değil, olasılık dağılımını (soft labels) küçük bir student model'e öğret.

Klasik fine-tune'da etiket "köpek" (hard label) verilir. Distillation'da "%87 köpek, %8 kurt, %3 tilki, %2 diğer" (soft label) verilir. Bu "soft" bilgi öğrenciye sadece doğru cevabı değil, modelin nüansını da öğretir — sınıflar arası ilişkileri yakalar.

Sonuç: 175B parametreli teacher'ın bilgisini 7B student'a sığdır. Doğruluk kaybı: %5-10. Ama hız 25×, maliyet 30× düşer. DistilBERT, TinyLlama, Phi serisi — hepsi distillation ürünü.

Benzetme

Bir doktorun yıllık deneyimini yeni mezuna aktarması gibi. Yeni mezuna sadece "tanı koyabilir/koyamaz" demek yetmez — uzman doktorun "bu hastada %70 X, %20 Y, %10 Z düşünüyorum" demesi öğretici. Bu nüans öğrencinin sezgisini hızla geliştirir.

Gerçek dünyadan örnek

OpenAI'ın GPT-4o-mini modeli, GPT-4o'nun distill edilmiş hali olduğu düşünülüyor (resmi olarak doğrulanmadı). Sonuç: GPT-4o benchmark'larının %85-90'ında, 25× ucuz, 5× hızlı. Bu yüzden yüksek hacimli production sistemlerin çoğunda kullanılıyor.

DeepSeek R1-Distill-Llama-70B: DeepSeek R1 reasoning model'in çıktılarıyla Llama-70B fine-tune edildi. Sonuç: pure Llama-70B'ye göre matematik/kod görevlerinde belirgin üstün, R1'den çok daha küçük ve ucuz. Açık ağırlıklarla yayınlandı.

Anthropic'in Claude Haiku modeli de Sonnet/Opus'tan distillation ürünü olabilir.

Ne zaman kullan

Production'da büyük model maliyetli — daha küçük distill kullan
Latency kritik — küçük model çok daha hızlı
Edge deployment — distill modeli telefon/tarayıcıda çalıştır
Açık model yayınlamak istiyorsan — kapalı büyük modelden distill et (legal sorun varsa dikkat)

Ne zaman kullanma

Teacher'a erişimin yoksa (API arkasındaki kapalı model) — distill için çıktı toplamak zor/maliyetli
Görevler çeşitli ve uzun-kuyruklu — student spesifik bir alanda iyi olur, genel zayıflık olabilir
Hassas akıl yürütme şart (matematik olimpiyadı vb.) — student'ın yetenek tavanı teacher'dan düşük

Sık yapılan hatalar

Telif ve sözleşme ihlali

OpenAI ToS'sı, GPT çıktılarını kullanarak rakip model eğitmeyi yasaklıyor. Distillation amacıyla ChatGPT cevabı toplamak hukuki risk. Açık ağırlıklı modeller (Llama, Mistral) güvenli.

Soft label kalitesi

Teacher'ın yanlış olduğu yerleri student da öğrenir. Teacher'ın eval kalitesi student'ın tavanı. Düşük kaliteli teacher → kötü student.

Distribution mismatch

Teacher'ı domain-X verisi üzerinde değerlendirirken student'ı domain-Y'de kullanmak — performans düşer. Distill edildiği veri ile production verisi benzer olmalı.