Knowledge Distillation
Bilgi Damıtma
Büyük bir 'öğretmen' modelin çıktılarını kullanarak daha küçük bir 'öğrenci' modeli eğitme tekniği. Öğrenci, öğretmenin yeteneğinin büyük kısmını çok daha az parametre ile yakalar.
Knowledge distillation (bilgi damıtma), Hinton ve ekibinin 2015'te önerdiği bir model sıkıştırma yöntemidir. Mantığı basit: büyük bir teacher model'in sadece nihai cevaplarını değil, olasılık dağılımını (soft labels) küçük bir student model'e öğret.
Klasik fine-tune'da etiket "köpek" (hard label) verilir. Distillation'da "%87 köpek, %8 kurt, %3 tilki, %2 diğer" (soft label) verilir. Bu "soft" bilgi öğrenciye sadece doğru cevabı değil, modelin nüansını da öğretir — sınıflar arası ilişkileri yakalar.
Sonuç: 175B parametreli teacher'ın bilgisini 7B student'a sığdır. Doğruluk kaybı: %5-10. Ama hız 25×, maliyet 30× düşer. DistilBERT, TinyLlama, Phi serisi — hepsi distillation ürünü.
Bir doktorun yıllık deneyimini yeni mezuna aktarması gibi. Yeni mezuna sadece "tanı koyabilir/koyamaz" demek yetmez — uzman doktorun "bu hastada %70 X, %20 Y, %10 Z düşünüyorum" demesi öğretici. Bu nüans öğrencinin sezgisini hızla geliştirir.
OpenAI'ın GPT-4o-mini modeli, GPT-4o'nun distill edilmiş hali olduğu düşünülüyor (resmi olarak doğrulanmadı). Sonuç: GPT-4o benchmark'larının %85-90'ında, 25× ucuz, 5× hızlı. Bu yüzden yüksek hacimli production sistemlerin çoğunda kullanılıyor.
DeepSeek R1-Distill-Llama-70B: DeepSeek R1 reasoning model'in çıktılarıyla Llama-70B fine-tune edildi. Sonuç: pure Llama-70B'ye göre matematik/kod görevlerinde belirgin üstün, R1'den çok daha küçük ve ucuz. Açık ağırlıklarla yayınlandı.
Anthropic'in Claude Haiku modeli de Sonnet/Opus'tan distillation ürünü olabilir.
- Production'da büyük model maliyetli — daha küçük distill kullan
- Latency kritik — küçük model çok daha hızlı
- Edge deployment — distill modeli telefon/tarayıcıda çalıştır
- Açık model yayınlamak istiyorsan — kapalı büyük modelden distill et (legal sorun varsa dikkat)
- Teacher'a erişimin yoksa (API arkasındaki kapalı model) — distill için çıktı toplamak zor/maliyetli
- Görevler çeşitli ve uzun-kuyruklu — student spesifik bir alanda iyi olur, genel zayıflık olabilir
- Hassas akıl yürütme şart (matematik olimpiyadı vb.) — student'ın yetenek tavanı teacher'dan düşük
Telif ve sözleşme ihlali
OpenAI ToS'sı, GPT çıktılarını kullanarak rakip model eğitmeyi yasaklıyor. Distillation amacıyla ChatGPT cevabı toplamak hukuki risk. Açık ağırlıklı modeller (Llama, Mistral) güvenli.
Soft label kalitesi
Teacher'ın yanlış olduğu yerleri student da öğrenir. Teacher'ın eval kalitesi student'ın tavanı. Düşük kaliteli teacher → kötü student.
Distribution mismatch
Teacher'ı domain-X verisi üzerinde değerlendirirken student'ı domain-Y'de kullanmak — performans düşer. Distill edildiği veri ile production verisi benzer olmalı.