Mixture of Experts
MoE — Uzman Karışımı
Bir model değil, birçok küçük 'uzman' alt-model. Her sorgu için sadece birkaçı aktif olur — hem büyük hem hızlı.
Klasik bir Transformer'da her token tüm parametrelerden geçer. MoE (Mixture of Experts) farklı çalışır: model birçok küçük "uzman" (expert) alt-ağdan oluşur ve bir kapı ağı (gating network) her token için hangi uzmanların aktif olacağına karar verir.
Sonuç: dev kapasiteli ama az aktif hesap yapan modeller. Mesela Mixtral 8x7B modelinde 8 uzman var, toplamda 47B parametre. Ama her token için sadece 2 uzman aktiftir → her hesapta ~13B parametre çalışır. 47B'lik kalitede 13B'lik hız.
DeepSeek V3 (671B toplam, 37B aktif), GPT-4'ün kabul edilen yapısı, Llama 4 — modern büyük modellerin çoğu MoE.
Bir hastane düşün. Her hasta için tüm doktorlar aynı anda muayene etmiyor — triyaj (kapı ağı) sadece ilgili branş uzmanlarını çağırıyor. Hastanede 50 doktor olabilir; bir hasta için sadece 2 tanesi yeterli. Hem geniş kapasite, hem verimli kullanım.
Mixtral 8x7B'i çalıştırıyorsun. Kullanıcı "fizz buzz programı yaz" diyor. Token'lar modele girdiğinde: - "fizz" → kapı ağı: kod uzmanı + matematik uzmanı aktif olsun. - "buzz" → kapı ağı: aynı ikili uygun. - " " (space) → kapı ağı: dilbilgisi uzmanı + format uzmanı.
Her token kendi "uzman çiftine" yönlendirilir. Toplamda 47B'lik kalitede çıktı, ama tek seferde 13B'lik hesap = 13B model hızı. DeepSeek V3 bu mantığı 256 uzmana çıkardı — toplam 671B, aktif 37B.
- Çok büyük model gerekiyor ama latency önemli (akıllı bir uzlaşı)
- Çoklu görevde uzmanlaşma — bir uzman matematik, biri kod, biri çeviri
- Inference maliyetini düşürmek — aktif parametre sayısı az = ucuz
- Küçük model işini görüyorsa — MoE altyapısı karmaşıktır
- Tek tip görev için — uzman çeşitliliğinden faydalanmazsın
- VRAM bütçen sıkıysa — toplam parametre yüklenmek zorunda, sadece hesabın az
Tek bir uzman tüm yükü çeker (expert collapse)
Eğitim sırasında kapı ağı, kullandıkça aynı 1-2 uzmana yükü atmaya başlayabilir. Diğerleri körelir. Load balancing loss şart.
VRAM = aktif parametre değil
Mixtral 8x7B sanılanın aksine 13 GB değil ~90 GB VRAM ister (47B parametre yüklü olmalı). Aktif sayısı sadece hesap yükünü düşürür.
Distillation ve fine-tune zor
MoE'yi yoğun (dense) bir modele indirgemek (distill) tek baz model'i tune etmekten daha karmaşıktır. Ekosistem henüz olgun değil.