Mixture of Experts — Nedir?

Tanım

Klasik bir Transformer'da her token tüm parametrelerden geçer. MoE (Mixture of Experts) farklı çalışır: model birçok küçük "uzman" (expert) alt-ağdan oluşur ve bir kapı ağı (gating network) her token için hangi uzmanların aktif olacağına karar verir.

Sonuç: dev kapasiteli ama az aktif hesap yapan modeller. Mesela Mixtral 8x7B modelinde 8 uzman var, toplamda 47B parametre. Ama her token için sadece 2 uzman aktiftir → her hesapta ~13B parametre çalışır. 47B'lik kalitede 13B'lik hız.

DeepSeek V3 (671B toplam, 37B aktif), GPT-4'ün kabul edilen yapısı, Llama 4 — modern büyük modellerin çoğu MoE.

Benzetme

Bir hastane düşün. Her hasta için tüm doktorlar aynı anda muayene etmiyor — triyaj (kapı ağı) sadece ilgili branş uzmanlarını çağırıyor. Hastanede 50 doktor olabilir; bir hasta için sadece 2 tanesi yeterli. Hem geniş kapasite, hem verimli kullanım.

Gerçek dünyadan örnek

Mixtral 8x7B'i çalıştırıyorsun. Kullanıcı "fizz buzz programı yaz" diyor. Token'lar modele girdiğinde: - "fizz" → kapı ağı: kod uzmanı + matematik uzmanı aktif olsun. - "buzz" → kapı ağı: aynı ikili uygun. - " " (space) → kapı ağı: dilbilgisi uzmanı + format uzmanı.

Her token kendi "uzman çiftine" yönlendirilir. Toplamda 47B'lik kalitede çıktı, ama tek seferde 13B'lik hesap = 13B model hızı. DeepSeek V3 bu mantığı 256 uzmana çıkardı — toplam 671B, aktif 37B.

Ne zaman kullan

Çok büyük model gerekiyor ama latency önemli (akıllı bir uzlaşı)
Çoklu görevde uzmanlaşma — bir uzman matematik, biri kod, biri çeviri
Inference maliyetini düşürmek — aktif parametre sayısı az = ucuz

Ne zaman kullanma

Küçük model işini görüyorsa — MoE altyapısı karmaşıktır
Tek tip görev için — uzman çeşitliliğinden faydalanmazsın
VRAM bütçen sıkıysa — toplam parametre yüklenmek zorunda, sadece hesabın az

Sık yapılan hatalar

Tek bir uzman tüm yükü çeker (expert collapse)

Eğitim sırasında kapı ağı, kullandıkça aynı 1-2 uzmana yükü atmaya başlayabilir. Diğerleri körelir. Load balancing loss şart.

VRAM = aktif parametre değil

Mixtral 8x7B sanılanın aksine 13 GB değil ~90 GB VRAM ister (47B parametre yüklü olmalı). Aktif sayısı sadece hesap yükünü düşürür.

Distillation ve fine-tune zor

MoE'yi yoğun (dense) bir modele indirgemek (distill) tek baz model'i tune etmekten daha karmaşıktır. Ekosistem henüz olgun değil.