Diffusion Model
Difüzyon Modeli
Saf gürültüden başlayıp adım adım temizleyerek görsel (veya ses, video) üreten model ailesi. Modern görsel üretiminin omurgasıdır.
Diffusion model iki yönlü bir süreç öğrenir: bir görseli kademe kademe gürültüyle bozma (forward), sonra gürültüden başlayıp aynı adımları geriye sararak temizleyip görsel üretme (reverse). Üretim sırasında modeli sadece reverse fazda kullanırız.
Tipik akış: rastgele Gaussian gürültü → model 30-50 adımda gürültüyü azaltır → her adım önceki adımdan biraz daha "anlamlı" → son adımda temiz görsel.
Latent diffusion (Stable Diffusion'ın kullandığı): diffusion'ı piksel uzayında değil, daha küçük bir gizli (latent) uzayda yap. 10-50x daha hızlı, donanım dostu. Stable Diffusion, DALL·E 3, Midjourney, Flux, Imagen — hepsi diffusion mimarisini kullanır.
Sadece görsel değil: video (Sora, Runway), ses (AudioLDM), 3D model, protein yapısı — diffusion her yere yayıldı.
Mermerin içinden heykeli çıkarmak gibi. Önce büyük bir kaba blok var (gürültü). Heykeltıraş adım adım fazlalıkları yontup şekli açığa çıkarır. Diffusion modeli de "hangi pikseller gürültü, hangileri son görselin parçası" ayrımını adım adım öğrenmiş.
Midjourney'e "yağmurlu İstanbul sokağında bir kedi, gece, fotorealistik" yazıyorsun. Olan biten: 1. Bir CLIP-benzeri text encoder, prompt'u embedding'e çevirir. 2. 1024x1024 boyutunda saf Gaussian gürültü matrisi oluşturulur. 3. Diffusion modeli bu gürültüye 30 adımda yön verir; her adım prompt embedding'iyle conditional çalışır. 4. Adım 1: hâlâ bulanık ama bir form belirmeye başlar. 5. Adım 15: ana kompozisyon görünür (kedi + sokak). 6. Adım 30: detaylar (yağmur damlaları, ışık yansımaları) tamamlanır. 7. Final görsel ~10 saniyede hazır.
Bu mantık 2020'den önce yoktu — DDPM (2020) ve sonra Stable Diffusion (2022) sahneyi değiştirdi.
- Görsel üretimi — text-to-image, image-to-image, inpainting
- Video üretimi (Sora, Runway, Pika) — yine diffusion temelli
- Ses/müzik üretimi — AudioLDM, Stable Audio
- Bilimsel modelleme — protein katlanma, moleküler tasarım
- Metin üretimi — diffusion text için zayıf, transformer (LLM) hâlâ standart
- Düşük kaynaklı ortam — diffusion 30+ forward pass = pahalı
- Real-time gerek — bir görsel ~5-30 sn, video çok daha uzun
Adım sayısı (sampling steps) yanlış
Çok az adım (5-10) = düşük kalite. Çok fazla (>100) = az iyileşme, çok zaman. Sweet spot 20-50. DPM-Solver, Euler gibi sampler'lar adım sayısını azaltır.
Telif ve kaynak veri sorunu
Eğitim verisinde telifli görsel kullanımı hukuki gri alan. Stability AI, Midjourney davalarla karşı karşıya. Production'da kaynak veriyi belgele.
Belirgin başarısızlık modları
Eller (parmak sayısı), yüzler, metin, simetri — diffusion'ın klasik zayıf yönleri. Negatif prompt ('extra fingers'), ControlNet, inpainting ile düzelt.