Diffusion Model — Nedir? · AI Sözlüğü

Tanım

Diffusion model iki yönlü bir süreç öğrenir: bir görseli kademe kademe gürültüyle bozma (forward), sonra gürültüden başlayıp aynı adımları geriye sararak temizleyip görsel üretme (reverse). Üretim sırasında modeli sadece reverse fazda kullanırız.

Tipik akış: rastgele Gaussian gürültü → model 30-50 adımda gürültüyü azaltır → her adım önceki adımdan biraz daha "anlamlı" → son adımda temiz görsel.

Latent diffusion (Stable Diffusion'ın kullandığı): diffusion'ı piksel uzayında değil, daha küçük bir gizli (latent) uzayda yap. 10-50x daha hızlı, donanım dostu. Stable Diffusion, DALL·E 3, Midjourney, Flux, Imagen — hepsi diffusion mimarisini kullanır.

Sadece görsel değil: video (Sora, Runway), ses (AudioLDM), 3D model, protein yapısı — diffusion her yere yayıldı.

Benzetme

Mermerin içinden heykeli çıkarmak gibi. Önce büyük bir kaba blok var (gürültü). Heykeltıraş adım adım fazlalıkları yontup şekli açığa çıkarır. Diffusion modeli de "hangi pikseller gürültü, hangileri son görselin parçası" ayrımını adım adım öğrenmiş.

Gerçek dünyadan örnek

Midjourney'e "yağmurlu İstanbul sokağında bir kedi, gece, fotorealistik" yazıyorsun. Olan biten: 1. Bir CLIP-benzeri text encoder, prompt'u embedding'e çevirir. 2. 1024x1024 boyutunda saf Gaussian gürültü matrisi oluşturulur. 3. Diffusion modeli bu gürültüye 30 adımda yön verir; her adım prompt embedding'iyle conditional çalışır. 4. Adım 1: hâlâ bulanık ama bir form belirmeye başlar. 5. Adım 15: ana kompozisyon görünür (kedi + sokak). 6. Adım 30: detaylar (yağmur damlaları, ışık yansımaları) tamamlanır. 7. Final görsel ~10 saniyede hazır.

Bu mantık 2020'den önce yoktu — DDPM (2020) ve sonra Stable Diffusion (2022) sahneyi değiştirdi.

Ne zaman kullan

Görsel üretimi — text-to-image, image-to-image, inpainting
Video üretimi (Sora, Runway, Pika) — yine diffusion temelli
Ses/müzik üretimi — AudioLDM, Stable Audio
Bilimsel modelleme — protein katlanma, moleküler tasarım

Ne zaman kullanma

Metin üretimi — diffusion text için zayıf, transformer (LLM) hâlâ standart
Düşük kaynaklı ortam — diffusion 30+ forward pass = pahalı
Real-time gerek — bir görsel ~5-30 sn, video çok daha uzun

Sık yapılan hatalar

Adım sayısı (sampling steps) yanlış

Çok az adım (5-10) = düşük kalite. Çok fazla (>100) = az iyileşme, çok zaman. Sweet spot 20-50. DPM-Solver, Euler gibi sampler'lar adım sayısını azaltır.

Telif ve kaynak veri sorunu

Eğitim verisinde telifli görsel kullanımı hukuki gri alan. Stability AI, Midjourney davalarla karşı karşıya. Production'da kaynak veriyi belgele.

Belirgin başarısızlık modları

Eller (parmak sayısı), yüzler, metin, simetri — diffusion'ın klasik zayıf yönleri. Negatif prompt ('extra fingers'), ControlNet, inpainting ile düzelt.