World Model
Dünya Modeli — İçsel Simülatör
Modelin başının içinde gerçek dünyanın bir simülasyonunu kurması — eylem-sonuç ilişkilerini, fiziği, nesnelerin hareketini öngörebilmesi.
Klasik bir model "girdi → çıktı" mantığıyla çalışır. World model bir adım daha ileri gider: modelin başının içinde dünyanın bir simülasyonu vardır — fiziği, nedenselliği, zamansal dinamikleri içeren içsel bir model.
Pratik açıdan: bir top atılırsa nereye düşeceğini, kapı açılırsa arkasında ne olduğunu, agent bir butona basarsa ne olacağını öngörebilen bir AI. Dilin ötesinde, gerçek dünyada akıl yürütme yeteneği.
Önde gelen örnekler (2024-2025): - OpenAI Sora: text-to-video, ama tek başına video üreteci değil; altında bir world model var (objelerin tutarlılığı, fizik kuralları) - Google Genie 2: tek görselden interaktif 3D oyun dünyası üretir - DeepMind DreamerV3: oyun ortamlarında world model kurarak reinforcement learning yapar - NVIDIA Cosmos: robotik için fiziksel world model platformu - Wayve / Tesla FSD: self-driving için içsel dünya simülasyonu
World model, AGI yolundaki kritik mihenk taşlarından biri olarak görülüyor. "Gerçek anlamda anlamak" için dünyayı simüle edebilmek şart.
Bir satranç ustasının kafasında "şu hamleyi yaparsam, rakip muhtemelen şunu yapar, sonra ben şunu, sonra…" diye bir simülasyon vardır. World model bu prensibi gerçek dünyaya uygular: "kapıyı açarsam, ne göreceğim? yağmur yağarsa zemin nasıl olur? topu fırlatırsam yörünge nasıl?"
OpenAI Sora (2024): "Tokyo'da yağmurlu bir gece, kadın yansımalı sokakta yürüyor" prompt'u verdiğinde Sora 60 saniyelik video üretir. Önemli olan video kalitesi değil — kadının üst kıyafeti her saniyede aynı kalır, yansıma ışığa göre değişir, su damlaları yere çarptığında sıçrar. Bu bir physics engine değil — modelin öğrendiği içsel dünya simülasyonu.
Google Genie 2 (2024 sonu): kullanıcı bir görsel verir, Genie o görselin "fiziksel olarak nasıl bir 3D oyun olabileceğini" simüle edip oynanabilir bir ortam üretir. Tarihte ilk kez tek görselden saatlerce tutarlı interaktif simülasyon mümkün oldu.
Tesla FSD: trafikte hareket etmeden önce "5 saniye sonra ne olacak?" tahminini yapan içsel world model. Bu olmadan defansif sürüş yapamaz.
- Video üretimi (tutarlı objeler, fizik) — Sora, Runway, Veo
- Robot eğitimi — fiziksel deneyim öncesi simülasyon
- Otonom araçlar — gelecek tahmini şart
- Oyun üretimi (Genie tarzı procedural)
- RL (reinforcement learning) ortamları
- Bugünkü pratik AI ürünü tasarlarken — henüz API'leri olgun değil
- Tek-frame görsel üretim (diffusion yeter)
- Saf metin görevleri
- Kısıtlı bütçe — world model'ler eğitimi devasa pahalı
Halüsinasyonlu fizik
World model fiziği 'öğrenir' ama mükemmel modellemez. Sora videolarında bazen objeler kendiliğinden yok olur, eller deforme olur. Fizik motoru değil, istatistiksel yaklaşım.
AGI yolundaki abartılı vaatler
World model = AGI değil. Önemli adım ama tek başına yetmiyor. Sektör bu terimi pazarlama amacıyla genişletip kullanıyor — eleştirel oku.
Compute katlanır maliyetli
Sora gibi modelleri eğitmek 100M$+. Inference de pahalı (saniyeler süren video saniye saniye render edilir). Tüketici-seviye world model'ler henüz çok uzakta.