World Model — Nedir?

Tanım

Klasik bir model "girdi → çıktı" mantığıyla çalışır. World model bir adım daha ileri gider: modelin başının içinde dünyanın bir simülasyonu vardır — fiziği, nedenselliği, zamansal dinamikleri içeren içsel bir model.

Pratik açıdan: bir top atılırsa nereye düşeceğini, kapı açılırsa arkasında ne olduğunu, agent bir butona basarsa ne olacağını öngörebilen bir AI. Dilin ötesinde, gerçek dünyada akıl yürütme yeteneği.

Önde gelen örnekler (2024-2025): - OpenAI Sora: text-to-video, ama tek başına video üreteci değil; altında bir world model var (objelerin tutarlılığı, fizik kuralları) - Google Genie 2: tek görselden interaktif 3D oyun dünyası üretir - DeepMind DreamerV3: oyun ortamlarında world model kurarak reinforcement learning yapar - NVIDIA Cosmos: robotik için fiziksel world model platformu - Wayve / Tesla FSD: self-driving için içsel dünya simülasyonu

World model, AGI yolundaki kritik mihenk taşlarından biri olarak görülüyor. "Gerçek anlamda anlamak" için dünyayı simüle edebilmek şart.

Benzetme

Bir satranç ustasının kafasında "şu hamleyi yaparsam, rakip muhtemelen şunu yapar, sonra ben şunu, sonra…" diye bir simülasyon vardır. World model bu prensibi gerçek dünyaya uygular: "kapıyı açarsam, ne göreceğim? yağmur yağarsa zemin nasıl olur? topu fırlatırsam yörünge nasıl?"

Gerçek dünyadan örnek

OpenAI Sora (2024): "Tokyo'da yağmurlu bir gece, kadın yansımalı sokakta yürüyor" prompt'u verdiğinde Sora 60 saniyelik video üretir. Önemli olan video kalitesi değil — kadının üst kıyafeti her saniyede aynı kalır, yansıma ışığa göre değişir, su damlaları yere çarptığında sıçrar. Bu bir physics engine değil — modelin öğrendiği içsel dünya simülasyonu.

Google Genie 2 (2024 sonu): kullanıcı bir görsel verir, Genie o görselin "fiziksel olarak nasıl bir 3D oyun olabileceğini" simüle edip oynanabilir bir ortam üretir. Tarihte ilk kez tek görselden saatlerce tutarlı interaktif simülasyon mümkün oldu.

Tesla FSD: trafikte hareket etmeden önce "5 saniye sonra ne olacak?" tahminini yapan içsel world model. Bu olmadan defansif sürüş yapamaz.

Ne zaman kullan

Video üretimi (tutarlı objeler, fizik) — Sora, Runway, Veo
Robot eğitimi — fiziksel deneyim öncesi simülasyon
Otonom araçlar — gelecek tahmini şart
Oyun üretimi (Genie tarzı procedural)
RL (reinforcement learning) ortamları

Ne zaman kullanma

Bugünkü pratik AI ürünü tasarlarken — henüz API'leri olgun değil
Tek-frame görsel üretim (diffusion yeter)
Saf metin görevleri
Kısıtlı bütçe — world model'ler eğitimi devasa pahalı

Sık yapılan hatalar

Halüsinasyonlu fizik

World model fiziği 'öğrenir' ama mükemmel modellemez. Sora videolarında bazen objeler kendiliğinden yok olur, eller deforme olur. Fizik motoru değil, istatistiksel yaklaşım.

AGI yolundaki abartılı vaatler

World model = AGI değil. Önemli adım ama tek başına yetmiyor. Sektör bu terimi pazarlama amacıyla genişletip kullanıyor — eleştirel oku.

Compute katlanır maliyetli

Sora gibi modelleri eğitmek 100M$+. Inference de pahalı (saniyeler süren video saniye saniye render edilir). Tüketici-seviye world model'ler henüz çok uzakta.