AI Sözlüğü
Başlangıç· ~2 dk okuma#image-generation#text-to-image#generative

Görsel Üretim

Image Generation — text-to-image

Yazılı bir tarif (prompt) verip yapay zekadan görsel üreten teknik. Modern üretimin tamamına yakını diffusion model temellidir.

METİN → MODEL → GÖRSELİSTEM (PROMPT)"yağmurlu bir İstanbulsokağında kedi,fotorealistik, gece"ÜRETİMdiffusionU-Net + CLIP~30 adımMidjourney, DALL·E, Stable Diffusion, Flux — hepsinin temel akışı budur
Tanım

Image generation, modelin sıfırdan ya da başka bir görselden yola çıkarak yeni bir görsel oluşturması. Yaygın çeşitler:

- Text-to-image: prompt ver → görsel al ("yağmurda kedi…") - Image-to-image: bir görseli başka tarza dönüştür (fotoğraf → yağlı boya) - Inpainting: bir görselin belirli alanını değiştir/tamamla (silindi alanı doldur) - Outpainting: görselin sınırlarını genişlet (daha geniş açı) - ControlNet: pose, edge map, depth gibi yapısal kılavuz vererek üretimi yönlendir

Modern altyapı: text encoder (CLIP veya T5) prompt'u embedding'e çevirir; diffusion model bu embedding ile koşullanmış olarak gürültüden görsel üretir. Tipik araçlar: Midjourney, DALL·E 3, Stable Diffusion, Flux, Imagen, Recraft.

Tek tıkla "Photoshop yerine prompt yazmak" — tasarım, pazarlama, içerik üretimi sektörlerinde standartlaştı.

Benzetme

Bir tarif vererek aşçıya yemek yaptırmak. "Hafif baharatlı, ekşili, kırmızı renkli, sıcak çorba" dersin — aşçı tarifi yorumlar, kendi yorumuyla bir tabak çıkarır. İki kez sorsan iki farklı tabak gelir, ikisi de tarife uyar. Görsel üretim de aynı: prompt = tarif, model = aşçı.

Gerçek dünyadan örnek

Bir e-ticaret sitesinde "kış indirimi" reklamı için banner yapacaksın. Eskiden: stok foto bul (telifli, jenerik), Photoshop ile düzenle, 2 saat. Şimdi:

Midjourney'e: "snowy storefront window, warm yellow lights, sale sign, photorealistic, 16:9 banner, soft cinematic lighting"

30 saniye, 4 farklı varyant. Beğendiğini upscale et, küçük rötuşları inpaint ile düzelt. Toplam: 5 dakika, $0.10.

Aynı iş 2020'de imkansızdı (henüz GAN'lar bu kalitede değildi), 2023'te zorlukla yapılırdı, 2025'te standart pratik.

Ne zaman kullan
  • Reklam, banner, sosyal medya görseli — hızlı varyant üretimi
  • Konsept tasarım — fikir aşamasında 50 varyant üret, en iyiyi seç
  • Stok foto alternatifi — telif derdi yok, tam istediğin kadrajı al
  • Inpainting ile fotoğraf rötuşu — fonu değiştir, nesne ekle/sil
  • Karakter/avatar üretimi — oyun, profil resmi, illüstrasyon
Ne zaman kullanma
  • Tutarlılık şart (aynı karakter farklı pozlarda) — modeller hâlâ zayıf
  • Doğru metin içeren görseller — diffusion text rendering hatalı
  • Hassas anatomi — eller, parmaklar, yüz oranları sıkıntılı
  • Real-time uygulama — bir görsel ~5-30 sn
  • Belirli kişi/marka logo gerekiyor — model bunu bilmez (LoRA fine-tune gerek)
Sık yapılan hatalar

Prompt = tarif, sadece istek değil

Sadece 'kedi' dersen jenerik gelir. 'Photorealistic black cat sitting on velvet armchair, soft afternoon window light, 50mm lens, depth of field' = profesyonel sonuç. Lighting, kompozisyon, tarz, kamera açısı hep belirt.

Telif sorusu

Üretilen görselin telifi belirsiz: model eğitim verisi telifli içerik içerebilir. Ticari kullanımda TOS oku — Midjourney, Adobe Firefly farklı politikalar uygular.

Aynı sonuç bekleme

Aynı prompt + farklı seed = farklı görsel. Reproduce için seed'i sabitle. Brand consistency için LoRA fine-tune ya da reference image kullan.