Multimodal — Nedir?

Tanım

Klasik LLM'ler sadece metin alır, sadece metin verir. Multimodal modeller ise birden fazla modaliteyi aynı modelde işler: bir fotoğraf yükleyip "bunda ne var?" diye sorabilirsin, ses dosyası verip transkript isteyebilirsin, hatta görüntü + metin karışık girdi verebilirsin.

Teknik altyapı: her modalite (görsel, ses) önce ortak bir embedding uzayına çevrilir, sonra LLM bu embedding'leri sanki token'mış gibi işler. Yani modelin "gözleri" ve "kulakları" var ama beyni hâlâ aynı.

Örnekler: GPT-4o, Claude Sonnet, Gemini, Llama 4. Her biri farklı modaliteleri farklı kalitede destekler — birinin OCR'ı iyiyken diğerinin ses anlama yeteneği üstün olabilir.

Benzetme

Eski telefon: sadece arama yapar. Akıllı telefon: arama + fotoğraf + ses kayıt + GPS + internet. Aynı cihaz, farklı duyu organları. Multimodal LLM de tek "akıl" ama birden çok duyu.

Gerçek dünyadan örnek

Bir kullanıcı buzdolabının fotoğrafını yükler ve "bununla ne pişirebilirim?" diye sorar. Multimodal model: 1. Görseli analiz eder: süt, yumurta, peynir, domates, salatalık görüyor. 2. Bu bilgiyi text bağlamına ekler. 3. "3 yumurta + peynir + domates ile menemen yapabilirsiniz, tarif:..." diye yanıtlar.

Klasik bir LLM'in yapamayacağı şey: kullanıcının önce her şeyi yazıyla listelemesi gerekirdi.

Ne zaman kullan

Görsel analiz: OCR, ürün tanıma, ekran içeriği yorumlama
Ses → metin: transkript, çağrı analizi
Karışık girdi: 'bu ekran görüntüsündeki hatayı kodda nasıl düzeltirim?'
Erişilebilirlik: görme engelli kullanıcılara fotoğraf açıklama

Ne zaman kullanma

Saf metin görevleri için — multimodal model genelde daha yavaş ve pahalı
Dedicated vision/audio model'in çok daha iyi olduğu uzman görevler (tıbbi görüntüleme, müzik çözümleme)
Hassas görsel ölçüm: model pikselleri tam ölçemez, koordinat veremez

Sık yapılan hatalar

Token maliyeti şişebilir

Tek yüksek çözünürlüklü görsel ~1500-2000 token tüketir. 5 görselli prompt bağlam penceresini doldurur.

Modaliteler arası kalite eşitsiz

Bir model metni mükemmel anlar ama ses transkriptinde zayıf olabilir. Production'a almadan her modaliteyi ayrı test et.

Hassas görsel hatalar

Sayım, mesafe, oran sorularında multimodal modeller hâlâ zayıf. '7 kişi var' deyip 5 olabilir. Kritik karar için doğrulama katmanı koy.