Transformer — Nedir? · AI Sözlüğü

Tanım

2017'de Google'ın "Attention Is All You Need" makalesiyle ortaya konan Transformer mimarisi, self-attention mekanizmasını kullanır. Bir kelimeyi anlamak için cümledeki hangi diğer kelimelere bakması gerektiğine model kendisi karar verir.

Önceki mimariler (RNN, LSTM) cümleyi kelime kelime, sıralı işlerdi. Transformer paralel işler — her kelime aynı anda diğer hepsine "bakar". Bu hem GPU'da hızlıdır hem de uzun bağlam yakalama gücü verir.

İki ana parça: encoder (kodlayıcı — girdiyi anlar, örn. BERT) ve decoder (çözücü — çıktı üretir, örn. GPT). Çoğu modern LLM sadece decoder kullanır. Çok başlıklı dikkat (multi-head attention) sayesinde model aynı anda birden çok ilişki türü öğrenir: sözdizimsel, anlamsal, referans bağı.

Benzetme

Bir cümleyi okurken gözlerin sürekli geri dönüp daha önceki kelimelere bakar: "o" kim? "şu" hangi şey? Self-attention tam olarak budur — her kelime, anlamını bulmak için diğer kelimelere "ne kadar bakacağına" karar verir. Multi-head = aynı cümleye farklı gözlüklerle bakma (gramer gözlüğü, anlam gözlüğü, referans gözlüğü).

Gerçek dünyadan örnek

"Ali topu Mehmet'e attı çünkü o yorgundu." Bu cümlede "o" kim? Ali mi, Mehmet mi?

İnsan: bağlamdan Mehmet'i çıkarır (top atan değil, alan yorulmuş). RNN: önceki kelimeleri tek tek hatırlar, "o" geldiğinde bağlamı karıştırabilir. Transformer: "o" kelimesi tüm önceki kelimelere dikkat atar, "Mehmet"e daha güçlü ağırlık verir. Doğru çözer.

Bu basit örnek 96 dikkat başlığı (attention head), 96 katman ile çarpınca dil anlama seviyesinin neden patladığını gösterir.

Bir adım daha derine

Ne zaman kullan

Tüm dil işleme görevleri (LLM'lerin temelidir)
Görsel modelleme (Vision Transformer — ViT)
Kod modelleri, müzik üretimi, protein katlama (AlphaFold)
Genel dizi-dizi (sequence-to-sequence) problemleri

Ne zaman kullanma

Çok kısa, basit örüntüler (lojistik regresyon yeter)
Sıralı zaman serisi tahmini (LSTM hâlâ rekabetçi)
Düşük kaynaklı ortamlar — Transformer GPU yer

Sık yapılan hatalar

Karesel karmaşıklık

Dikkat (attention) hesabı, dizi uzunluğunun karesiyle büyür. 100K token girdi = 10 milyar dikkat hesabı. Uzun bağlam için Flash Attention, kayan pencere (sliding window), seyrek dikkat (sparse attention) gibi optimizasyonlar şart.

Sıra bilgisi otomatik gelmez

Self-attention kelime sırasını görmez! Konumsal kodlama (positional encoding — RoPE, ALiBi) eklenmezse 'kedi köpek' ile 'köpek kedi' aynı şey olur.

Transformer'ı mutlak doğru sanmak

Transformer her görev için en iyi seçim değil. Durum-uzayı modelleri (Mamba), uzman karışımı (Mixture-of-Experts) gibi alternatifler aktif araştırma alanı. Mimari sabit değil, sürekli evrim halinde.