Transformer
LLM'leri mümkün kılan mimari
Bir cümledeki kelimelerin birbirine ne kadar dikkat etmesi gerektiğini öğrenen, modern LLM'lerin temelindeki sinir ağı mimarisi.
2017'de Google'ın "Attention Is All You Need" makalesiyle ortaya konan Transformer mimarisi, self-attention mekanizmasını kullanır. Bir kelimeyi anlamak için cümledeki hangi diğer kelimelere bakması gerektiğine model kendisi karar verir.
Önceki mimariler (RNN, LSTM) cümleyi kelime kelime, sıralı işlerdi. Transformer paralel işler — her kelime aynı anda diğer hepsine "bakar". Bu hem GPU'da hızlıdır hem de uzun bağlam yakalama gücü verir.
İki ana parça: encoder (kodlayıcı — girdiyi anlar, örn. BERT) ve decoder (çözücü — çıktı üretir, örn. GPT). Çoğu modern LLM sadece decoder kullanır. Çok başlıklı dikkat (multi-head attention) sayesinde model aynı anda birden çok ilişki türü öğrenir: sözdizimsel, anlamsal, referans bağı.
Bir cümleyi okurken gözlerin sürekli geri dönüp daha önceki kelimelere bakar: "o" kim? "şu" hangi şey? Self-attention tam olarak budur — her kelime, anlamını bulmak için diğer kelimelere "ne kadar bakacağına" karar verir. Multi-head = aynı cümleye farklı gözlüklerle bakma (gramer gözlüğü, anlam gözlüğü, referans gözlüğü).
"Ali topu Mehmet'e attı çünkü o yorgundu." Bu cümlede "o" kim? Ali mi, Mehmet mi?
İnsan: bağlamdan Mehmet'i çıkarır (top atan değil, alan yorulmuş). RNN: önceki kelimeleri tek tek hatırlar, "o" geldiğinde bağlamı karıştırabilir. Transformer: "o" kelimesi tüm önceki kelimelere dikkat atar, "Mehmet"e daha güçlü ağırlık verir. Doğru çözer.
Bu basit örnek 96 dikkat başlığı (attention head), 96 katman ile çarpınca dil anlama seviyesinin neden patladığını gösterir.
- Tüm dil işleme görevleri (LLM'lerin temelidir)
- Görsel modelleme (Vision Transformer — ViT)
- Kod modelleri, müzik üretimi, protein katlama (AlphaFold)
- Genel dizi-dizi (sequence-to-sequence) problemleri
- Çok kısa, basit örüntüler (lojistik regresyon yeter)
- Sıralı zaman serisi tahmini (LSTM hâlâ rekabetçi)
- Düşük kaynaklı ortamlar — Transformer GPU yer
Karesel karmaşıklık
Dikkat (attention) hesabı, dizi uzunluğunun karesiyle büyür. 100K token girdi = 10 milyar dikkat hesabı. Uzun bağlam için Flash Attention, kayan pencere (sliding window), seyrek dikkat (sparse attention) gibi optimizasyonlar şart.
Sıra bilgisi otomatik gelmez
Self-attention kelime sırasını görmez! Konumsal kodlama (positional encoding — RoPE, ALiBi) eklenmezse 'kedi köpek' ile 'köpek kedi' aynı şey olur.
Transformer'ı mutlak doğru sanmak
Transformer her görev için en iyi seçim değil. Durum-uzayı modelleri (Mamba), uzman karışımı (Mixture-of-Experts) gibi alternatifler aktif araştırma alanı. Mimari sabit değil, sürekli evrim halinde.