Reasoning Model
Akıl Yürüten Model
Cevabı vermeden önce ekstra hesaplama harcayıp 'düşünen', özellikle matematik, kod ve mantıkta klasik LLM'leri açık ara geçen yeni nesil model.
Klasik LLM'ler ne istersen anında üretmeye çalışır. Reasoning model'ler ise cevap vermeden önce içsel bir "düşünme" aşamasından geçer: olasılıkları inceler, alternatif yolları dener, kendi yanıtlarını eleştirir. Bu süreç görünmez ama gerçek (ekstra token üretimi olarak çalışır), modeli yavaşlatır ve pahalı yapar — ama doğruluğu uçurur.
İlk büyük örnek: OpenAI'ın o1 modeli (2024 sonu). Sonra DeepSeek R1, OpenAI o3, Claude 3.7 Sonnet ve Sonnet 4 akıl yürütme modu, Google Gemini 2.5 Pro. Hepsinin formülü benzer: pekiştirmeli öğrenme (RL) ile uzun düşünce zinciri (chain-of-thought) üretmeyi öğretmek.
"Test-zamanı hesaplama" (test-time compute) terimi de buradan geliyor: cevabın kalitesi modelin eğitimine değil, cevap üretirken ne kadar düşündüğüne bağlı.
Standart LLM: hızlı satranç oyuncusu, hamleyi 5 saniyede yapar, çoğu zaman iyi ama bazen kör hata. Reasoning model: aynı oyuncu turnuvada — her hamle için 5 dakika düşünür, alternatifleri hesaplar, sonra oynar. Daha yavaş, daha pahalı, çok daha az hata.
AIME (American Invitational Mathematics Examination) sınavı. GPT-4o: %13 doğru. Aynı şirketin reasoning modeli o1: %83 doğru. Aradaki fark sadece "düşünme zamanı" — model aynı boyutlarda, aynı veri üzerinde eğitilmiş, sadece soruyu çözerken kendi kendine 30+ adımlık akıl yürütme zinciri üretiyor.
Bunu kullanıcı görmez — sadece son cevabı görür. Ama o cevabın arkasında binlerce ara token vardır.
- Karmaşık matematik ve mantık problemleri (olimpiyat seviyesi)
- Algoritmik kod yazımı — sıralama, optimizasyon, uç durum (edge case) analizi
- Bilimsel akıl yürütme: hipotez kurma, çıkarım
- Hata avı: 'bu kodda neden hata var?' gibi araştırma görevleri
- Sohbet, basit soru-cevap, içerik özetleme — gereksiz fazlalık
- Gecikmeye duyarlı akışlar — 30 saniyenin üstünde cevap süresi kullanıcı deneyimini öldürür
- Maliyete duyarlı sistemler: akıl yürütme token'ları 5-10 kat pahalı
- Yaratıcı yazma — bazen 'fazla düşünüp' düz, klişe metin üretir
CoT eklemek geri tepiyor
Akıl yürüten modele ayrıca 'adım adım düşün' demek bazen sonucu kötüleştirir. Modelin kendi düşünme stratejisine güven.
Akıl yürütme token'ları görünmez ama maliyetli
Faturada reasoning_tokens ayrı bir satır olarak çıkar. 100 kelimelik bir cevabın arkasında 5000 akıl yürütme token'ı olabilir.
Her şeyi akıl yürüten modele yönlendirmek
Hibrit yaklaşım daha iyi: kolay sorularda standart model, zor sorularda akıl yürüten model. Model seçimi de bir tasarım kararıdır.