Context Window
Bağlam Penceresi
LLM'in bir cevap üretirken aynı anda görebileceği maksimum token sayısı.
Her LLM'in bir bağlam penceresi sınırı vardır: 8K, 32K, 128K, 1M token, bazılarında 10M+. Bu pencereye prompt + sistem mesajı + sohbet geçmişi + dokümanlar + cevap — hepsi sığmak zorundadır. Pencere dolarsa eski mesajlar düşer ya da hata alırsın.
Geniş pencere her zaman daha iyi değildir. "Lost in the middle" olgusu: model uzun bağlamda en başa ve en sona daha çok dikkat eder, ortayı es geçer. 1M token'lık bir prompt'un ortasındaki kritik bilgi, 32K'lık iyi yapılandırılmış bir prompt'tan daha az faydalı olabilir.
Pencere dolduğunda stratejiler: özetleme, kayan pencere (sliding window), RAG ile sadece ilgili parçaları çağırma, prompt caching ile sabit kısımları önbellekleme.
Çalışma masandaki ekranı düşün. Her sorduğunda LLM sadece o ekrandaki bilgiyi görüyor. Belge masaya sığmazsa, model onu okuyamaz. Daha büyük ekran = daha fazla şeyi aynı anda görebilirsin — ama yine de bütün kütüphaneyi değil.
Bir müşteri destek botu geçmiş sohbetleri hatırlıyor. 50 mesaj sonra bağlam penceresinin %80'i sohbet geçmişiyle dolu. Yeni soruya cevap için yer kalmıyor.
Çözümler: 1. Kayan pencere: son 20 mesajı tut, eskilerini at. 2. Özetleme: eskileri 200 token'lık bir özetle değiştir. 3. RAG: tüm mesajları vektör DB'de tut, ilgili olanları çağır.
GPT-4o (128K), Claude Sonnet (200K), Gemini 2.5 Pro (2M) bu sorunu farklı boyutlarda zorluyor. Ama hâlâ bedava öğle yemeği yok: geniş pencere = pahalı + yavaş + "lost in the middle" riski.
- Uzun doküman analizi (hukuki, akademik, teknik kılavuzlar)
- Çok turlu konuşma — geçmişi taşımak istediğinde
- Çok modlu (multimodal) girdi: görseller token yer, pencereyi hızla doldurur
- Karmaşık ajan iş akışı — araç sonuçları + plan + bağlam birikir
- Tek seferlik kısa görevler — büyük pencere maliyeti gereksiz
- RAG ile çözülebilecek sorular — uzun pencere yerine arama kullan
- Gecikmeye duyarlı sistemler — uzun bağlam = uzun cevap süresi
'Tüm dokümanı yapıştır' tuzağı
100 sayfalık PDF'i prompt'a yapıştırmak işe yaramaz. Hem pahalı, hem 'lost in the middle' hem de model birden çok konuyu karıştırır. Parçalama (chunking) + RAG genelde çok daha iyidir.
Çıktı token'larını unutmak
Bağlam penceresi = girdi + çıktı! 128K'lık pencereye 100K girdi koyarsan modelin sadece 28K'sı cevap için kalır. Tampon bırak.
Prompt caching kullanmamak
Sabit prompt (sistem mesajı, talimatlar, örnekler) her istekte yeniden gönderiliyor. Anthropic, OpenAI, Google prompt caching destekliyor — %90'a varan maliyet düşüşü.