Context Window — Nedir? · AI Sözlüğü

Tanım

Her LLM'in bir bağlam penceresi sınırı vardır: 8K, 32K, 128K, 1M token, bazılarında 10M+. Bu pencereye prompt + sistem mesajı + sohbet geçmişi + dokümanlar + cevap — hepsi sığmak zorundadır. Pencere dolarsa eski mesajlar düşer ya da hata alırsın.

Geniş pencere her zaman daha iyi değildir. "Lost in the middle" olgusu: model uzun bağlamda en başa ve en sona daha çok dikkat eder, ortayı es geçer. 1M token'lık bir prompt'un ortasındaki kritik bilgi, 32K'lık iyi yapılandırılmış bir prompt'tan daha az faydalı olabilir.

Pencere dolduğunda stratejiler: özetleme, kayan pencere (sliding window), RAG ile sadece ilgili parçaları çağırma, prompt caching ile sabit kısımları önbellekleme.

Benzetme

Çalışma masandaki ekranı düşün. Her sorduğunda LLM sadece o ekrandaki bilgiyi görüyor. Belge masaya sığmazsa, model onu okuyamaz. Daha büyük ekran = daha fazla şeyi aynı anda görebilirsin — ama yine de bütün kütüphaneyi değil.

Gerçek dünyadan örnek

Bir müşteri destek botu geçmiş sohbetleri hatırlıyor. 50 mesaj sonra bağlam penceresinin %80'i sohbet geçmişiyle dolu. Yeni soruya cevap için yer kalmıyor.

Çözümler: 1. Kayan pencere: son 20 mesajı tut, eskilerini at. 2. Özetleme: eskileri 200 token'lık bir özetle değiştir. 3. RAG: tüm mesajları vektör DB'de tut, ilgili olanları çağır.

GPT-4o (128K), Claude Sonnet (200K), Gemini 2.5 Pro (2M) bu sorunu farklı boyutlarda zorluyor. Ama hâlâ bedava öğle yemeği yok: geniş pencere = pahalı + yavaş + "lost in the middle" riski.

Ne zaman kullan

Uzun doküman analizi (hukuki, akademik, teknik kılavuzlar)
Çok turlu konuşma — geçmişi taşımak istediğinde
Çok modlu (multimodal) girdi: görseller token yer, pencereyi hızla doldurur
Karmaşık ajan iş akışı — araç sonuçları + plan + bağlam birikir

Ne zaman kullanma

Tek seferlik kısa görevler — büyük pencere maliyeti gereksiz
RAG ile çözülebilecek sorular — uzun pencere yerine arama kullan
Gecikmeye duyarlı sistemler — uzun bağlam = uzun cevap süresi

Sık yapılan hatalar

'Tüm dokümanı yapıştır' tuzağı

100 sayfalık PDF'i prompt'a yapıştırmak işe yaramaz. Hem pahalı, hem 'lost in the middle' hem de model birden çok konuyu karıştırır. Parçalama (chunking) + RAG genelde çok daha iyidir.

Çıktı token'larını unutmak

Bağlam penceresi = girdi + çıktı! 128K'lık pencereye 100K girdi koyarsan modelin sadece 28K'sı cevap için kalır. Tampon bırak.

Prompt caching kullanmamak

Sabit prompt (sistem mesajı, talimatlar, örnekler) her istekte yeniden gönderiliyor. Anthropic, OpenAI, Google prompt caching destekliyor — %90'a varan maliyet düşüşü.