Reranker
Yeniden sıralayıcı
Vektör araması sonrası gelen kaba sonuçları, daha hassas bir modelle yeniden sıralayıp gerçekten en alakalıları üste taşıyan ikincil katman.
Vektör araması hızlı ama kaba: bir cosine similarity hesabı, milyonlarca vektörden ilk 50'sini saniyenin altında çıkarır. Sorun şu ki bu 50'nin ilk 5'i kullanıcı için her zaman doğru sıralanmış değildir — vektör embedding'leri sorgu ile dokümanı ayrı ayrı kodlar, tam ilişkiyi yakalayamaz.
Reranker (yeniden sıralayıcı), bu 50 sonucu alıp her birini sorguyla birlikte bir cross-encoder modele verir. Cross-encoder, sorgu-doküman çiftine doğrudan bakar, çok daha doğru bir alaka skoru üretir. Sonuç: top-50 → reranked top-5, gerçek isabetle.
Tipik araçlar: Cohere Rerank, bge-reranker, Voyage rerank, mxbai-rerank. RAG'in retrieval kalitesini %20-30 artırabilir.
Bir kitap kütüphanesinde önce kataloga bak (vektör arama — hızlı, kaba), 50 başlık çıkar. Sonra editör bu 50'sini elden geçirip "gerçekten sorduğun konuya en yakın 5'i bunlar" der (reranker — yavaş, isabetli). Kataloga güvenmek yetmez; editör katmanı kaliteyi yukarı çeker.
Bir SaaS dokümantasyon RAG'i. Kullanıcı: "API rate limit nasıl aşılıyor?". Vektör arama 50 chunk getirir, top-5'te: 1. "Rate limit basics" (skor 0.91) 2. "Pricing tiers" (skor 0.88) 3. "Authentication" (skor 0.85) 4. "Throttling guide" (skor 0.82) ← gerçek cevap burada 5. "Plan comparison" (skor 0.80)
Reranker bu 50'yi sorgu ile çift olarak değerlendirir, "Throttling guide" gerçekte en alakalı çıkar: 1. Throttling guide (0.96) 2. Rate limit basics (0.92) 3. Plan comparison (0.78) ...
LLM bağlama doğru chunk'la başlar — cevap kalitesi belirgin artar.
- RAG retrieval kalitesi yetersizse — reranker ilk müdahale
- Top-K büyük (50-100) ama LLM bağlamına az (5-10) sığacaksa
- Hassas alanlarda (yasal, tıbbi) — yanlış chunk = yanlış cevap
- Çok dilli arama — vektör tek başına dilbilgisi nüansını yakalayamaz
- Top-3 zaten %95 doğruysa — ek katman maliyetine değmez
- Latency çok kritik — reranker 100-500 ms ekler
- Çok küçük corpus (<1K chunk) — vektör araması zaten yeterli
Cross-encoder yavaştır
Bi-encoder (vektör) bir kez encode eder; cross-encoder her sorgu-doküman çifti için yeniden çalışır. 50 sonuç = 50 forward pass. Batching ve daha küçük model şart.
Yanlış model seçimi
Multilingual reranker İngilizce'de daha az optimize, monolingual da TR'de zayıf. Veri dağılımına göre model seç. Cohere Rerank v3 multilingual + production-ready.
Reranker tek başına yetmez
Önce iyi chunking, sonra iyi retrieval, sonra reranker. Reranker'ı 'kötü retrieval'i kurtarmak için kullanma; önceki katmanları da düzelt.