AI Sözlüğü
Orta· ~2 dk okuma#reranker#cross-encoder#rag

Reranker

Yeniden sıralayıcı

Vektör araması sonrası gelen kaba sonuçları, daha hassas bir modelle yeniden sıralayıp gerçekten en alakalıları üste taşıyan ikincil katman.

ÇOK SONUÇTAN AZ AMA İSABETLİ SONUÇAVEKTÖR ARAMA · İLK 50doc_400.92doc_410.88doc_420.84doc_430.80doc_440.76doc_450.72doc_460.68doc_470.64…42 tane dahaYENİDENSIRALAYICIcross-encoderGERÇEK İLK 5doc_070.98doc_420.96doc_880.91doc_150.84doc_230.79vektör hızlı ama kaba — reranker yavaş ama daha hassas
Tanım

Vektör araması hızlı ama kaba: bir cosine similarity hesabı, milyonlarca vektörden ilk 50'sini saniyenin altında çıkarır. Sorun şu ki bu 50'nin ilk 5'i kullanıcı için her zaman doğru sıralanmış değildir — vektör embedding'leri sorgu ile dokümanı ayrı ayrı kodlar, tam ilişkiyi yakalayamaz.

Reranker (yeniden sıralayıcı), bu 50 sonucu alıp her birini sorguyla birlikte bir cross-encoder modele verir. Cross-encoder, sorgu-doküman çiftine doğrudan bakar, çok daha doğru bir alaka skoru üretir. Sonuç: top-50 → reranked top-5, gerçek isabetle.

Tipik araçlar: Cohere Rerank, bge-reranker, Voyage rerank, mxbai-rerank. RAG'in retrieval kalitesini %20-30 artırabilir.

Benzetme

Bir kitap kütüphanesinde önce kataloga bak (vektör arama — hızlı, kaba), 50 başlık çıkar. Sonra editör bu 50'sini elden geçirip "gerçekten sorduğun konuya en yakın 5'i bunlar" der (reranker — yavaş, isabetli). Kataloga güvenmek yetmez; editör katmanı kaliteyi yukarı çeker.

Gerçek dünyadan örnek

Bir SaaS dokümantasyon RAG'i. Kullanıcı: "API rate limit nasıl aşılıyor?". Vektör arama 50 chunk getirir, top-5'te: 1. "Rate limit basics" (skor 0.91) 2. "Pricing tiers" (skor 0.88) 3. "Authentication" (skor 0.85) 4. "Throttling guide" (skor 0.82) ← gerçek cevap burada 5. "Plan comparison" (skor 0.80)

Reranker bu 50'yi sorgu ile çift olarak değerlendirir, "Throttling guide" gerçekte en alakalı çıkar: 1. Throttling guide (0.96) 2. Rate limit basics (0.92) 3. Plan comparison (0.78) ...

LLM bağlama doğru chunk'la başlar — cevap kalitesi belirgin artar.

Ne zaman kullan
  • RAG retrieval kalitesi yetersizse — reranker ilk müdahale
  • Top-K büyük (50-100) ama LLM bağlamına az (5-10) sığacaksa
  • Hassas alanlarda (yasal, tıbbi) — yanlış chunk = yanlış cevap
  • Çok dilli arama — vektör tek başına dilbilgisi nüansını yakalayamaz
Ne zaman kullanma
  • Top-3 zaten %95 doğruysa — ek katman maliyetine değmez
  • Latency çok kritik — reranker 100-500 ms ekler
  • Çok küçük corpus (<1K chunk) — vektör araması zaten yeterli
Sık yapılan hatalar

Cross-encoder yavaştır

Bi-encoder (vektör) bir kez encode eder; cross-encoder her sorgu-doküman çifti için yeniden çalışır. 50 sonuç = 50 forward pass. Batching ve daha küçük model şart.

Yanlış model seçimi

Multilingual reranker İngilizce'de daha az optimize, monolingual da TR'de zayıf. Veri dağılımına göre model seç. Cohere Rerank v3 multilingual + production-ready.

Reranker tek başına yetmez

Önce iyi chunking, sonra iyi retrieval, sonra reranker. Reranker'ı 'kötü retrieval'i kurtarmak için kullanma; önceki katmanları da düzelt.