RAG-Fusion
Çoklu sorgu + birleştirilmiş sıralama
Tek sorgudan birden çok varyant üretip her biri için ayrı arama yapan, sonuçları birleştirip sıralayan gelişmiş RAG tekniği.
Klasik RAG'in zayıflığı: tek sorgu, tek arama. Kullanıcının "GDPR uyum" sorgusuyla "data protection compliance" benzer şeyleri arasa da, vektör benzerliği aynı 5 chunk'ı döndürür. Olası sonuçların büyük kısmı kaçırılır.
RAG-Fusion bu sorunu çözer: 1. LLM'e orijinal sorgudan 3-5 farklı varyant ürettir (paraphrase, sub-question, synonym). 2. Her varyant için ayrı arama yap (vektör veya hibrit). 3. Tüm sonuçları Reciprocal Rank Fusion (RRF) ile birleştir.
RRF skorlaması: bir doküman bir aramada n. sırada ise, skoru
1/(k+n) (k genelde 60). Tüm aramalardaki skorları topla, en yüksek
toplama göre sırala. Skor normalizasyonu derdi yok, basit ve etkili.
Sonuç: tek sorgudan kaçabilecek dokümanlar (farklı kelimelerle yazılmış, farklı açıdan) yakalanır. Recall %30-50 artar, precision da genelde korunur.
Bir gazetede haber arıyorsun. "Cumhurbaşkanı seçimi" diye tek arama yerine: "başkanlık yarışı", "oy oranları", "siyasi kampanya" diye 3-4 varyantla ara. Her birinden gelen sonuçları say — en çok geçen haberler en alakalı. RAG-Fusion'ın yaptığı bu — model varyantları senin yerine üretiyor.
Bir SaaS'ın iç dokümantasyon RAG'i. Kullanıcı: "Pro plan'a geçmek istiyorum, fatura nasıl?". Klasik RAG: "Pro plan", "geçiş", "fatura" odağında 5 chunk → çoğu tarife dair, fatura prosedürü kaçabilir.
RAG-Fusion ile LLM 4 varyant üretir: 1. "Plan upgrade billing process" 2. "Pro tier subscription invoice" 3. "Hesap yükseltme ödeme" 4. "Plan değiştirme fatura döngüsü"
Her biri 5'er sonuç döner, RRF birleştirir → top 8 chunk: tarife bilgisi + ödeme prosedürü + fatura döngüsü + iade politikası bir arada. LLM kapsamlı cevap verir. Recall önemli artış, halüsinasyon önemli azalış.
Token maliyeti yaklaşık 3-4×, ama kalite atlama büyük.
- Karmaşık veya muğlak kullanıcı sorguları (tek anlamlı değil)
- Çok dilli içerik (TR-EN karışık, varyantlar her ikisini yakalar)
- Büyük corpus (>10K doküman) — kapsama önemli
- Recall kritikse (yasal/tıbbi araştırma)
- Reranker ile birlikte — fusion sonrası reranker daha da hassaslaştırır
- Latency hassas — varyant üretme + N arama maliyetli
- Token bütçesi sıkı (birden çok LLM çağrısı)
- Sorgu net ve dar — fusion overhead'e değmez
- Tek dilli, tek alan — basit RAG yeter
Varyant üretmek de halüsinasyon yapabilir
LLM 'sorgu varyantı üret' derken alakasız varyantlar üretebilir ('Pro plan'dan 'üye olma adımları' çıkarmak). Varyant prompt'una örnek ekle (few-shot) ve kalite kontrol et.
RRF k parametresi yanlış
k=60 standart ama çok büyük corpus'ta düşük k (10-20) daha keskin sıralama verir. Domain'ine göre ayarla, A/B test et.
Fusion + reranker çift maliyet
Hem fusion hem reranker kullanmak güçlü ama 2× latency, 2× maliyet. Production'da hangisinin gerçekten gerekli olduğunu ölç — bazen biri yeter.