RAG-Fusion — Nedir? · AI Sözlüğü

Tanım

Klasik RAG'in zayıflığı: tek sorgu, tek arama. Kullanıcının "GDPR uyum" sorgusuyla "data protection compliance" benzer şeyleri arasa da, vektör benzerliği aynı 5 chunk'ı döndürür. Olası sonuçların büyük kısmı kaçırılır.

RAG-Fusion bu sorunu çözer: 1. LLM'e orijinal sorgudan 3-5 farklı varyant ürettir (paraphrase, sub-question, synonym). 2. Her varyant için ayrı arama yap (vektör veya hibrit). 3. Tüm sonuçları Reciprocal Rank Fusion (RRF) ile birleştir.

RRF skorlaması: bir doküman bir aramada n. sırada ise, skoru 1/(k+n) (k genelde 60). Tüm aramalardaki skorları topla, en yüksek toplama göre sırala. Skor normalizasyonu derdi yok, basit ve etkili.

Sonuç: tek sorgudan kaçabilecek dokümanlar (farklı kelimelerle yazılmış, farklı açıdan) yakalanır. Recall %30-50 artar, precision da genelde korunur.

Benzetme

Bir gazetede haber arıyorsun. "Cumhurbaşkanı seçimi" diye tek arama yerine: "başkanlık yarışı", "oy oranları", "siyasi kampanya" diye 3-4 varyantla ara. Her birinden gelen sonuçları say — en çok geçen haberler en alakalı. RAG-Fusion'ın yaptığı bu — model varyantları senin yerine üretiyor.

Gerçek dünyadan örnek

Bir SaaS'ın iç dokümantasyon RAG'i. Kullanıcı: "Pro plan'a geçmek istiyorum, fatura nasıl?". Klasik RAG: "Pro plan", "geçiş", "fatura" odağında 5 chunk → çoğu tarife dair, fatura prosedürü kaçabilir.

RAG-Fusion ile LLM 4 varyant üretir: 1. "Plan upgrade billing process" 2. "Pro tier subscription invoice" 3. "Hesap yükseltme ödeme" 4. "Plan değiştirme fatura döngüsü"

Her biri 5'er sonuç döner, RRF birleştirir → top 8 chunk: tarife bilgisi + ödeme prosedürü + fatura döngüsü + iade politikası bir arada. LLM kapsamlı cevap verir. Recall önemli artış, halüsinasyon önemli azalış.

Token maliyeti yaklaşık 3-4×, ama kalite atlama büyük.

Ne zaman kullan

Karmaşık veya muğlak kullanıcı sorguları (tek anlamlı değil)
Çok dilli içerik (TR-EN karışık, varyantlar her ikisini yakalar)
Büyük corpus (>10K doküman) — kapsama önemli
Recall kritikse (yasal/tıbbi araştırma)
Reranker ile birlikte — fusion sonrası reranker daha da hassaslaştırır

Ne zaman kullanma

Latency hassas — varyant üretme + N arama maliyetli
Token bütçesi sıkı (birden çok LLM çağrısı)
Sorgu net ve dar — fusion overhead'e değmez
Tek dilli, tek alan — basit RAG yeter

Sık yapılan hatalar

Varyant üretmek de halüsinasyon yapabilir

LLM 'sorgu varyantı üret' derken alakasız varyantlar üretebilir ('Pro plan'dan 'üye olma adımları' çıkarmak). Varyant prompt'una örnek ekle (few-shot) ve kalite kontrol et.

RRF k parametresi yanlış

k=60 standart ama çok büyük corpus'ta düşük k (10-20) daha keskin sıralama verir. Domain'ine göre ayarla, A/B test et.

Fusion + reranker çift maliyet

Hem fusion hem reranker kullanmak güçlü ama 2× latency, 2× maliyet. Production'da hangisinin gerçekten gerekli olduğunu ölç — bazen biri yeter.