Halüsinasyon
Hallucination
LLM'in kendinden emin bir şekilde uydurma bilgi üretmesi.
LLM "ben bilmiyorum" demek yerine, gerçek gibi görünen ama yanlış olan bir cevap üretebilir. Olmayan kitap başlıkları, var olmayan API fonksiyonları, uydurma alıntılar, yanlış istatistikler, hayali tarihler — hepsi halüsinasyon kategorisinde.
Sebebi: model "doğruluk" değil, "olası bir sonraki token" optimize eder. Eğitim verisinde benzer örüntü vardır ama o spesifik gerçek yoksa, model en olası kelimeleri tahmin eder — o kelimeler birleşince gerçek dışı bir cümle çıkar. Model "bilmiyorum" demeyi de eğitimle öğrenir, ama yine %100 önlenemez.
İki tür: olgusal halüsinasyon (factual — gerçek bilgide hata) ve sadakat halüsinasyonu (faithfulness — verilen bağlamla çelişen üretim). İkincisi RAG sistemlerinin baş belasıdır.
Hiç hazırlanmadığı sınava giren bir öğrenci düşün. Boş bırakmak yerine her soruyu kendinden emin bir şekilde uyduruyor. Bazı cevaplar tesadüfen doğru, çoğu yanlış — ama hepsi aynı tonla yazılmış. Bunu "bilmiyorum demeyi öğrenmemiş öğrenci" olarak da düşünebilirsin.
Hukuk firmasında bir avukat ChatGPT ile dava araştırması yaptı. Model güçlü argümanlar yanı sıra 6 referans dava ismi verdi. Avukat hepsini mahkemeye sundu. Hâkim doğrulamaya çalıştı — 6 davanın 5'i hiç var olmamıştı. Tamamen halüsinasyon. Avukat para cezası aldı, mesleğinden süreli men edildi (Mata v. Avianca, 2023, gerçek bir vaka).
Çözüm: kritik kararlarda RAG zorunlu (gerçek dava veritabanından çek), her sayısal/olgusal iddia için kaynak iste, model çıktısını insan incelemesinden geçir.
- Halüsinasyon riskinin var olduğunu kabul etmek — hangi LLM olursa olsun bu risk vardır
- Yüksek riskli alanlarda doğrulama katmanı zorunludur (sağlık, hukuk, finans)
- Kullanıcıya görünen bilgilere her zaman 'bu bir AI cevabı, doğrulayın' uyarısı koy
- 'Halüsinasyon yok' iddia eden bir model/sistem var saymak — yok
- Tek bir teknikle (sadece RAG ya da sadece prompt) tamamen çözüleceğine inanmak
- Halüsinasyon tespitini elle yapmak — otomatik test/değerlendirme akışı gerekir
Yüksek temperature halüsinasyonu artırır
T = 0.9 ile olgusal (factual) cevap istiyorsan halüsinasyon oranın 3-5 kat artar. Olgusal işler için T < 0.3 kullan.
RAG halüsinasyonu çözmez, sadece azaltır
İyi yapılandırılmış RAG bile modeli 'bağlama uy' diye zorlamaz. Model, verilen bağlamla çelişen 'kendi bildiklerini' de karıştırabilir. Prompt'a katı mod (strict mode) ekle: 'sadece verilen bağlamdan cevap ver, yoksa bilmiyorum de'.
Modelin kendinden emin tonunu bağlayıcı sanmak
LLM her cevabını aynı kendinden emin tonla verir. 'Bilmiyorum' cevabı da, 'kesin böyle' diyen halüsinasyon da aynı kibar üslupta gelir. Ton bir güven sinyali değildir.