RLHF
Reinforcement Learning from Human Feedback
İnsan tercihleriyle modeli ayarlama tekniği — GPT-3'ü ChatGPT'ye dönüştüren üç aşamalı eğitim süreci.
Bir temel model (GPT-3 gibi) yalnızca "sıradaki token tahmini" yapar — bu onu kibar cevap vermeye ya da talimat takibine yetmez. RLHF tam olarak bu boşluğu doldurur: insanların hangi tür cevapları sevdiğini modele öğretir.
Üç aşamalı akış: 1. SFT (Supervised Fine-Tuning — denetimli ince ayar): insanların yazdığı kaliteli cevap örnekleriyle modeli ön ayar yap. 2. Ödül Modeli (Reward Model): aynı soruya 4 cevap üret, insanlara sıralat, bu sıralamayı tahmin eden ayrı bir model eğit. 3. PPO/DPO: ana modeli, ödül modelinin puanını maksimize edecek şekilde pekiştirmeli öğrenme (RL) ile ince ayar yap.
Sonuç: model "doğru token" değil, "insanların onaylayacağı cevap" üretir. ChatGPT'nin yardımsever ve kibar üslubu RLHF'ten gelir.
Yeni bir restoran açtın. Şef teknik olarak iyi yemek yapıyor (temel model) ama hangi tarz tatları müşterinin sevdiğini bilmiyor. Aşama 1: örnek menü kurarak başlıyorsun. Aşama 2: müşterilerden "şu tabak mı, bu mu?" diye geri bildirim topluyorsun. Aşama 3: şefe bu geri bildirime göre tarifleri ayarlamasını söylüyorsun.
GPT-3'e "fizz buzz programı yaz" desen, temel model muhtemelen rastgele bir kod parçası, eksik açıklama, belki tamamen alakasız bir metin üretirdi. ChatGPT (GPT-3 + RLHF) ise: kısa açıklama → temiz kod → nasıl çalıştırılacağı. Aynı temel model, RLHF sayesinde insan tercihi yönünde "hizalanmış".
Anthropic'in Constitutional AI'sı ve OpenAI'ın DPO'su gibi yöntemler aynı fikrin türevleridir.
- Bir temel modeli asistan haline getirmek (sohbet ürünü)
- Model çıktısını kullanıcı tercihine göre ayarlamak (uzunluk, üslup, biçim)
- Zararlı içerik üretimini azaltmak (güvenlik hizalaması)
- İnce ayardan sonra ek cila
- Küçük projeler — milyonlarca dolar ve binlerce insan etiketleyici gerekir
- Zaten hizalanmış model varsa (GPT, Claude, Llama-Instruct) — direkt onları kullan
- Saf performans (doğruluk) için — RLHF üslup/davranış için, yetenek için değil
Ödül hilesi (reward hacking)
Model 'cevabın iyi görünmesini' optimize etmeyi öğrenir, gerçekten iyi olmasını değil. Uzun cevaplar yazar (insanlar uzun = kapsamlı sanır), emoji koyar, gereksiz yere onaylar.
Yağcılık (sycophancy)
RLHF'li modeller, kullanıcının hatasına bile 'haklısınız' demeye başlayabilir. Geri bildirim toplanırken etiketleyiciler 'kibar' olmayı ödüllendirdiği için.
Çeşitliliğin azalması
RLHF sonrası model belirli bir üslup ve biçime kilitlenir. Aynı soruya hep aynı yapıyla cevap verir — temel modeldeki çeşitlilik kaybolur.