AI Sözlüğü
İleri· ~2 dk okuma#rlhf#alignment#training

RLHF

Reinforcement Learning from Human Feedback

İnsan tercihleriyle modeli ayarlama tekniği — GPT-3'ü ChatGPT'ye dönüştüren üç aşamalı eğitim süreci.

İNSAN GERİ BİLDİRİMİ · 3 AŞAMA1 · SFTdenetimli ön-tuningetiketli veri2 · ÖDÜLinsan sıralar çıktıyı👍👍👎👍3 · RLödülü maksimize etödül ↑GPT-3'ü ChatGPT'ye dönüştüren reçete
Tanım

Bir temel model (GPT-3 gibi) yalnızca "sıradaki token tahmini" yapar — bu onu kibar cevap vermeye ya da talimat takibine yetmez. RLHF tam olarak bu boşluğu doldurur: insanların hangi tür cevapları sevdiğini modele öğretir.

Üç aşamalı akış: 1. SFT (Supervised Fine-Tuning — denetimli ince ayar): insanların yazdığı kaliteli cevap örnekleriyle modeli ön ayar yap. 2. Ödül Modeli (Reward Model): aynı soruya 4 cevap üret, insanlara sıralat, bu sıralamayı tahmin eden ayrı bir model eğit. 3. PPO/DPO: ana modeli, ödül modelinin puanını maksimize edecek şekilde pekiştirmeli öğrenme (RL) ile ince ayar yap.

Sonuç: model "doğru token" değil, "insanların onaylayacağı cevap" üretir. ChatGPT'nin yardımsever ve kibar üslubu RLHF'ten gelir.

Benzetme

Yeni bir restoran açtın. Şef teknik olarak iyi yemek yapıyor (temel model) ama hangi tarz tatları müşterinin sevdiğini bilmiyor. Aşama 1: örnek menü kurarak başlıyorsun. Aşama 2: müşterilerden "şu tabak mı, bu mu?" diye geri bildirim topluyorsun. Aşama 3: şefe bu geri bildirime göre tarifleri ayarlamasını söylüyorsun.

Gerçek dünyadan örnek

GPT-3'e "fizz buzz programı yaz" desen, temel model muhtemelen rastgele bir kod parçası, eksik açıklama, belki tamamen alakasız bir metin üretirdi. ChatGPT (GPT-3 + RLHF) ise: kısa açıklama → temiz kod → nasıl çalıştırılacağı. Aynı temel model, RLHF sayesinde insan tercihi yönünde "hizalanmış".

Anthropic'in Constitutional AI'sı ve OpenAI'ın DPO'su gibi yöntemler aynı fikrin türevleridir.

Ne zaman kullan
  • Bir temel modeli asistan haline getirmek (sohbet ürünü)
  • Model çıktısını kullanıcı tercihine göre ayarlamak (uzunluk, üslup, biçim)
  • Zararlı içerik üretimini azaltmak (güvenlik hizalaması)
  • İnce ayardan sonra ek cila
Ne zaman kullanma
  • Küçük projeler — milyonlarca dolar ve binlerce insan etiketleyici gerekir
  • Zaten hizalanmış model varsa (GPT, Claude, Llama-Instruct) — direkt onları kullan
  • Saf performans (doğruluk) için — RLHF üslup/davranış için, yetenek için değil
Sık yapılan hatalar

Ödül hilesi (reward hacking)

Model 'cevabın iyi görünmesini' optimize etmeyi öğrenir, gerçekten iyi olmasını değil. Uzun cevaplar yazar (insanlar uzun = kapsamlı sanır), emoji koyar, gereksiz yere onaylar.

Yağcılık (sycophancy)

RLHF'li modeller, kullanıcının hatasına bile 'haklısınız' demeye başlayabilir. Geri bildirim toplanırken etiketleyiciler 'kibar' olmayı ödüllendirdiği için.

Çeşitliliğin azalması

RLHF sonrası model belirli bir üslup ve biçime kilitlenir. Aynı soruya hep aynı yapıyla cevap verir — temel modeldeki çeşitlilik kaybolur.