RLHF — Nedir? · AI Sözlüğü

Tanım

Bir temel model (GPT-3 gibi) yalnızca "sıradaki token tahmini" yapar — bu onu kibar cevap vermeye ya da talimat takibine yetmez. RLHF tam olarak bu boşluğu doldurur: insanların hangi tür cevapları sevdiğini modele öğretir.

Üç aşamalı akış: 1. SFT (Supervised Fine-Tuning — denetimli ince ayar): insanların yazdığı kaliteli cevap örnekleriyle modeli ön ayar yap. 2. Ödül Modeli (Reward Model): aynı soruya 4 cevap üret, insanlara sıralat, bu sıralamayı tahmin eden ayrı bir model eğit. 3. PPO/DPO: ana modeli, ödül modelinin puanını maksimize edecek şekilde pekiştirmeli öğrenme (RL) ile ince ayar yap.

Sonuç: model "doğru token" değil, "insanların onaylayacağı cevap" üretir. ChatGPT'nin yardımsever ve kibar üslubu RLHF'ten gelir.

Benzetme

Yeni bir restoran açtın. Şef teknik olarak iyi yemek yapıyor (temel model) ama hangi tarz tatları müşterinin sevdiğini bilmiyor. Aşama 1: örnek menü kurarak başlıyorsun. Aşama 2: müşterilerden "şu tabak mı, bu mu?" diye geri bildirim topluyorsun. Aşama 3: şefe bu geri bildirime göre tarifleri ayarlamasını söylüyorsun.

Gerçek dünyadan örnek

GPT-3'e "fizz buzz programı yaz" desen, temel model muhtemelen rastgele bir kod parçası, eksik açıklama, belki tamamen alakasız bir metin üretirdi. ChatGPT (GPT-3 + RLHF) ise: kısa açıklama → temiz kod → nasıl çalıştırılacağı. Aynı temel model, RLHF sayesinde insan tercihi yönünde "hizalanmış".

Anthropic'in Constitutional AI'sı ve OpenAI'ın DPO'su gibi yöntemler aynı fikrin türevleridir.

Ne zaman kullan

Bir temel modeli asistan haline getirmek (sohbet ürünü)
Model çıktısını kullanıcı tercihine göre ayarlamak (uzunluk, üslup, biçim)
Zararlı içerik üretimini azaltmak (güvenlik hizalaması)
İnce ayardan sonra ek cila

Ne zaman kullanma

Küçük projeler — milyonlarca dolar ve binlerce insan etiketleyici gerekir
Zaten hizalanmış model varsa (GPT, Claude, Llama-Instruct) — direkt onları kullan
Saf performans (doğruluk) için — RLHF üslup/davranış için, yetenek için değil

Sık yapılan hatalar

Ödül hilesi (reward hacking)

Model 'cevabın iyi görünmesini' optimize etmeyi öğrenir, gerçekten iyi olmasını değil. Uzun cevaplar yazar (insanlar uzun = kapsamlı sanır), emoji koyar, gereksiz yere onaylar.

Yağcılık (sycophancy)

RLHF'li modeller, kullanıcının hatasına bile 'haklısınız' demeye başlayabilir. Geri bildirim toplanırken etiketleyiciler 'kibar' olmayı ödüllendirdiği için.

Çeşitliliğin azalması

RLHF sonrası model belirli bir üslup ve biçime kilitlenir. Aynı soruya hep aynı yapıyla cevap verir — temel modeldeki çeşitlilik kaybolur.