Alignment
Hizalama — modeli insan değerlerine uydurma
Modelin sadece güçlü değil, aynı zamanda istediğimiz yönde davranan, zarar vermeyen, kuralları takip eden bir model olmasını sağlama disiplini.
Bir modeli devasa veriyle eğitirsen güçlü olur — ama mutlaka "iyi" olmaz. Yararlı (helpful), zararsız (harmless), dürüst (honest) olması ayrı bir mesele. Alignment, model çıktısını insan tercih ve değerleriyle uyumlu hale getiren tekniklerin şemsiye adıdır.
Pratikte 3 boyutu vardır: 1. Outer alignment: modelin maksimize etmesini istediğin metriğin gerçekten istediğin şey olması (reward design problemi). 2. Inner alignment: modelin içsel olarak hedefi izlemesi (vekil hedefler kovalamaması). 3. Capability alignment: modelin yeterince yetenekli olması (zararlı bir öneriyi reddetmek için zaten o öneriyi tanıyabilmek).
Yöntemler: RLHF (insan geri bildirimi), DPO (direct preference optimization), Constitutional AI (anayasa benzeri ilkelerle self-eleştiri), Inference-time alignment (çıktı denetimi).
Yetenekli ama disiplinsiz bir çırak yetiştirmek gibi. Teknik beceri var ama "saygılı ol", "müşteriye yalan söyleme", "sırrı koru" kuralları öğretilmemiş. Hizalama bu üst-katman eğitimi yapar. Yetenek + değerler = güvenilir ürün.
GPT-3 (2020): yetenekli, ama "zararlı içerik nasıl yapılır?" sorusuna cevap verirdi. ChatGPT (2022 = GPT-3 + RLHF) aynı soruyu reddediyor. Aynı temel model, hizalama farkıyla bambaşka bir ürün.
Anthropic'in Constitutional AI'sı bir adım öteye gitti: insan etiketleyici yerine modelin kendisinin yazılı bir "anayasa"ya göre çıktısını eleştirip düzeltmesi. Daha ölçeklenebilir, daha tutarlı.
DeepSeek R1 ise farklı bir yol: önce sadece görev başarısı için RL yap, sonra hizalama uygula — yetenek ile hizalamayı ayrı süreçler olarak işle.
- Üretim AI ürünü kuruyorsan — alignment opsiyonel değil, gereklidir
- Yüksek riskli alanlarda (sağlık, finans, hukuk) — küçük yanlış davranış büyük zarar
- Marka tonu/tutarlılığı önemliyse — model her zaman 'sizin sesiniz' olmalı
- Model güvenlik testleri (red-teaming) için — neyi kaçırıyorsunuz?
- Sıfırdan alignment yapmak küçük takımlar için pratik değil — managed model kullan
- 'Tam hizalanmış' diye bir şey yok — her hizalama yöntemi yan etki yaratır
- Hizalamayı sadece RLHF ile sınırlamak — birden çok katman gerekir
Reward hacking
Model 'iyi görünme'yi optimize etmeyi öğrenir, gerçekten iyi olmayı değil. Uzun cevap yazar (insan: kapsamlı sanır), emoji bırakır, gereksiz onay verir. Ölçtüğün şeyi alırsın.
Sycophancy (yağcılık)
RLHF'li modeller kullanıcının yanlışına bile 'haklısınız' demeye başlar. Kibarlığı ödüllendiren etiketleyiciler bu yan etkiyi yaratır. Doğruluğu ön plana çıkaran eval şart.
Capabilities/alignment uçurumu
Hizalama yöntemleri model yeteneğinden geride kalır. Daha güçlü model = daha sofistike yan davranışlar. Hizalama bir kez yapılan iş değil, modelle birlikte evrim geçirir.