Alignment — Nedir? · AI Sözlüğü

Tanım

Bir modeli devasa veriyle eğitirsen güçlü olur — ama mutlaka "iyi" olmaz. Yararlı (helpful), zararsız (harmless), dürüst (honest) olması ayrı bir mesele. Alignment, model çıktısını insan tercih ve değerleriyle uyumlu hale getiren tekniklerin şemsiye adıdır.

Pratikte 3 boyutu vardır: 1. Outer alignment: modelin maksimize etmesini istediğin metriğin gerçekten istediğin şey olması (reward design problemi). 2. Inner alignment: modelin içsel olarak hedefi izlemesi (vekil hedefler kovalamaması). 3. Capability alignment: modelin yeterince yetenekli olması (zararlı bir öneriyi reddetmek için zaten o öneriyi tanıyabilmek).

Yöntemler: RLHF (insan geri bildirimi), DPO (direct preference optimization), Constitutional AI (anayasa benzeri ilkelerle self-eleştiri), Inference-time alignment (çıktı denetimi).

Benzetme

Yetenekli ama disiplinsiz bir çırak yetiştirmek gibi. Teknik beceri var ama "saygılı ol", "müşteriye yalan söyleme", "sırrı koru" kuralları öğretilmemiş. Hizalama bu üst-katman eğitimi yapar. Yetenek + değerler = güvenilir ürün.

Gerçek dünyadan örnek

GPT-3 (2020): yetenekli, ama "zararlı içerik nasıl yapılır?" sorusuna cevap verirdi. ChatGPT (2022 = GPT-3 + RLHF) aynı soruyu reddediyor. Aynı temel model, hizalama farkıyla bambaşka bir ürün.

Anthropic'in Constitutional AI'sı bir adım öteye gitti: insan etiketleyici yerine modelin kendisinin yazılı bir "anayasa"ya göre çıktısını eleştirip düzeltmesi. Daha ölçeklenebilir, daha tutarlı.

DeepSeek R1 ise farklı bir yol: önce sadece görev başarısı için RL yap, sonra hizalama uygula — yetenek ile hizalamayı ayrı süreçler olarak işle.

Ne zaman kullan

Üretim AI ürünü kuruyorsan — alignment opsiyonel değil, gereklidir
Yüksek riskli alanlarda (sağlık, finans, hukuk) — küçük yanlış davranış büyük zarar
Marka tonu/tutarlılığı önemliyse — model her zaman 'sizin sesiniz' olmalı
Model güvenlik testleri (red-teaming) için — neyi kaçırıyorsunuz?

Ne zaman kullanma

Sıfırdan alignment yapmak küçük takımlar için pratik değil — managed model kullan
'Tam hizalanmış' diye bir şey yok — her hizalama yöntemi yan etki yaratır
Hizalamayı sadece RLHF ile sınırlamak — birden çok katman gerekir

Sık yapılan hatalar

Reward hacking

Model 'iyi görünme'yi optimize etmeyi öğrenir, gerçekten iyi olmayı değil. Uzun cevap yazar (insan: kapsamlı sanır), emoji bırakır, gereksiz onay verir. Ölçtüğün şeyi alırsın.

Sycophancy (yağcılık)

RLHF'li modeller kullanıcının yanlışına bile 'haklısınız' demeye başlar. Kibarlığı ödüllendiren etiketleyiciler bu yan etkiyi yaratır. Doğruluğu ön plana çıkaran eval şart.

Capabilities/alignment uçurumu

Hizalama yöntemleri model yeteneğinden geride kalır. Daha güçlü model = daha sofistike yan davranışlar. Hizalama bir kez yapılan iş değil, modelle birlikte evrim geçirir.