Guardrails — Nedir? · AI Sözlüğü

Tanım

Bir model ne kadar iyi hizalanmış olursa olsun, üretim ortamında %100 güvenli çıktı üretmez. Guardrails (korkuluklar), modelin yanına eklenen denetim katmanlarıdır: LLM bir cevap üretir, guardrail kontrol eder, sorun varsa engelle/değiştir/yeniden üret.

Tipik guardrail türleri: - PII detection: kişisel veri (TC, e-posta, telefon, kart no) sızıntısı - Toxicity filter: küfür, nefret, taciz içeriği - Topic boundary: alan dışı sorulara cevap verme ("şirket politikası dışında") - Hallucination check: factual claim'leri kaynakla doğrula - Output schema validation: yapılandırılmış çıktı formatına uy - Rate limiting: aynı kullanıcı dakikada 100 istek atamaz

Araçlar: Llama Guard (Meta'nın açık kaynak filtre modeli), Guardrails AI, NeMo Guardrails (NVIDIA), Lakera Guard. OpenAI/Anthropic kendi içsel guardrail'lerini de dışarıya satıyor.

Benzetme

Bir basın yayın organının editör katmanı gibi. Muhabir (LLM) haberi yazar, editör (guardrail) yayına çıkmadan kontrol eder: "burada iftira var", "bu kelime hassas", "kaynağı belgele". Tek başına muhabire güvenmek yerine süreçte ek bir kalite katmanı.

Gerçek dünyadan örnek

Bir bankanın müşteri destek botu. Müşteri "TC numaramı kayıtta nasıl güncellerim?" sorduğunda model uzun açıklama yazıyor — ama içinde yanlışlıkla başka müşterinin TC'sini örnek olarak kullanıyor (eğitim verisi sızıntısı).

PII guardrail bu çıktıyı yakalar: 1. Output regex ile TC pattern'i tara → bulundu. 2. Maskeleme uygula: [TC numarası] ile değiştir. 3. Logla, alarm at. 4. Müşteriye temizlenmiş çıktıyı yolla.

Tek satır kod yerine bütün bir mimari katman — tipik üretim sistemi 3-5 guardrail birden çalıştırır. Latency artar ama güvenlik şart.

Ne zaman kullan

Production AI ürünü — guardrail opsiyonel değil, şart
Düzenlenmiş sektörler (finans, sağlık, hukuk) — uyumluluk için zorunlu
Halka açık ürünler — kötü niyetli kullanım kaçınılmaz
Çok kullanıcılı sistemler — bir kullanıcının çıktısı diğerini etkilemesin

Ne zaman kullanma

Internal-only prototip, tek kullanıcı — overhead'e değmez
Tek bir guardrail her şeyi çözecek sanmak (katmanlı düşün)
Sadece input filtrelemek (output da filtrelenmeli)

Sık yapılan hatalar

False positives → kullanıcı deneyimi bozulur

Aşırı agresif filter masum cevapları engeller. 'Kanser' kelimesi geçen tıbbi soruyu blokla → tıp asistanı işe yaramaz. Kontekst-aware filter ve eşik ayarı şart.

Latency birikir

5 guardrail × 100ms = 500ms ek latency. Streaming output ile uyumsuz olabilir (her token için filter çalıştır?). Async/parallel filter mimarisi düşün.

Guardrail'lerin de jailbreak'i var

Llama Guard, OpenAI Moderation API gibi araçların kendileri de saldırılabilir. Tek savunma yapma, defense-in-depth ile katmanla.