AI Sözlüğü
Orta· ~2 dk okuma#guardrails#safety#production

Guardrails

Korkuluk Filtreleri

LLM çıktılarını canlıda denetleyen, kontrol eden, gerekirse engelleyen koruma katmanları. Modelin kendi başına ulaşamadığı güvenliği sağlar.

KATMAN KATMAN GÜVENLİK FİLTRELERİLLM ÇIKTISIham yanıtPIIkişisel veriZARARLIküfür/nefretOFF-TOPICalan dışı✓ GÜVENLİkullanıcıyaherhangi bir filtre kırılırsa → reddet veya yeniden ürettek bir model değil; üretim ortamında her zaman katmanlı koruma
Tanım

Bir model ne kadar iyi hizalanmış olursa olsun, üretim ortamında %100 güvenli çıktı üretmez. Guardrails (korkuluklar), modelin yanına eklenen denetim katmanlarıdır: LLM bir cevap üretir, guardrail kontrol eder, sorun varsa engelle/değiştir/yeniden üret.

Tipik guardrail türleri: - PII detection: kişisel veri (TC, e-posta, telefon, kart no) sızıntısı - Toxicity filter: küfür, nefret, taciz içeriği - Topic boundary: alan dışı sorulara cevap verme ("şirket politikası dışında") - Hallucination check: factual claim'leri kaynakla doğrula - Output schema validation: yapılandırılmış çıktı formatına uy - Rate limiting: aynı kullanıcı dakikada 100 istek atamaz

Araçlar: Llama Guard (Meta'nın açık kaynak filtre modeli), Guardrails AI, NeMo Guardrails (NVIDIA), Lakera Guard. OpenAI/Anthropic kendi içsel guardrail'lerini de dışarıya satıyor.

Benzetme

Bir basın yayın organının editör katmanı gibi. Muhabir (LLM) haberi yazar, editör (guardrail) yayına çıkmadan kontrol eder: "burada iftira var", "bu kelime hassas", "kaynağı belgele". Tek başına muhabire güvenmek yerine süreçte ek bir kalite katmanı.

Gerçek dünyadan örnek

Bir bankanın müşteri destek botu. Müşteri "TC numaramı kayıtta nasıl güncellerim?" sorduğunda model uzun açıklama yazıyor — ama içinde yanlışlıkla başka müşterinin TC'sini örnek olarak kullanıyor (eğitim verisi sızıntısı).

PII guardrail bu çıktıyı yakalar: 1. Output regex ile TC pattern'i tara → bulundu. 2. Maskeleme uygula: [TC numarası] ile değiştir. 3. Logla, alarm at. 4. Müşteriye temizlenmiş çıktıyı yolla.

Tek satır kod yerine bütün bir mimari katman — tipik üretim sistemi 3-5 guardrail birden çalıştırır. Latency artar ama güvenlik şart.

Ne zaman kullan
  • Production AI ürünü — guardrail opsiyonel değil, şart
  • Düzenlenmiş sektörler (finans, sağlık, hukuk) — uyumluluk için zorunlu
  • Halka açık ürünler — kötü niyetli kullanım kaçınılmaz
  • Çok kullanıcılı sistemler — bir kullanıcının çıktısı diğerini etkilemesin
Ne zaman kullanma
  • Internal-only prototip, tek kullanıcı — overhead'e değmez
  • Tek bir guardrail her şeyi çözecek sanmak (katmanlı düşün)
  • Sadece input filtrelemek (output da filtrelenmeli)
Sık yapılan hatalar

False positives → kullanıcı deneyimi bozulur

Aşırı agresif filter masum cevapları engeller. 'Kanser' kelimesi geçen tıbbi soruyu blokla → tıp asistanı işe yaramaz. Kontekst-aware filter ve eşik ayarı şart.

Latency birikir

5 guardrail × 100ms = 500ms ek latency. Streaming output ile uyumsuz olabilir (her token için filter çalıştır?). Async/parallel filter mimarisi düşün.

Guardrail'lerin de jailbreak'i var

Llama Guard, OpenAI Moderation API gibi araçların kendileri de saldırılabilir. Tek savunma yapma, defense-in-depth ile katmanla.