Guardrails
Korkuluk Filtreleri
LLM çıktılarını canlıda denetleyen, kontrol eden, gerekirse engelleyen koruma katmanları. Modelin kendi başına ulaşamadığı güvenliği sağlar.
Bir model ne kadar iyi hizalanmış olursa olsun, üretim ortamında %100 güvenli çıktı üretmez. Guardrails (korkuluklar), modelin yanına eklenen denetim katmanlarıdır: LLM bir cevap üretir, guardrail kontrol eder, sorun varsa engelle/değiştir/yeniden üret.
Tipik guardrail türleri: - PII detection: kişisel veri (TC, e-posta, telefon, kart no) sızıntısı - Toxicity filter: küfür, nefret, taciz içeriği - Topic boundary: alan dışı sorulara cevap verme ("şirket politikası dışında") - Hallucination check: factual claim'leri kaynakla doğrula - Output schema validation: yapılandırılmış çıktı formatına uy - Rate limiting: aynı kullanıcı dakikada 100 istek atamaz
Araçlar: Llama Guard (Meta'nın açık kaynak filtre modeli), Guardrails AI, NeMo Guardrails (NVIDIA), Lakera Guard. OpenAI/Anthropic kendi içsel guardrail'lerini de dışarıya satıyor.
Bir basın yayın organının editör katmanı gibi. Muhabir (LLM) haberi yazar, editör (guardrail) yayına çıkmadan kontrol eder: "burada iftira var", "bu kelime hassas", "kaynağı belgele". Tek başına muhabire güvenmek yerine süreçte ek bir kalite katmanı.
Bir bankanın müşteri destek botu. Müşteri "TC numaramı kayıtta nasıl güncellerim?" sorduğunda model uzun açıklama yazıyor — ama içinde yanlışlıkla başka müşterinin TC'sini örnek olarak kullanıyor (eğitim verisi sızıntısı).
PII guardrail bu çıktıyı yakalar:
1. Output regex ile TC pattern'i tara → bulundu.
2. Maskeleme uygula: [TC numarası] ile değiştir.
3. Logla, alarm at.
4. Müşteriye temizlenmiş çıktıyı yolla.
Tek satır kod yerine bütün bir mimari katman — tipik üretim sistemi 3-5 guardrail birden çalıştırır. Latency artar ama güvenlik şart.
- Production AI ürünü — guardrail opsiyonel değil, şart
- Düzenlenmiş sektörler (finans, sağlık, hukuk) — uyumluluk için zorunlu
- Halka açık ürünler — kötü niyetli kullanım kaçınılmaz
- Çok kullanıcılı sistemler — bir kullanıcının çıktısı diğerini etkilemesin
- Internal-only prototip, tek kullanıcı — overhead'e değmez
- Tek bir guardrail her şeyi çözecek sanmak (katmanlı düşün)
- Sadece input filtrelemek (output da filtrelenmeli)
False positives → kullanıcı deneyimi bozulur
Aşırı agresif filter masum cevapları engeller. 'Kanser' kelimesi geçen tıbbi soruyu blokla → tıp asistanı işe yaramaz. Kontekst-aware filter ve eşik ayarı şart.
Latency birikir
5 guardrail × 100ms = 500ms ek latency. Streaming output ile uyumsuz olabilir (her token için filter çalıştır?). Async/parallel filter mimarisi düşün.
Guardrail'lerin de jailbreak'i var
Llama Guard, OpenAI Moderation API gibi araçların kendileri de saldırılabilir. Tek savunma yapma, defense-in-depth ile katmanla.