AI Sözlüğü
Orta· ~2 dk okuma#inference#deployment#runtime

Inference

Çıkarım — modelin çalıştırılma fazı

Eğitilmiş modelin canlıda kullanıldığı, soru sorulup cevap alındığı an. Eğitime göre çok daha kısa ve ucuzdur — ama her sorguda tekrar olur.

EĞİTİM ↔ ÇIKARIMEĞİTİM (TRAINING)haftalarmilyonlarca $ GPUağırlıklar güncellenirbir kez yapılırÇIKARIM (INFERENCE)milisaniyeleristek başına ~$0.001ağırlıklar değişmezmilyonlarca kezaynı modeli üretirken pahalı, kullanırken ucuzdur
Tanım

Yapay zeka modelinin iki ayrı yaşam fazı vardır: eğitim (training) ve çıkarım (inference). Eğitim haftalar sürer, milyonlarca dolar GPU yer, bir kez yapılır. Çıkarım ise milisaniyelerle ölçülür, sorgu başına ucuzdur — ama günde milyonlarca kez tekrarlanır.

Çıkarım sırasında modelin ağırlıkları donmuştur (read-only). Senin yaptığın iş: girdi token'larını al, modeli ileri yön (forward pass) ile çalıştır, çıktı token'larını üret. Backprop yok, gradient yok.

Endüstride "model deploy etmek" demek aslında "inference servisi kurmak" demektir: vLLM, TGI, TensorRT-LLM gibi araçlarla modeli GPU'ya yükle, HTTP API olarak aç, latency ve throughput'u optimize et.

Benzetme

Bir matematik kitabını ezberleme (training) vs sınavda kullanma (inference). Ezberleme aylar sürer, bir kez yaparsın. Sınavda cevap saniyeler içinde, defalarca. Sınav esnasında kitabı güncellemezsin — sadece cevap üretirsin.

Gerçek dünyadan örnek

OpenAI'a "Paris'in başkenti?" diye soru sorduğunda olan biten: 1. Sorunu token'lara çevirir (~5 token). 2. GPT-4 modelinin ağırlıkları H100 GPU'larda hazır bekliyor. 3. Bu token'lar modele verilir, model her bir sonraki token'ı olasılıkla üretir. 4. ~10 token çıktı üretir ("Paris, Fransa'nın başkentidir."), 800ms sürer, ~$0.0001 maliyet.

Aynı model dünya çapında saniyede on binlerce sorguya cevap veriyor. GPT-4'ü eğitmek 100M$+ tutmuş, ama her sorgu cents düzeyinde.

Ne zaman kullan
  • Model canlıya çıkarken — inference altyapısı seçimi (managed API vs self-host)
  • Latency optimizasyonu — batching, KV cache, speculative decoding
  • Maliyet planlama — request başına token × fiyat
  • Edge deployment — modeli kullanıcının cihazına götürme (mobile, browser)
Ne zaman kullanma
  • Eğitim ile karıştırmak — ikisi farklı altyapı, farklı sorun
  • Cold start kabul edilebilirse — küçük model + GPU yerine CPU yeter
  • Tek seferlik analiz — Colab notebook yeter, ayrı servis kurma
Sık yapılan hatalar

GPU bellek (VRAM) sınırı

70B parametreli bir modeli FP16'da çalıştırmak ~140 GB VRAM ister. Quantization (INT8, INT4) ile 2-4× düşer ama doğruluk azalır. Donanımı en baştan planla.

Latency'yi sadece TTFT'ye bakarak ölçmek

Time-To-First-Token (TTFT) önemli ama tek metrik değil. Tokens/saniye throughput'u, p99 latency, prompt cache hit oranı da ölç.

Batching atlamak

Tek sorguyu tek başına çalıştırmak GPU'yu boşa harcar. Continuous batching ile aynı anda 8-32 sorgu çalıştırırsan throughput 5-10× artar.