Inference — Nedir? · AI Sözlüğü

Tanım

Yapay zeka modelinin iki ayrı yaşam fazı vardır: eğitim (training) ve çıkarım (inference). Eğitim haftalar sürer, milyonlarca dolar GPU yer, bir kez yapılır. Çıkarım ise milisaniyelerle ölçülür, sorgu başına ucuzdur — ama günde milyonlarca kez tekrarlanır.

Çıkarım sırasında modelin ağırlıkları donmuştur (read-only). Senin yaptığın iş: girdi token'larını al, modeli ileri yön (forward pass) ile çalıştır, çıktı token'larını üret. Backprop yok, gradient yok.

Endüstride "model deploy etmek" demek aslında "inference servisi kurmak" demektir: vLLM, TGI, TensorRT-LLM gibi araçlarla modeli GPU'ya yükle, HTTP API olarak aç, latency ve throughput'u optimize et.

Benzetme

Bir matematik kitabını ezberleme (training) vs sınavda kullanma (inference). Ezberleme aylar sürer, bir kez yaparsın. Sınavda cevap saniyeler içinde, defalarca. Sınav esnasında kitabı güncellemezsin — sadece cevap üretirsin.

Gerçek dünyadan örnek

OpenAI'a "Paris'in başkenti?" diye soru sorduğunda olan biten: 1. Sorunu token'lara çevirir (~5 token). 2. GPT-4 modelinin ağırlıkları H100 GPU'larda hazır bekliyor. 3. Bu token'lar modele verilir, model her bir sonraki token'ı olasılıkla üretir. 4. ~10 token çıktı üretir ("Paris, Fransa'nın başkentidir."), 800ms sürer, ~$0.0001 maliyet.

Aynı model dünya çapında saniyede on binlerce sorguya cevap veriyor. GPT-4'ü eğitmek 100M$+ tutmuş, ama her sorgu cents düzeyinde.

Ne zaman kullan

Model canlıya çıkarken — inference altyapısı seçimi (managed API vs self-host)
Latency optimizasyonu — batching, KV cache, speculative decoding
Maliyet planlama — request başına token × fiyat
Edge deployment — modeli kullanıcının cihazına götürme (mobile, browser)

Ne zaman kullanma

Eğitim ile karıştırmak — ikisi farklı altyapı, farklı sorun
Cold start kabul edilebilirse — küçük model + GPU yerine CPU yeter
Tek seferlik analiz — Colab notebook yeter, ayrı servis kurma

Sık yapılan hatalar

GPU bellek (VRAM) sınırı

70B parametreli bir modeli FP16'da çalıştırmak ~140 GB VRAM ister. Quantization (INT8, INT4) ile 2-4× düşer ama doğruluk azalır. Donanımı en baştan planla.

Latency'yi sadece TTFT'ye bakarak ölçmek

Time-To-First-Token (TTFT) önemli ama tek metrik değil. Tokens/saniye throughput'u, p99 latency, prompt cache hit oranı da ölç.

Batching atlamak

Tek sorguyu tek başına çalıştırmak GPU'yu boşa harcar. Continuous batching ile aynı anda 8-32 sorgu çalıştırırsan throughput 5-10× artar.