Inference
Çıkarım — modelin çalıştırılma fazı
Eğitilmiş modelin canlıda kullanıldığı, soru sorulup cevap alındığı an. Eğitime göre çok daha kısa ve ucuzdur — ama her sorguda tekrar olur.
Yapay zeka modelinin iki ayrı yaşam fazı vardır: eğitim (training) ve çıkarım (inference). Eğitim haftalar sürer, milyonlarca dolar GPU yer, bir kez yapılır. Çıkarım ise milisaniyelerle ölçülür, sorgu başına ucuzdur — ama günde milyonlarca kez tekrarlanır.
Çıkarım sırasında modelin ağırlıkları donmuştur (read-only). Senin yaptığın iş: girdi token'larını al, modeli ileri yön (forward pass) ile çalıştır, çıktı token'larını üret. Backprop yok, gradient yok.
Endüstride "model deploy etmek" demek aslında "inference servisi kurmak" demektir: vLLM, TGI, TensorRT-LLM gibi araçlarla modeli GPU'ya yükle, HTTP API olarak aç, latency ve throughput'u optimize et.
Bir matematik kitabını ezberleme (training) vs sınavda kullanma (inference). Ezberleme aylar sürer, bir kez yaparsın. Sınavda cevap saniyeler içinde, defalarca. Sınav esnasında kitabı güncellemezsin — sadece cevap üretirsin.
OpenAI'a "Paris'in başkenti?" diye soru sorduğunda olan biten: 1. Sorunu token'lara çevirir (~5 token). 2. GPT-4 modelinin ağırlıkları H100 GPU'larda hazır bekliyor. 3. Bu token'lar modele verilir, model her bir sonraki token'ı olasılıkla üretir. 4. ~10 token çıktı üretir ("Paris, Fransa'nın başkentidir."), 800ms sürer, ~$0.0001 maliyet.
Aynı model dünya çapında saniyede on binlerce sorguya cevap veriyor. GPT-4'ü eğitmek 100M$+ tutmuş, ama her sorgu cents düzeyinde.
- Model canlıya çıkarken — inference altyapısı seçimi (managed API vs self-host)
- Latency optimizasyonu — batching, KV cache, speculative decoding
- Maliyet planlama — request başına token × fiyat
- Edge deployment — modeli kullanıcının cihazına götürme (mobile, browser)
- Eğitim ile karıştırmak — ikisi farklı altyapı, farklı sorun
- Cold start kabul edilebilirse — küçük model + GPU yerine CPU yeter
- Tek seferlik analiz — Colab notebook yeter, ayrı servis kurma
GPU bellek (VRAM) sınırı
70B parametreli bir modeli FP16'da çalıştırmak ~140 GB VRAM ister. Quantization (INT8, INT4) ile 2-4× düşer ama doğruluk azalır. Donanımı en baştan planla.
Latency'yi sadece TTFT'ye bakarak ölçmek
Time-To-First-Token (TTFT) önemli ama tek metrik değil. Tokens/saniye throughput'u, p99 latency, prompt cache hit oranı da ölç.
Batching atlamak
Tek sorguyu tek başına çalıştırmak GPU'yu boşa harcar. Continuous batching ile aynı anda 8-32 sorgu çalıştırırsan throughput 5-10× artar.