GPU Hesaplayıcı

Model boyutu + quant → kaç GB VRAM lazım, hangi GPU yeter.

MODEL BOYUTU

QUANT (HASSASİYET)

BAĞLAM (K TOKEN)

BATCH (EŞZAMANLI)

TAHMİNİ VRAM İHTİYACI

yaklaşık

Ağırlıklar

KV cache

Aktivasyon + ek

ÖNERİLEN GPU'LAR

→ VRAM tahminleri yaklaşıktır. Gerçek kullanım framework (vLLM, Transformers, llama.cpp), KV cache implementasyonu ve PagedAttention gibi optimizasyonlara göre %10-30 değişebilir.