LM Studio
GUI ile model indir, çalıştır, sohbet et
Genel bakış
LM Studio, local AI'a tamamen GUI üzerinden erişim sunan masaüstü uygulaması. Hugging Face'i içinden tarayabilir, modeli indirip indirme bittiğinde tek tıkla çalıştırabilirsin. Terminal yok, Python yok, config dosyası yok.
Altta llama.cpp ve MLX motorları çalışır. Hem sohbet UI'ı hem OpenAI uyumlu lokal sunucu sağlar — yani kod tarafından da çağırılabilir. Ücretsiz, ama açık kaynak değil.
Kurulum
# 1. https://lmstudio.ai/download adresinden .dmg
# 2. Applications klasörüne sürükle
# 3. Aç
# CLI'ı opsiyonel kur (macOS)
~/.lmstudio/bin/lms bootstrapYapılandırma
Çoğu şey GUI içinden ayarlanır: arama → indir → 'Load' → sohbet. Ama gücün asıl yeri: modelin config panelinde Context Length, GPU Offload, Temperature, Top-P, Repeat Penalty gibi her parametre slider'larla.
# Yüklü modelleri listele
lms ls
# Model indir
lms get llama-3.1-8b-instruct
# Sunucuyu başlat (default port 1234)
lms server start
# Kullanılan modeli değiştir
lms load llama-3.1-8b-instruct
lms unload --all
# Status
lms statusContext Length # 2048 → 8192 → 32K (model destekliyorsa)
GPU Offload (layers) # Auto → 100% (Apple Silicon'da otomatik)
CPU Threads # CPU çekirdek sayısının yarısı genelde optimal
Eval Batch Size # Prompt processing batch (512 default)
Temperature, Top-P # Sampling
Repeat Penalty # 1.1 default, tekrarı kısar
mlock # Modeli RAM'de sabitle (büyük modeller için)
Flash Attention # CUDA'da hızlandırmaDonanım hızlandırma
İki motor: llama.cpp (GGUF) tüm donanımlarda; MLX (Apple Silicon) sadece M-serisi Mac'te. LM Studio donanımı algılar ve uygun motoru otomatik seçer.
| Apple Silicon (M1/M2/M3/M4) | Metal (llama.cpp) + MLX motoru seçeneği |
| NVIDIA GPU | CUDA — Flash Attention, full offload |
| AMD GPU | Vulkan (Win/Linux), ROCm henüz yok |
| Intel Mac | CPU only |
| CPU only | ✓ |
| Multi-GPU | Sınırlı, llama.cpp split desteği |
Model formatları & quantization
GGUF (llama.cpp) ve MLX formatları. Hugging Face'i uygulamadan ara, indir butonuna bas. Quantization seçenekleri kullanıcı dostu açıklamalarla gelir ('Best for your hardware' rozeti).
| GGUF | Tüm platformlar (llama.cpp motoru) |
| MLX | Sadece Apple Silicon, MLX motoru |
| Quant seçimi | GUI içinde 'Recommended' rozeti otomatik öneri yapar |
| Vision modelleri | LLaVA, Qwen-VL — multi-modal sohbet |
| Embedding modelleri | Var (Nomic, BGE), /v1/embeddings endpoint |
API
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio",
)
resp = client.chat.completions.create(
model="llama-3.1-8b-instruct",
messages=[{"role": "user", "content": "Selam!"}],
)
print(resp.choices[0].message.content)emb = client.embeddings.create(
model="nomic-embed-text-v1.5",
input="Bir cümle embed et",
)
print(len(emb.data[0].embedding)) # 768Performans
| Tek-stream (M2 Max, MLX 8B Q4) | ~60 tok/s |
| Tek-stream (M2 Max, GGUF 8B Q4) | ~50 tok/s |
| Eşzamanlı istek | Çok düşük — tek-kullanıcı odaklı |
| Soğuk yükleme | 10-60 sn |
Sık yapılan hatalar
- Açık kaynak değilUygulama kapalı kaynaklı. Production gömme, kendi binary, kurum içinde dağıtım için Ollama veya llama.cpp tercih et. Kişisel kullanımda ücretsiz.
- Tek-kullanıcı ürünüSunucu modunda eşzamanlı istek desteği var ama yüksek throughput için tasarlanmamış. Production için vLLM.
- Disk dolmasıGUI'den 10 model indirmek kolay; her biri 4-40 GB. Settings → Models klasörünü dış diske taşı, kullanmadığın modelleri sil.
- Apple'da motor karmaşasıAynı model hem GGUF hem MLX olarak gelebilir. MLX genelde %20-30 daha hızlı ama tüm modellerde yok. Etiketlere dikkat et.