AI Sözlüğü
Local AI
GUI deneyimi

LM Studio

GUI ile model indir, çalıştır, sohbet et

Genel bakış

LM Studio, local AI'a tamamen GUI üzerinden erişim sunan masaüstü uygulaması. Hugging Face'i içinden tarayabilir, modeli indirip indirme bittiğinde tek tıkla çalıştırabilirsin. Terminal yok, Python yok, config dosyası yok.

Altta llama.cpp ve MLX motorları çalışır. Hem sohbet UI'ı hem OpenAI uyumlu lokal sunucu sağlar — yani kod tarafından da çağırılabilir. Ücretsiz, ama açık kaynak değil.

Kurulum

# 1. https://lmstudio.ai/download adresinden .dmg
# 2. Applications klasörüne sürükle
# 3. Aç

# CLI'ı opsiyonel kur (macOS)
~/.lmstudio/bin/lms bootstrap

Yapılandırma

Çoğu şey GUI içinden ayarlanır: arama → indir → 'Load' → sohbet. Ama gücün asıl yeri: modelin config panelinde Context Length, GPU Offload, Temperature, Top-P, Repeat Penalty gibi her parametre slider'larla.

CLI ile model yükle (lms)bash
# Yüklü modelleri listele
lms ls

# Model indir
lms get llama-3.1-8b-instruct

# Sunucuyu başlat (default port 1234)
lms server start

# Kullanılan modeli değiştir
lms load llama-3.1-8b-instruct
lms unload --all

# Status
lms status
Önemli GUI parametreleribash
Context Length        # 2048 → 8192 → 32K (model destekliyorsa)
GPU Offload (layers)  # Auto → 100% (Apple Silicon'da otomatik)
CPU Threads           # CPU çekirdek sayısının yarısı genelde optimal
Eval Batch Size       # Prompt processing batch (512 default)
Temperature, Top-P    # Sampling
Repeat Penalty        # 1.1 default, tekrarı kısar
mlock                 # Modeli RAM'de sabitle (büyük modeller için)
Flash Attention       # CUDA'da hızlandırma

Donanım hızlandırma

İki motor: llama.cpp (GGUF) tüm donanımlarda; MLX (Apple Silicon) sadece M-serisi Mac'te. LM Studio donanımı algılar ve uygun motoru otomatik seçer.

Apple Silicon (M1/M2/M3/M4)Metal (llama.cpp) + MLX motoru seçeneği
NVIDIA GPUCUDA — Flash Attention, full offload
AMD GPUVulkan (Win/Linux), ROCm henüz yok
Intel MacCPU only
CPU only
Multi-GPUSınırlı, llama.cpp split desteği

Model formatları & quantization

GGUF (llama.cpp) ve MLX formatları. Hugging Face'i uygulamadan ara, indir butonuna bas. Quantization seçenekleri kullanıcı dostu açıklamalarla gelir ('Best for your hardware' rozeti).

GGUFTüm platformlar (llama.cpp motoru)
MLXSadece Apple Silicon, MLX motoru
Quant seçimiGUI içinde 'Recommended' rozeti otomatik öneri yapar
Vision modelleriLLaVA, Qwen-VL — multi-modal sohbet
Embedding modelleriVar (Nomic, BGE), /v1/embeddings endpoint

API

OpenAI uyumlu (Python)Python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",
)

resp = client.chat.completions.create(
    model="llama-3.1-8b-instruct",
    messages=[{"role": "user", "content": "Selam!"}],
)
print(resp.choices[0].message.content)
Embedding (Python)Python
emb = client.embeddings.create(
    model="nomic-embed-text-v1.5",
    input="Bir cümle embed et",
)
print(len(emb.data[0].embedding))  # 768

Performans

Tek-stream (M2 Max, MLX 8B Q4)~60 tok/s
Tek-stream (M2 Max, GGUF 8B Q4)~50 tok/s
Eşzamanlı istekÇok düşük — tek-kullanıcı odaklı
Soğuk yükleme10-60 sn

Sık yapılan hatalar

  • Açık kaynak değilUygulama kapalı kaynaklı. Production gömme, kendi binary, kurum içinde dağıtım için Ollama veya llama.cpp tercih et. Kişisel kullanımda ücretsiz.
  • Tek-kullanıcı ürünüSunucu modunda eşzamanlı istek desteği var ama yüksek throughput için tasarlanmamış. Production için vLLM.
  • Disk dolmasıGUI'den 10 model indirmek kolay; her biri 4-40 GB. Settings → Models klasörünü dış diske taşı, kullanmadığın modelleri sil.
  • Apple'da motor karmaşasıAynı model hem GGUF hem MLX olarak gelebilir. MLX genelde %20-30 daha hızlı ama tüm modellerde yok. Etiketlere dikkat et.

Kaynaklar