GUI deneyimi

LM Studio

GUI ile model indir, çalıştır, sohbet et

Genel bakış

LM Studio, local AI'a tamamen GUI üzerinden erişim sunan masaüstü uygulaması. Hugging Face'i içinden tarayabilir, modeli indirip indirme bittiğinde tek tıkla çalıştırabilirsin. Terminal yok, Python yok, config dosyası yok.

Altta llama.cpp ve MLX motorları çalışır. Hem sohbet UI'ı hem OpenAI uyumlu lokal sunucu sağlar — yani kod tarafından da çağırılabilir. Ücretsiz, ama açık kaynak değil.

Kurulum

# 1. https://lmstudio.ai/download adresinden .dmg
# 2. Applications klasörüne sürükle
# 3. Aç

# CLI'ı opsiyonel kur (macOS)
~/.lmstudio/bin/lms bootstrap

Yapılandırma

Çoğu şey GUI içinden ayarlanır: arama → indir → 'Load' → sohbet. Ama gücün asıl yeri: modelin config panelinde Context Length, GPU Offload, Temperature, Top-P, Repeat Penalty gibi her parametre slider'larla.

CLI ile model yükle (lms)bash

# Yüklü modelleri listele
lms ls

# Model indir
lms get llama-3.1-8b-instruct

# Sunucuyu başlat (default port 1234)
lms server start

# Kullanılan modeli değiştir
lms load llama-3.1-8b-instruct
lms unload --all

# Status
lms status

Önemli GUI parametreleribash

Context Length        # 2048 → 8192 → 32K (model destekliyorsa)
GPU Offload (layers)  # Auto → 100% (Apple Silicon'da otomatik)
CPU Threads           # CPU çekirdek sayısının yarısı genelde optimal
Eval Batch Size       # Prompt processing batch (512 default)
Temperature, Top-P    # Sampling
Repeat Penalty        # 1.1 default, tekrarı kısar
mlock                 # Modeli RAM'de sabitle (büyük modeller için)
Flash Attention       # CUDA'da hızlandırma

Donanım hızlandırma

İki motor: llama.cpp (GGUF) tüm donanımlarda; MLX (Apple Silicon) sadece M-serisi Mac'te. LM Studio donanımı algılar ve uygun motoru otomatik seçer.

Apple Silicon (M1/M2/M3/M4)	Metal (llama.cpp) + MLX motoru seçeneği
NVIDIA GPU	CUDA — Flash Attention, full offload
AMD GPU	Vulkan (Win/Linux), ROCm henüz yok
Intel Mac	CPU only
CPU only	✓
Multi-GPU	Sınırlı, llama.cpp split desteği

Model formatları & quantization

GGUF (llama.cpp) ve MLX formatları. Hugging Face'i uygulamadan ara, indir butonuna bas. Quantization seçenekleri kullanıcı dostu açıklamalarla gelir ('Best for your hardware' rozeti).

GGUF	Tüm platformlar (llama.cpp motoru)
MLX	Sadece Apple Silicon, MLX motoru
Quant seçimi	GUI içinde 'Recommended' rozeti otomatik öneri yapar
Vision modelleri	LLaVA, Qwen-VL — multi-modal sohbet
Embedding modelleri	Var (Nomic, BGE), /v1/embeddings endpoint

API

OpenAI uyumlu (Python)Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",
)

resp = client.chat.completions.create(
    model="llama-3.1-8b-instruct",
    messages=[{"role": "user", "content": "Selam!"}],
)
print(resp.choices[0].message.content)

Embedding (Python)Python

emb = client.embeddings.create(
    model="nomic-embed-text-v1.5",
    input="Bir cümle embed et",
)
print(len(emb.data[0].embedding))  # 768

Performans

Tek-stream (M2 Max, MLX 8B Q4)	~60 tok/s
Tek-stream (M2 Max, GGUF 8B Q4)	~50 tok/s
Eşzamanlı istek	Çok düşük — tek-kullanıcı odaklı
Soğuk yükleme	10-60 sn

Sık yapılan hatalar

Açık kaynak değilUygulama kapalı kaynaklı. Production gömme, kendi binary, kurum içinde dağıtım için Ollama veya llama.cpp tercih et. Kişisel kullanımda ücretsiz.
Tek-kullanıcı ürünüSunucu modunda eşzamanlı istek desteği var ama yüksek throughput için tasarlanmamış. Production için vLLM.
Disk dolmasıGUI'den 10 model indirmek kolay; her biri 4-40 GB. Settings → Models klasörünü dış diske taşı, kullanmadığın modelleri sil.
Apple'da motor karmaşasıAynı model hem GGUF hem MLX olarak gelebilir. MLX genelde %20-30 daha hızlı ama tüm modellerde yok. Etiketlere dikkat et.

Kaynaklar

lmstudio.ai İndir Docs lms CLI OpenAI compatibility