AI Sözlüğü
İleri· ~2 dk okuma#lora#peft#fine-tuning

LoRA

Low-Rank Adaptation

Büyük modeli olduğu gibi dondurup, yanına eğitilebilir küçük matrisler ekleyerek model davranışını ayarlamayı sağlayan parametre-verimli ince ayar yöntemi.

LOW-RANK ADAPTATIONDONDURULMUŞ BASEW7B param · değişmez+LoRA ADAPTÖRA×B~%0.5 eğitilebilir param7 milyar ağırlık yerine sadece iki küçük matris eğit
Tanım

7 milyar parametreli bir LLM'i ince ayar (fine-tune) yapmak için normal şartlarda bütün ağırlıkları güncellemen gerekir — bu üst seviye GPU'lar, gigabaytlarca VRAM ve haftalarca işlem demek. LoRA (2021, Microsoft) bu maliyeti yaklaşık 100 kat azaltan bir teknik önerdi.

Fikir: ana modeli dondurursun (ağırlıklar değişmez). Yanına her katmana iki küçük matris eklersin: A (n × r) ve B (r × m), burada r küçük bir sayı (genelde 8-64). Bu iki matrisin çarpımı, ana ağırlıklara eklenecek farkı (delta) temsil eder. Sadece A ve B eğitilir.

Sonuç: 7B'lik modelde yalnızca ~5M parametre eğitilir (%0.07). Tek bir tüketici GPU'su (24 GB VRAM) yeter. Eğitim sonunda çıkan adaptör dosyası ~50 MB; çalışma anında ana modele takılır.

Benzetme

Bir kitabı tamamen yeniden yazmak yerine, kenarına post-it'ler yapıştırmak gibi. Kitap (base model) olduğu gibi kalır. Post-it'ler (LoRA adapter) yorumları ekler. Farklı senaryolar için farklı post-it setleri yapabilir, aynı kitaba takıp çıkarabilirsin.

Gerçek dünyadan örnek

Llama-3-8B'i alıp Türkçe hukuk dokümanları için özelleştirmek istiyorsun. Klasik ince ayar: 8 × A100 GPU, $5000+, 3 gün. LoRA ile: tek RTX 4090, $20 elektrik, 4 saat. Eğitim sonunda adaptör dosyası: 80 MB.

Ertesi gün başka bir müşteri için tıbbi terim adaptasyonu istiyor. Aynı temel model, yeni LoRA. Canlı sistemde base + lora_legal ya da base + lora_medical diye anlık değiştirebilirsin. Birden çok varyantı saklamak ucuza geliyor.

Ne zaman kullan
  • Sınırlı GPU bütçesiyle açık kaynaklı modele ince ayar yapmak
  • Aynı temel model üzerinde birden çok uzmanlaşmış varyant istemek
  • Hızlı yineleme: gün içinde 5 farklı adaptör denemek
  • Uç noktada dağıtım — küçük adaptör dosyaları kolay taşınır
Ne zaman kullanma
  • Modelin temel yeteneklerini değiştirmen gerekiyorsa (örn. yeni dil ekleme) — tam ince ayar şart
  • Kapalı kaynaklı model kullanıyorsan (GPT, Claude) — LoRA için ağırlıklara erişim gerek
  • Çok küçük modellerde fayda az — ek karmaşıklık kazancı yemez
Sık yapılan hatalar

Rank (matris derecesi) seçimi yanıltıcı

r = 4 hızlı ama yetersiz öğrenme verir. r = 256 yavaş ve aşırı öğrenmeye düşer. Tipik tatlı nokta r = 8-32. Görev karmaşıklığına göre ayarla.

Birden fazla LoRA'yı saf yöntemle birleştirmek

İki LoRA'yı (hukuk + tıp) basitçe toplamak çakışma yaratır. DARE-TIES gibi birleştirme teknikleri var, hâlâ aktif araştırma alanı.

Temel modele bağımlılık

LoRA adaptörü sadece eğitildiği temel model sürümünde çalışır. Llama-3.1 → Llama-3.2'ye geçince yeniden eğitmek gerekir.