AI Atlas
Başlangıç· ~2 dk okuma#linear-regression#regression#statistics

Doğrusal Regresyon

Linear Regression

Bir veya birden fazla bağımsız değişkenin sayısal hedefle olan ilişkisini düz bir doğru ya da düzlemle modelleyen, makine öğrenmesinin en temel algoritması.

DOĞRUSAL REGRESYONy = β₀ + β₁xhataKarelerin toplamını minimize eden doğru.
Tanım

Doğrusal regresyon, hedef değişkenin girdilerin ağırlıklı toplamı olarak yazılabileceğini varsayar: y = β₀ + β₁x₁ + β₂x₂ + ... + ε. Modelin işi, eğitim verisinde gerçek değer ile tahmini arasındaki farkın karelerinin toplamını minimize eden ağırlıkları (β katsayıları) bulmaktır. Bu klasik problemin kapalı formdaki çözümü "en küçük kareler yöntemi" (ordinary least squares) ile bulunur.

Algoritmanın gücü sadeliğinde ve yorumlanabilirliğindedir. Her bir katsayı, ilgili özellikteki bir birimlik artışın hedefe etkisini doğrudan gösterir. Bu sayede model bir tahminci olduğu kadar bir açıklama aracıdır da; iş analizinden epidemiyolojiye kadar her yerde kullanılır.

Doğrusal varsayım çoğu zaman kısıtlayıcıdır; gerçek dünya ilişkileri genellikle eğridir. Bunu aşmak için özelliklerin polinom hâli, logaritması ya da etkileşim terimleri eklenir. Bunun ötesinde Ridge ve Lasso gibi düzenlileştirme (regularization) varyantları, ağırlıkların büyümesini ve aşırı öğrenmeyi sınırlar.

Benzetme

Bir ekonomistin "her ek bir yıl eğitim ortalama maaşı şu kadar artırır" demesi gibidir. Kafasında bir denklem vardır: maaş = sabit + (yıl × katsayı). Geçmiş binlerce kişinin verisinden bu katsayıyı çıkarır. Tahmini mükemmel değildir, ama doğrudan yorumlanabilir: "iki yıl daha eğit, maaşın ortalama bu kadar artar". İşte doğrusal regresyon tam olarak bu kafa yapısının matematiksel hâlidir.

Gerçek dünyadan örnek

Bir iş yeri kira fiyatı tahmin aracı kuruyor. Veri: metrekare, oda sayısı, kat, binanın yaşı, mahalle, ulaşım skoru. Hedef: aylık kira. Doğrusal regresyon eğittiğinde model şunu söyler: "metrekare başına 78 TL eklenir, oda başına 1.250 TL eklenir, bina yaşı her yıl 35 TL düşürür, X mahallesinde olmak 4.000 TL artırır."

Tahmin doğruluğu olağanüstü değildir (gradient boosting daha iyi yapar), ama emlak ekibi bu katsayıları gördüğü an mantığı doğrular. "Mahalle etkisi gerçekten bu kadar büyük mü?" diye sorgulanır, veriye geri dönülür. Yorumlanabilirlik, doğruluğun bir adım önüne geçer.

Kod örnekleri
scikit-learn · doğrusal regresyonPython
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()
model.fit(X_train, y_train)

# Katsayılar doğrudan yorumlanabilir
for name, coef in zip(feature_names, model.coef_):
    print(f"{name}: {coef:+.2f}")
print(f"Sabit (intercept): {model.intercept_:.2f}")

mae = mean_absolute_error(y_test, model.predict(X_test))
print(f"Test MAE: {mae:.2f}")

# Ridge ile düzenlileştirme — büyük katsayıları cezalandırır
ridge = Ridge(alpha=1.0).fit(X_train, y_train)
Ne zaman kullan
  • Yorumlanabilirlik tahmin doğruluğundan önemliyse
  • İlişki gerçekten doğrusala yakınsa (ya da dönüşümlerle yapılabiliyorsa)
  • Hızlı ve şeffaf bir başlangıç modeli (baseline) gerekiyorsa
  • İstatistiksel anlamlılık testleri ve güven aralıkları lazımsa
Ne zaman kullanma
  • Veri-değişken ilişkisi belirgin şekilde doğrusal değilse
  • Çok fazla aykırı değer varsa — kareli hata onlardan ağır etkilenir
  • Çok özellikli ve birbiriyle ilişkili değişkenler varsa (multikollinearite) — Ridge/Lasso veya başka mimari düşün
Sık yapılan hatalar

Çok değişkenli korelasyon

İki özellik birbirinin neredeyse kopyasıysa (multikollinearite), katsayılar uçar ve yorum imkânsız hâle gelir. Korelasyon matrisi kontrol et, gereksiz değişkeni at ya da Ridge kullan.

Aykırı değer etkisi

Sıradan en küçük kareler aykırı değerlere fazlaca ağırlık verir. Tek bir uçuk veri noktası tüm doğruyu eğebilir. Robust regression veya outlier temizliği şart.

Doğrusallık varsayımını test etmemek

Modelin makul bir tahmin yaptığını sanırsın, oysa ilişki eğridir ve sürekli sistematik hata yaparsın. Residual plot çiz; rastgele dağılmıyorsa doğrusallık ihlal var demektir.