AI Atlas
Başlangıç· ~2 dk okuma#supervised-learning#machine-learning#classification

Denetimli Öğrenme

Supervised Learning

Modele her bir girdiyle birlikte doğru cevabı (etiketi) gösterip, bu çift kümeden gelecekte göreceği yeni girdileri tahmin etmesini sağlayan öğrenme türü.

DENETİMLİ ÖĞRENMEEğitim çiftleri🐶köpek🐱kedi🐦kuşModelf(x) → y?→🐶Etiketli geçmişten kural çıkarır, yeni örnekte tahmin eder.
Tanım

Denetimli öğrenme, makine öğrenmesinin en yaygın ve en anlaşılır biçimidir. Modele binlerce hatta milyonlarca (girdi, doğru cevap) çifti gösterilir; model bu çiftlerden bir fonksiyon çıkarmaya çalışır. Eğitim bittikten sonra daha önce görmediği bir girdiye baktığında, çıkardığı bu fonksiyonu kullanarak tahmin üretir.

Çıktının türüne göre iki ana ailesi vardır. Sınıflandırma (classification) problemlerinde çıktı sonlu bir etiket kümesinden seçilir: "spam mı, değil mi", "köpek mi, kedi mi, kuş mu", "kanserli hücre mi, sağlıklı mı". Regresyon (regression) problemlerinde ise çıktı sayısal ve süreklidir: bir evin fiyatı, yarınki sıcaklık, bir reklamın tıklanma oranı.

Etiketleri kim koyar? Çoğu zaman insan. İşte denetimli öğrenmenin en pahalı kısmı budur: kaliteli, çelişkisiz ve yeterince çeşitli etiketli veri toplamak. ImageNet gibi büyük veri kümeleri yıllarca süren, binlerce etiketçi tarafından yapılan bir emeğin ürünüdür.

Benzetme

Bir şefin yanında çıraklık etmek gibidir. Şef tabağı uzatır, "bu risotto", "bu carbonara" der. Sen yüzlerce tabağa baktıkça, bir gün sana sorulmadan, yeni bir tabağa bakıp "bu risotto" diyebilirsin. Etiketleri sana şef koymuştur; sen sadece o etiketlerle gelen örüntüyü içselleştirirsin. İlk tabağı ezbere bilmezsin, ama yeterince çeşitli örnek görünce kavramın özünü yakalarsın.

Gerçek dünyadan örnek

Bir banka kart dolandırıcılığını yakalamak istiyor. Geçmiş 5 yılın her işlemini topluyor: tutar, saat, konum, satıcı kategorisi, kart sahibinin alışkanlıkları. Her işlemin yanına da gerçekleşmiş etiket yazıyor: "dolandırıcılık" ya da "geçerli". Bu etiketleri çağrı merkezi kayıtları, müşteri itirazları ve manuel inceleme ekiplerinden derliyor.

Eğitim bittikten sonra model, gece 03:14'te Brezilya'dan gelen 8.500 TL'lik bir işlemi gördüğünde — kart sahibinin geçmişte hep İstanbul'da küçük tutarlarla alışveriş yaptığını da bildiğinden — yüksek olasılıkla "dolandırıcılık" tahmini üretir. İnsan operatöre alarm gider, kart bloke edilir. Hiçbir mühendisin elle yazdığı bir kural yoktur; model her şeyi etiketli verilerden öğrenmiştir.

Kod örnekleri
scikit-learn · sınıflandırma örneğiPython
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Etiketli veri: X = özellikler, y = sınıf etiketi
X, y = load_iris(return_X_y=True)

# Eğitim ve test olarak ayır (geneleme için kritik)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Modeli etiketli veriyle eğit
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Daha önce görmediği örneklerde tahmin üret
accuracy = model.score(X_test, y_test)
print(f"Test doğruluğu: {accuracy:.2%}")
Ne zaman kullan
  • Geçmiş veride hem girdi hem doğru çıktı varsa (etiketli veri)
  • Tahmin etmek istediğin şey net ve ölçülebilir bir hedefse
  • Yeterince fazla, dengeli ve çeşitli örneğin varsa
  • Sonucun açıklanabilir olması gerekiyorsa (basit modeller seçilebilir)
Ne zaman kullanma
  • Etiketleme imkânsız ya da çok pahalıysa — denetimsiz veya yarı denetimli yöntemleri düşün
  • Sınıflar çok dengesizse (örn. milyonda bir dolandırıcılık) — özel teknikler gerekir
  • Veri sürekli değişiyor ve etiketler eskiyorsa — modelin sürekli yeniden eğitilmesi gerekir
Sık yapılan hatalar

Sızıntılı özellikler

Eğitim verisine, gerçek dünyada tahmin anında bilinmeyecek bir bilgi sızabilir. Klasik örnek: 'müşteri kredi alacak mı' tahmininde 'kredi başlangıç tarihi'ni özellik olarak vermek. Eğitimde mükemmel sonuç verir, canlıda tamamen başarısız olur.

Dengesiz sınıflar

Eğer pozitif sınıf verinin %0,1'i ise, model 'her şeye negatif de' derse %99,9 doğruluk yakalar ama hiçbir işe yaramaz. Çözüm: alt/üst örnekleme, sınıf ağırlıkları, F1 ya da ROC-AUC gibi metriklerle değerlendirme.

Etiket gürültüsü

Etiketleyen insanlar yanlış ya da çelişkili etiket koyabilir. Aynı görüntüye iki kişi 'köpek' / 'kurt' diyorsa modelin tutarlı öğrenmesi zorlaşır. Etiket kalitesi modelden önce gelir.