Denetimli Öğrenme — Nedir?

Tanım

Denetimli öğrenme, makine öğrenmesinin en yaygın ve en anlaşılır biçimidir. Modele binlerce hatta milyonlarca (girdi, doğru cevap) çifti gösterilir; model bu çiftlerden bir fonksiyon çıkarmaya çalışır. Eğitim bittikten sonra daha önce görmediği bir girdiye baktığında, çıkardığı bu fonksiyonu kullanarak tahmin üretir.

Çıktının türüne göre iki ana ailesi vardır. Sınıflandırma (classification) problemlerinde çıktı sonlu bir etiket kümesinden seçilir: "spam mı, değil mi", "köpek mi, kedi mi, kuş mu", "kanserli hücre mi, sağlıklı mı". Regresyon (regression) problemlerinde ise çıktı sayısal ve süreklidir: bir evin fiyatı, yarınki sıcaklık, bir reklamın tıklanma oranı.

Etiketleri kim koyar? Çoğu zaman insan. İşte denetimli öğrenmenin en pahalı kısmı budur: kaliteli, çelişkisiz ve yeterince çeşitli etiketli veri toplamak. ImageNet gibi büyük veri kümeleri yıllarca süren, binlerce etiketçi tarafından yapılan bir emeğin ürünüdür.

Benzetme

Bir şefin yanında çıraklık etmek gibidir. Şef tabağı uzatır, "bu risotto", "bu carbonara" der. Sen yüzlerce tabağa baktıkça, bir gün sana sorulmadan, yeni bir tabağa bakıp "bu risotto" diyebilirsin. Etiketleri sana şef koymuştur; sen sadece o etiketlerle gelen örüntüyü içselleştirirsin. İlk tabağı ezbere bilmezsin, ama yeterince çeşitli örnek görünce kavramın özünü yakalarsın.

Gerçek dünyadan örnek

Bir banka kart dolandırıcılığını yakalamak istiyor. Geçmiş 5 yılın her işlemini topluyor: tutar, saat, konum, satıcı kategorisi, kart sahibinin alışkanlıkları. Her işlemin yanına da gerçekleşmiş etiket yazıyor: "dolandırıcılık" ya da "geçerli". Bu etiketleri çağrı merkezi kayıtları, müşteri itirazları ve manuel inceleme ekiplerinden derliyor.

Eğitim bittikten sonra model, gece 03:14'te Brezilya'dan gelen 8.500 TL'lik bir işlemi gördüğünde — kart sahibinin geçmişte hep İstanbul'da küçük tutarlarla alışveriş yaptığını da bildiğinden — yüksek olasılıkla "dolandırıcılık" tahmini üretir. İnsan operatöre alarm gider, kart bloke edilir. Hiçbir mühendisin elle yazdığı bir kural yoktur; model her şeyi etiketli verilerden öğrenmiştir.

Kod örnekleri

                                            scikit-learn · sınıflandırma örneği
                                            python
                                        
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Etiketli veri: X = özellikler, y = sınıf etiketi
X, y = load_iris(return_X_y=True)

# Eğitim ve test olarak ayır (geneleme için kritik)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Modeli etiketli veriyle eğit
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Daha önce görmediği örneklerde tahmin üret
accuracy = model.score(X_test, y_test)
print(f"Test doğruluğu: {accuracy:.2%}")

Ne zaman kullan

Geçmiş veride hem girdi hem doğru çıktı varsa (etiketli veri)
Tahmin etmek istediğin şey net ve ölçülebilir bir hedefse
Yeterince fazla, dengeli ve çeşitli örneğin varsa
Sonucun açıklanabilir olması gerekiyorsa (basit modeller seçilebilir)

Ne zaman kullanma

Etiketleme imkânsız ya da çok pahalıysa — denetimsiz veya yarı denetimli yöntemleri düşün
Sınıflar çok dengesizse (örn. milyonda bir dolandırıcılık) — özel teknikler gerekir
Veri sürekli değişiyor ve etiketler eskiyorsa — modelin sürekli yeniden eğitilmesi gerekir

Sık yapılan hatalar

Sızıntılı özellikler

Eğitim verisine, gerçek dünyada tahmin anında bilinmeyecek bir bilgi sızabilir. Klasik örnek: 'müşteri kredi alacak mı' tahmininde 'kredi başlangıç tarihi'ni özellik olarak vermek. Eğitimde mükemmel sonuç verir, canlıda tamamen başarısız olur.

Dengesiz sınıflar

Eğer pozitif sınıf verinin %0,1'i ise, model 'her şeye negatif de' derse %99,9 doğruluk yakalar ama hiçbir işe yaramaz. Çözüm: alt/üst örnekleme, sınıf ağırlıkları, F1 ya da ROC-AUC gibi metriklerle değerlendirme.

Etiket gürültüsü

Etiketleyen insanlar yanlış ya da çelişkili etiket koyabilir. Aynı görüntüye iki kişi 'köpek' / 'kurt' diyorsa modelin tutarlı öğrenmesi zorlaşır. Etiket kalitesi modelden önce gelir.