Denetimsiz Öğrenme — Nedir?

Tanım

Denetimsiz öğrenmede modele "doğru cevabı" söyleyen kimse yoktur. Ona sadece veri verilir; modelin işi bu veride saklı bir yapı bulmaktır. "Bu kullanıcılar birbirine ne kadar benziyor?", "hangi işlem normalin dışında?", "bu metinlerde kaç farklı tema var?" gibi soruların cevabını üretir.

Üç ana kullanım alanı vardır. Kümeleme (clustering) benzer örnekleri aynı gruba toplar — müşteri segmentasyonu, belge kategorileme. Boyut indirgeme (dimensionality reduction) yüzlerce özellikli veriyi insan beynine sığacak iki üç boyuta sıkıştırır — PCA, t-SNE, UMAP ile. Anomali tespiti kalabalık içindeki farklıyı bulur — kart dolandırıcılığı, sunucu arızası.

Denetimsiz öğrenmenin gücü etiketsiz veriyle çalışmasıdır; gerçek dünyada verinin %99'u etiketsizdir. Zayıflığı ise bulduğu yapının "ne anlama geldiğini" sana söylememesidir. Üç küme bulur, ama bunların "VIP müşteriler", "fiyat duyarlıları" ve "tek seferlikler" olduğunu yorumlamak sana kalır.

Benzetme

Yeni bir kütüphaneye giriyorsun. Kitaplar rastgele yığılmış, hiçbir etiket yok. Kapakların rengine, kalınlığa, yazı tipine, dile bakarak onları kendin gruplara ayırıyorsun. Birinde sarı kapaklı romanlar toplanıyor, ötekinde kırmızı ders kitapları. Birisi sana "bu hangi kategori" demedi — sen yapıyı veriden çıkardın. Daha sonra bir kitap eline geldiğinde onu hemen doğru gruba yerleştirebiliyorsun.

Gerçek dünyadan örnek

Bir e-ticaret şirketi 2 milyon müşterisi hakkında çok şey biliyor: yaş, harcama, ne aldığı, ne sıklıkta uğradığı, hangi kampanyaya tepki verdiği. Ama "bu müşterinin tipi nedir" diye etiket yok. Pazarlama ekibi 200 farklı segmentle uğraşamaz; az sayıda anlamlı grup ister.

K-means algoritması müşterileri benzerliklerine göre 5 kümeye ayırıyor. Sonradan analiz ediliyor: birinci küme "ayda bir gelen, yüksek sepet, premium ürün alanlar", ikinci küme "haftalık gelen, indirim kovalayan", üçüncü küme "yılda iki kez büyük alışveriş yapanlar"... Her küme için ayrı kampanya, ayrı dil, ayrı kanal. Etiket yoktu — model yapıyı keşfetti, insan ona anlam verdi.

Kod örnekleri

                                            scikit-learn · K-means kümeleme
                                            python
                                        
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import numpy as np

# Etiketsiz müşteri verisi: harcama, ziyaret sıklığı, sepet
X = np.array([
    [1200, 4, 350],   [80, 1, 25],
    [950, 3, 280],    [60, 1, 30],
    [1100, 5, 400],   [90, 2, 35],
    # ... binlerce satır
])

# Aynı ölçeğe getir (uzaklık tabanlı algoritma için kritik)
X_scaled = StandardScaler().fit_transform(X)

# 3 küme bul
model = KMeans(n_clusters=3, random_state=42, n_init=10)
labels = model.fit_predict(X_scaled)

# Her müşteri artık bir küme numarasına sahip
# Anlamlandırmak insanın işi: küme 0 = VIP, küme 1 = düzenli, vs.
print(labels)

Ne zaman kullan

Etiket yok ya da çok pahalıysa
Veride keşif amaçlı çalışıyorsan: 'burada ne var?'
Müşteri segmentasyonu, belge gruplama, anomali tespiti
Denetimli modeller için ön işlem: özellik çıkarma, boyut indirgeme

Ne zaman kullanma

Tahminin başarısı net bir hedefe (etiket) bağlıysa — denetimliyi seç
Sonucun açıklanabilir olması zorunluysa — kümelerin yorumu özneldir
Çok az veri varsa — yapıyı keşfetmek için bolluk gerekir

Sık yapılan hatalar

Küme sayısını yanlış seçmek

K-means'te 'kaç küme?' sorusunun cevabını sen verirsin. Yanlış seçim anlamsız sonuçlar üretir. Elbow yöntemi, silhouette skoru gibi tekniklerle veri sana 'doğru K'yi söyler.

Ölçek farkı

Bir özellik 0–1, diğeri 0–100.000 aralığındaysa, büyük ölçekli olan kümelemeyi domine eder. StandardScaler veya MinMaxScaler ile normalize etmeden çalıştırma.

Yorumlama yanılsaması

Model 5 küme bulduğunda 5 anlamlı segment olduğunu sanırsın. Belki 2'si rastlantısal gürültü. Kümeleri hep iş bağlamıyla doğrula — boş yere kampanya yapma.