Computer Vision — Nedir?

Tanım

Computer Vision (CV), bilgisayarın bir görsel veya video'dan anlam çıkarmasını sağlayan disiplindir. "Bu fotoğrafta ne var?", "Bu nesne nerede?", "Bu sahnede kaç kişi var?", "Bu el yazısı ne diyor?" gibi soruları cevaplar.

Ana görev tipleri: - Image classification: tek etiket ("kedi/köpek") - Object detection: kutu çiz + etiket (YOLO, Faster R-CNN) - Segmentation: piksel bazında etiket (Mask R-CNN, SAM) - OCR: görseldeki yazıyı oku (Tesseract, EasyOCR, GPT-4V) - Pose estimation: insan eklemleri tespiti

Mimari olarak uzun süre CNN (Convolutional Neural Network) hâkimdi. 2020'den sonra Vision Transformer (ViT) ve multimodal modeller (GPT-4V, Claude Vision) sahneye girdi.

Benzetme

İnsan gözü + beyin gibi: ışık fotoreseptörlere düşer (görsel), beyin "şu kedi, şu masa" diye anlamlandırır. CV aynı pipeline'ı matematiksel olarak çözer — pikselleri sayılar olarak alır, ardışık katmanlardan geçirip "ne var, nerede" çıkarır.

Gerçek dünyadan örnek

Tesla'nın Autopilot'u, gerçek zamanlı CV ürünüdür: 8 kamera saniyede 36 kez görüntü alır, her birinde: 1. Object detection → araç, yaya, bisikletli, levhalar 2. Lane detection → şerit çizgileri ve mesafe 3. Depth estimation → 3D mekan haritası 4. Path planning → bir sonraki adımı belirle

Tüm pipeline 50ms altında çalışmak zorunda — yoksa karar geç gelir. CV burada AI'ın değil, fiziksel güvenliğin temelidir.

Ne zaman kullan

Görselden yapısal veri çıkarmak (form OCR, faturalar)
Otomatik moderasyon (kullanıcı yüklemelerinde uygunsuz içerik)
Medikal görüntüleme: röntgen, MR, mikroskop görüntüsü analizi
Üretim hattı kalite kontrol — kameralı hatalı parça tespiti
Erişilebilirlik — görüntüyü görme engelliler için açıkla

Ne zaman kullanma

Sadece metin tabanlı görevler (overkill)
Hassas medikal tanı yerine — destek aracı olarak evet, doktor yerine geçemez
Düşük çözünürlüklü/karanlık görüntüler — model hata yapar

Sık yapılan hatalar

Eğitim verisi ≠ canlı ortam

ImageNet'te eğitilmiş model, gerçek dünyadaki düşük ışık, açı, oklüzyonlu görsellerde başarısız olur. Canlı veriye yakın bir alt küme üzerinde fine-tune şart.

Bias ve adalet

Yüz tanıma sistemleri tarihsel olarak farklı tenlerde ve cinsiyetlerde farklı doğrulukta. Eğitim verisinin demografik dengesi kritik.

Adversarial saldırılar

Görsele insan gözünün göremediği bir gürültü ekleyince model 'panda'yı 'gibon' olarak tanıyor. CV modelleri kırılgan; canlıya almadan önce güvenlik tarafını düşün.