Computer Vision
Bilgisayarlı Görü
Bilgisayarın görsel veriden anlam çıkarmasını sağlayan AI alt-alanı — sınıflandırma, nesne tespiti, segmentasyon, OCR.
Computer Vision (CV), bilgisayarın bir görsel veya video'dan anlam çıkarmasını sağlayan disiplindir. "Bu fotoğrafta ne var?", "Bu nesne nerede?", "Bu sahnede kaç kişi var?", "Bu el yazısı ne diyor?" gibi soruları cevaplar.
Ana görev tipleri: - Image classification: tek etiket ("kedi/köpek") - Object detection: kutu çiz + etiket (YOLO, Faster R-CNN) - Segmentation: piksel bazında etiket (Mask R-CNN, SAM) - OCR: görseldeki yazıyı oku (Tesseract, EasyOCR, GPT-4V) - Pose estimation: insan eklemleri tespiti
Mimari olarak uzun süre CNN (Convolutional Neural Network) hâkimdi. 2020'den sonra Vision Transformer (ViT) ve multimodal modeller (GPT-4V, Claude Vision) sahneye girdi.
İnsan gözü + beyin gibi: ışık fotoreseptörlere düşer (görsel), beyin "şu kedi, şu masa" diye anlamlandırır. CV aynı pipeline'ı matematiksel olarak çözer — pikselleri sayılar olarak alır, ardışık katmanlardan geçirip "ne var, nerede" çıkarır.
Tesla'nın Autopilot'u, gerçek zamanlı CV ürünüdür: 8 kamera saniyede 36 kez görüntü alır, her birinde: 1. Object detection → araç, yaya, bisikletli, levhalar 2. Lane detection → şerit çizgileri ve mesafe 3. Depth estimation → 3D mekan haritası 4. Path planning → bir sonraki adımı belirle
Tüm pipeline 50ms altında çalışmak zorunda — yoksa karar geç gelir. CV burada AI'ın değil, fiziksel güvenliğin temelidir.
- Görselden yapısal veri çıkarmak (form OCR, faturalar)
- Otomatik moderasyon (kullanıcı yüklemelerinde uygunsuz içerik)
- Medikal görüntüleme: röntgen, MR, mikroskop görüntüsü analizi
- Üretim hattı kalite kontrol — kameralı hatalı parça tespiti
- Erişilebilirlik — görüntüyü görme engelliler için açıkla
- Sadece metin tabanlı görevler (overkill)
- Hassas medikal tanı yerine — destek aracı olarak evet, doktor yerine geçemez
- Düşük çözünürlüklü/karanlık görüntüler — model hata yapar
Eğitim verisi ≠ üretim ortamı
ImageNet'te eğitilmiş model, gerçek dünyadaki düşük ışık, açı, oklüzyonlu görsellerde başarısız olur. Üretim verisinde fine-tune şart.
Bias ve adalet
Yüz tanıma sistemleri tarihsel olarak farklı tenlerde ve cinsiyetlerde farklı doğrulukta. Eğitim verisinin demografik dengesi kritik.
Adversarial saldırılar
Görsele insan gözünün göremediği bir gürültü ekleyince model 'panda'yı 'gibon' olarak tanıyor. CV modelleri kırılgan; production'da güvenlik düşün.