AI Sözlüğü
Orta· ~2 dk okuma#asr#speech-to-text#whisper

ASR

Automatic Speech Recognition — Sesi Metne Çevirme

Bir ses kaydını yazıya döken model. TTS'in ters yönü. Modern nöral ASR sistemleri insan transkripsiyon kalitesinde.

SES → METİN (ASR)SES DALGASI.mp3 / .wavASRWhisper / Deepgramses tanımaTRANSKRİPT"Merhaba dünya,nasılsın?"güven: 0.94Whisper (OpenAI), Deepgram, AssemblyAI — modern transkripsiyon insandan ayırt edilmez
Tanım

ASR (Automatic Speech Recognition), bir ses dalgasını metne dönüştüren model ailesidir. TTS'in tam tersi: TTS metin → ses, ASR ses → metin. Eski sistemler Hidden Markov Model (HMM) ve elle yapılmış akustik modeller kullanırdı; modern sistemler tamamen nöral.

Modern ASR mimarisi tipik olarak: 1. Acoustic encoder: ses dalgasını mel-spectrogram'a sonra hidden representation'a çevirir. 2. Decoder: representation'dan token (kelime/karakter) üretir, genelde transformer-based.

OpenAI'ın Whisper modeli (2022, açık kaynak) sahneyi değiştirdi: 96 dilde, gürültülü ortamlarda bile yüksek kalite, transformer encoder + decoder mimarisi. Sonra Whisper-v3, Distil-Whisper, AssemblyAI, Deepgram, Speechmatics geldi.

Yeni nesil özellikler: - Diarization: kim konuşuyor (Speaker 1 / Speaker 2) - Streaming: gerçek zamanlı transkripsiyon - Translation: aynı anda çevir (Whisper "translate" modu) - Punctuation + timestamps: ham metin değil, formatlanmış

Benzetme

Bir profesyonel transkripsiyon yazarı gibi düşün. Mahkeme duruşmasını dinler, harfi harfine yazar. Aksanları, fısıltıları, arka plan gürültüsünü tolere eder. Modern ASR aynı işi 100× hızlı, 1/100 maliyetle yapar.

Gerçek dünyadan örnek

Bir podcast üretim aracı yapıyorsun: 1. Konuk Zoom'da konuşuyor (1 saatlik kayıt). 2. Whisper API'ye yükle: 1 saatlik mp3 → ~30 saniyede transkript. 3. Diarization: "Konuk:", "Sunucu:" etiketleriyle ayrılmış. 4. Timestamp'ler her cümlede. 5. Maliyet: $0.36 (Whisper $0.006/dk).

2020'de bu iş profesyonel transkripsiyon servisine $80-150 verirdi + 24 saat beklerdin. Bugün otomatik. Aynı pipeline: - Toplantı notları (Otter.ai, Fireflies) - Müşteri çağrı analizi (Gong, Chorus) - Canlı altyazı (YouTube, Zoom) - Sesli komutlar (Siri, Alexa, Google Assistant)

Ne zaman kullan
  • Podcast/video transkripsiyonu
  • Toplantı notları otomatize etme
  • Çağrı merkezi analizi (her konuşma metne, sonra LLM ile özet)
  • Erişilebilirlik — sağır kullanıcılar için canlı altyazı
  • Sesli komut arayüzleri (smart speaker, otomotiv, IVR)
  • Ses verisi üzerinden arama (transkript indeksleyip ara)
Ne zaman kullanma
  • Yüksek doğruluk gereken hukuki/tıbbi belgeleme — insan kontrol yine şart
  • Çok düşük kalite ses (telefon hattı, yoğun gürültü) — kalite düşer
  • Az konuşulan dil (Whisper 96 dil destekler ama her dilde aynı kalitede değil)
  • Real-time düşük gecikme şart (canlı çeviri) — modern modeller hâlâ ~500ms
Sık yapılan hatalar

Halüsinasyon ASR'da da var

Whisper sessizlikte 'thanks for watching' gibi eğitim verisi kalıntıları üretebilir. Long silences, instrumental music = halüsinasyon riski. Voice activity detection (VAD) ön-filtre koy.

Aksent ve dialect performansı

Standart İstanbul Türkçesinde mükemmel olan model, Karadeniz aksanında zayıflayabilir. İngilizce'de Hindistan aksanı, İskoç aksanı sorunlu. Production'da kullanıcı demografini düşün.

Kod-switching (dil karışımı)

TR konuşma içinde 'meeting'e katıldım, demo yapacağız' gibi İngilizce kelimeler ASR'ı bozabilir. Multilingual model + post-processing düzeltme şart.