ASR
Automatic Speech Recognition — Sesi Metne Çevirme
Bir ses kaydını yazıya döken model. TTS'in ters yönü. Modern nöral ASR sistemleri insan transkripsiyon kalitesinde.
ASR (Automatic Speech Recognition), bir ses dalgasını metne dönüştüren model ailesidir. TTS'in tam tersi: TTS metin → ses, ASR ses → metin. Eski sistemler Hidden Markov Model (HMM) ve elle yapılmış akustik modeller kullanırdı; modern sistemler tamamen nöral.
Modern ASR mimarisi tipik olarak: 1. Acoustic encoder: ses dalgasını mel-spectrogram'a sonra hidden representation'a çevirir. 2. Decoder: representation'dan token (kelime/karakter) üretir, genelde transformer-based.
OpenAI'ın Whisper modeli (2022, açık kaynak) sahneyi değiştirdi: 96 dilde, gürültülü ortamlarda bile yüksek kalite, transformer encoder + decoder mimarisi. Sonra Whisper-v3, Distil-Whisper, AssemblyAI, Deepgram, Speechmatics geldi.
Yeni nesil özellikler: - Diarization: kim konuşuyor (Speaker 1 / Speaker 2) - Streaming: gerçek zamanlı transkripsiyon - Translation: aynı anda çevir (Whisper "translate" modu) - Punctuation + timestamps: ham metin değil, formatlanmış
Bir profesyonel transkripsiyon yazarı gibi düşün. Mahkeme duruşmasını dinler, harfi harfine yazar. Aksanları, fısıltıları, arka plan gürültüsünü tolere eder. Modern ASR aynı işi 100× hızlı, 1/100 maliyetle yapar.
Bir podcast üretim aracı yapıyorsun: 1. Konuk Zoom'da konuşuyor (1 saatlik kayıt). 2. Whisper API'ye yükle: 1 saatlik mp3 → ~30 saniyede transkript. 3. Diarization: "Konuk:", "Sunucu:" etiketleriyle ayrılmış. 4. Timestamp'ler her cümlede. 5. Maliyet: $0.36 (Whisper $0.006/dk).
2020'de bu iş profesyonel transkripsiyon servisine $80-150 verirdi + 24 saat beklerdin. Bugün otomatik. Aynı pipeline: - Toplantı notları (Otter.ai, Fireflies) - Müşteri çağrı analizi (Gong, Chorus) - Canlı altyazı (YouTube, Zoom) - Sesli komutlar (Siri, Alexa, Google Assistant)
- Podcast/video transkripsiyonu
- Toplantı notları otomatize etme
- Çağrı merkezi analizi (her konuşma metne, sonra LLM ile özet)
- Erişilebilirlik — sağır kullanıcılar için canlı altyazı
- Sesli komut arayüzleri (smart speaker, otomotiv, IVR)
- Ses verisi üzerinden arama (transkript indeksleyip ara)
- Yüksek doğruluk gereken hukuki/tıbbi belgeleme — insan kontrol yine şart
- Çok düşük kalite ses (telefon hattı, yoğun gürültü) — kalite düşer
- Az konuşulan dil (Whisper 96 dil destekler ama her dilde aynı kalitede değil)
- Real-time düşük gecikme şart (canlı çeviri) — modern modeller hâlâ ~500ms
Halüsinasyon ASR'da da var
Whisper sessizlikte 'thanks for watching' gibi eğitim verisi kalıntıları üretebilir. Long silences, instrumental music = halüsinasyon riski. Voice activity detection (VAD) ön-filtre koy.
Aksent ve dialect performansı
Standart İstanbul Türkçesinde mükemmel olan model, Karadeniz aksanında zayıflayabilir. İngilizce'de Hindistan aksanı, İskoç aksanı sorunlu. Production'da kullanıcı demografini düşün.
Kod-switching (dil karışımı)
TR konuşma içinde 'meeting'e katıldım, demo yapacağız' gibi İngilizce kelimeler ASR'ı bozabilir. Multilingual model + post-processing düzeltme şart.