TTS
Text-to-Speech — Metinden Sese
Yazılı metni doğal sesli konuşmaya çeviren model. Modern nöral TTS modelleri insan sesinden ayırt edilemeyecek kalitede.
TTS (Text-to-Speech), bir metin girdisini ses dalgasına çeviren model ailesinin adı. Eski TTS sistemleri (kural tabanlı, concatenative) robotik geliyordu; modern nöral TTS modelleri (Tacotron, FastSpeech, VITS, ElevenLabs'in modeli, OpenAI TTS) insan sesini ayırt edilemeyecek seviyede üretiyor.
Tipik mimari iki aşamadır: 1. Acoustic model: metni mel-spectrogram'a (zaman-frekans gösterimi) çevirir. 2. Vocoder: mel-spectrogram'dan ham ses dalgasına geçer (HiFi-GAN, WaveNet, ya da daha yeni diffusion vocoder).
Modern eklemeler: - Voice cloning: 30 saniyelik bir kayıttan o kişinin sesini taklit - Emotion/tone control: ton, hız, hissi prompt ile yönlendir - Çok dilli: tek modelle 30+ dilde - Streaming TTS: metni geldikçe akış halinde sese çevir
Bir kitabı sesli okumak gibi. Ama okuyucu çok yetenekli — ton, vurgu, duygu, telaffuz hep doğru. Hangi kelimeyi vurgulayacağını, virgülde ne kadar duracağını, soru cümlesinde tonu nasıl yükselteceğini biliyor. Eski TTS robot okurdu, yeni TTS profesyonel seslendirme sanatçısı.
Bir podcast üretim aracı: yazılı script veriyorsun, AI seslendiriyor. Adımlar: 1. ElevenLabs API'sine: text + voice_id ("Sarah", "Adam") + model_id ("eleven_turbo_v2_5") gönderirsin. 2. ~3-5 saniyede 1 dakikalık ses dosyası gelir (.mp3, .wav). 3. Birden fazla karakter için farklı voice_id, audio'yu DAW'da birleştir. 4. Toplam maliyet: dakika başı ~$0.30 (ElevenLabs).
2023'ten önce bu kalite stüdyo + ses sanatçısı + post-production gerektirirdi (saatler + binlerce $). Şimdi tek API çağrısı. Audiobook, eğitim videosu dublajı, asistan sesi — hepsi standartlaştı.
- Erişilebilirlik — yazılı içeriği görme engelli kullanıcılar için seslendir
- Asistan/sohbet ürünü — yazılı LLM cevabını sese çevir
- Podcast/audiobook üretimi — ses sanatçısı yerine
- Çağrı merkezi IVR — sabit menülerin ötesinde dinamik konuşma
- Dil öğrenme — kelime/cümleleri sesli telaffuz
- Yüksek sanatsal kalite gerekiyorsa (film dublajı) — insan ses sanatçısı hâlâ üstün
- Real-time düşük gecikme şart (canlı çeviri) — TTS 100-500ms gecikme ekler
- Tek tip içerik için — basit eski TTS daha ucuz
- Kişiyi yanıltma riski olan yerler — voice cloning etik/yasal sorun
Voice cloning etiği ve hukuku
Birinin sesini izinsiz klonlamak çoğu ülkede yasal sorun. ElevenLabs ve diğerleri 'consent' politikası uyguluyor. Production'da explicit izin belgeleri şart.
Tonlama ve nüans hâlâ zor
Modeller temel tonu yakalar ama 'kinaye', 'şaşırma', 'sahte mutluluk' gibi nüansları kaçırır. SSML (Speech Synthesis Markup Language) etiketleri ile elle yönlendirmek gerekebilir.
Çok dillilik yanılgısı
Bir model '50 dil destekliyor' diyebilir ama Türkçe'de İngilizce'deki kalitede olmayabilir. Production'a almadan dilini test et — özellikle agglutinative dillerde (TR, FI) zorluk olur.