TTS — Nedir? · AI Atlas

Tanım

TTS (Text-to-Speech), bir metin girdisini ses dalgasına çeviren model ailesinin adı. Eski TTS sistemleri (kural tabanlı, concatenative) robotik geliyordu; modern nöral TTS modelleri (Tacotron, FastSpeech, VITS, ElevenLabs'in modeli, OpenAI TTS) insan sesini ayırt edilemeyecek seviyede üretiyor.

Tipik mimari iki aşamadır: 1. Acoustic model: metni mel-spectrogram'a (zaman-frekans gösterimi) çevirir. 2. Vocoder: mel-spectrogram'dan ham ses dalgasına geçer (HiFi-GAN, WaveNet, ya da daha yeni diffusion vocoder).

Modern eklemeler: - Voice cloning: 30 saniyelik bir kayıttan o kişinin sesini taklit - Emotion/tone control: ton, hız, hissi prompt ile yönlendir - Çok dilli: tek modelle 30+ dilde - Streaming TTS: metni geldikçe akış halinde sese çevir

Benzetme

Bir kitabı sesli okumak gibi. Ama okuyucu çok yetenekli — ton, vurgu, duygu, telaffuz hep doğru. Hangi kelimeyi vurgulayacağını, virgülde ne kadar duracağını, soru cümlesinde tonu nasıl yükselteceğini biliyor. Eski TTS robot okurdu, yeni TTS profesyonel seslendirme sanatçısı.

Gerçek dünyadan örnek

Bir podcast üretim aracı: yazılı script veriyorsun, AI seslendiriyor. Adımlar: 1. ElevenLabs API'sine: text + voice_id ("Sarah", "Adam") + model_id ("eleven_turbo_v2_5") gönderirsin. 2. ~3-5 saniyede 1 dakikalık ses dosyası gelir (.mp3, .wav). 3. Birden fazla karakter için farklı voice_id, audio'yu DAW'da birleştir. 4. Toplam maliyet: dakika başı ~$0.30 (ElevenLabs).

2023'ten önce bu kalite stüdyo + ses sanatçısı + post-production gerektirirdi (saatler + binlerce $). Şimdi tek API çağrısı. Audiobook, eğitim videosu dublajı, asistan sesi — hepsi standartlaştı.

Ne zaman kullan

Erişilebilirlik — yazılı içeriği görme engelli kullanıcılar için seslendir
Asistan/sohbet ürünü — yazılı LLM cevabını sese çevir
Podcast/audiobook üretimi — ses sanatçısı yerine
Çağrı merkezi IVR — sabit menülerin ötesinde dinamik konuşma
Dil öğrenme — kelime/cümleleri sesli telaffuz

Ne zaman kullanma

Yüksek sanatsal kalite gerekiyorsa (film dublajı) — insan ses sanatçısı hâlâ üstün
Real-time düşük gecikme şart (canlı çeviri) — TTS 100-500ms gecikme ekler
Tek tip içerik için — basit eski TTS daha ucuz
Kişiyi yanıltma riski olan yerler — voice cloning etik/yasal sorun

Sık yapılan hatalar

Voice cloning etiği ve hukuku

Birinin sesini izinsiz klonlamak çoğu ülkede yasal sorun. ElevenLabs ve diğerleri 'consent' politikası uyguluyor. Production'da explicit izin belgeleri şart.

Tonlama ve nüans hâlâ zor

Modeller temel tonu yakalar ama 'kinaye', 'şaşırma', 'sahte mutluluk' gibi nüansları kaçırır. SSML (Speech Synthesis Markup Language) etiketleri ile elle yönlendirmek gerekebilir.

Çok dillilik yanılgısı

Bir model '50 dil destekliyor' diyebilir ama Türkçe'de İngilizce'deki kalitede olmayabilir. Production'a almadan dilini test et — özellikle agglutinative dillerde (TR, FI) zorluk olur.