开源 TTS 工具汇总
开源 TTS(语音合成) 工具汇总开源
tts 也即语音合成, 是基础 AI 能力。现有 LLM based 的平台, 很多都集成了基础 ASR 和 TTS 能力, 方便使用语音直接交互。
基于 DL 的新开源 tts 模型并不多, 最近基于个人项目希望找到一款可以高质量的合成音频的 model, 但是搜索很久也没找到质量符合要求的。相比其他领域, 音频(ASR/TTS)作为基础应用场景, 能直接使用的 TTS 技术并不多。
下面主要罗列一些 tts 项目及其中部分模型效果。
英文 tts
facebook/fastspeech2-en-ljspeech(fairseq)
speecht5_tts
coqui tts
- tts_models/en/ljspeech/tacotron2-DDC 合成模型
- tts_models/multilingual/multi-dataset/xtts_v2 克隆模型
snakes4/silero-models(silero_tts)
https://github.com/snakers4/silero-models