开源 TTS(语音合成) 工具汇总开源

tts 也即语音合成, 是基础 AI 能力。现有 LLM based 的平台, 很多都集成了基础 ASR 和 TTS 能力, 方便使用语音直接交互。

基于 DL 的新开源 tts 模型并不多, 最近基于个人项目希望找到一款可以高质量的合成音频的 model, 但是搜索很久也没找到质量符合要求的。相比其他领域, 音频(ASR/TTS)作为基础应用场景, 能直接使用的 TTS 技术并不多。

下面主要罗列一些 tts 项目及其中部分模型效果。

英文 tts

facebook/fastspeech2-en-ljspeech(fairseq)

HF demo 地址

speecht5_tts

HF demo 地址

coqui tts

  • tts_models/en/ljspeech/tacotron2-DDC 合成模型
  • tts_models/multilingual/multi-dataset/xtts_v2 克隆模型

snakes4/silero-models(silero_tts)

https://github.com/snakers4/silero-models

tortoise tts

HF demo 地址

中文 tts

vits_zh

HF demo 地址

paddlespeech

https://github.com/PaddlePaddle/PaddleSpeech