IndexTTS2
一款突破性的自回归零样本语音合成模型,支持情感与音色解耦控制、精确时长控制及多模态情感引导,在零样本场景下能精准还原目标音色和指定情感,且高情感表达时语音清晰度与稳定性优异。
原始链接:
节点链接:
F5-TTS
一个基于流匹配(Flow Matching)的文本转语音(TTS)模型仓库,主打流畅自然的语音合成效果。
原始链接:
节点链接:
Higgs Audio V2
一个基于超千万小时音频和多样化文本数据预训练的强大音频基础模型,无需后续训练或微调就在富有表现力的音频生成方面表现卓越,具备多语言多说话者对话生成等罕见能力,还采用了统一音频分词器和DualFFN架构等创新技术。
原始链接:
节点链接:
MegaTTS 3
具有轻量高效(主干网络仅0.45B参数)、支持超高质量语音克隆、中英双语及代码切换、可控制口音强度等特点。
原始链接:
https://github.com/bytedance/MegaTTS3
节点链接:
CosyVoice
一个基于大语言模型(LLM)的文本转语音(TTS)项目,专注于提供高质量、多语言、低延迟的语音生成能力。
原始链接:
节点链接:
OpenAudio (Fish Speech)
Fish Speech(现更名为OpenAudio)是具备语音克隆功能的开源多语言文本转语音项目,拥有高TTS质量、TTS-Arena2最佳排名、丰富语音控制、多语言支持、快速高效等特点。
原始链接:
节点链接:
Spark-TTS
一个基于大型语言模型(LLM)的高效文本到语音(TTS)系统,旨在提供高精度、自然的语音合成能力。
原始链接:
节点链接:
VoxCPM
一个创新的无分词器文本转语音(TTS)系统,致力于重新定义语音合成的真实感。
原始链接:
节点链接:
Chatterbox TTS
一款支持23种语言、具备零样本语音克隆和情感夸张控制功能的生产级开源文本转语音模型,基于0.5B Llama骨干网络构建,训练数据达50万小时。
原始链接:
节点链接:
GPT-SoVITS
一款强大的少样本语音转换与文本转语音工具,支持零样本(5秒语音)和少样本(1分钟数据微调)TTS、跨语言推理。(自带基础模型,如果无法满足需求,还可以自己训练专属模型)
原始链接:
节点链接:https://github.com/smthemex/ComfyUI_GPT_SoVITS_Lite
FireRedTTS2
一个长对话流式文本转语音(TTS)系统,专为多说话人对话与播客/聊天场景设计,能够稳定地在对话中切换说话人、生成上下文感知的韵律并支持零样本语音克隆与多语言(中、英、日、韩、法、德、俄等)及混语场景;当前实现可生成约 3 分钟、4 说话人的对话并可扩展到更长时长,强调超低延迟(利用 12.5Hz 流式语音 tokenizer 与双变换器架构)与高音质/低识别错误率。
原始链接:
节点链接:
VibeVoice
一个创新的无分词器文本转语音(TTS)系统,致力于重新定义语音合成的真实感。
原始链接:
节点链接:
RVC
基于 VITS 的变声框架,具有杜绝音色泄漏、训练效率高、对数据量要求低、支持模型融合、可分离人声伴奏、采用先进音高提取算法且支持多显卡加速等特点。(变声器首选模型)
原始链接:
节点链接:
Seed-VC
一个支持零样本语音转换、实时转换和歌声转换的开源模型,仅需1 – 30秒参考语音即可克隆声音,还支持基于少量数据的快速微调。(一键翻唱歌曲)
原始链接:
节点链接:
ACE-Step
一款开源音乐生成基础模型,具备高效生成(A100 上 20 秒生成 4 分钟音乐)、多语言支持(19 种语言)、丰富风格、灵活控制(声音克隆、歌词编辑等)及支持多种衍生应用(如 RapMachine、Lyric2Vocal)等特点。
原始链接:
节点链接: