▎网站介绍:一个文字转语音工具,支持 300 多种语言和口音,提供语速和语调的调节功能,支持最长 100,000 字符的文本输入。
用户只需输入文本,选择语音引擎(如 Edge TTS、OpenAI TTS)和语音人物,即可快速合成高质量语音,并生成 MP3 文件保存下载。
▎网站网址:点击打开
▎网站介绍:一个文本、小说智能转语音解决方案,支持将 10 万字以上的小说一键转为有声书,完全免费,无时长、无字数限制。
支持一键生成语音和字幕、AI 智能推荐配音、自定义多角色配音、自定义调整语速、音调等参数,并且在生成前可试听效果。
▎网站网址:点击打开
#GitHub #TTS
🗣 Orpheus TTS - 开源文本转语音系统
▎项目介绍:一个开源 TTS 系统,基于 Llama-3b 架构构建,旨在生成自然、有情感的语音,接近人类发音水平,支持多种语言。
支持零样本语音克隆、情感控制、低延迟流式处理、无 GPU 推理,适用于语音助手、有声读物、教育培训等多种应用场景。
▎项目地址:点击打开
▎项目介绍:一个开源 TTS 系统,基于 Llama-3b 架构构建,旨在生成自然、有情感的语音,接近人类发音水平,支持多种语言。
支持零样本语音克隆、情感控制、低延迟流式处理、无 GPU 推理,适用于语音助手、有声读物、教育培训等多种应用场景。
▎项目地址:点击打开
#GitHub #TTS
🗣 F5-TTS - 上海交大开源超逼真声音克隆 TTS
▎项目功能:文本转语音
▎项目介绍:一款基于流匹配的全非自回归文本到语音转换系统,零样本,支持声音克隆、速度控制、控制语音情感表现、长文本合成、中英文多语言合成,并支持商用。
不需要复杂的设计如持续时间模型、文本编码器和音素对齐,能够快速训练并实现实时因素(RTF)0.15 的推理速度,显著优于当前基于扩散的 TTS 模型。
F5-TTS 在公共的 100K 小时多语言数据集上进行训练,展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。
▎项目地址:点击打开
🗣 F5-TTS - 上海交大开源超逼真声音克隆 TTS
▎项目功能:文本转语音
▎项目介绍:一款基于流匹配的全非自回归文本到语音转换系统,零样本,支持声音克隆、速度控制、控制语音情感表现、长文本合成、中英文多语言合成,并支持商用。
不需要复杂的设计如持续时间模型、文本编码器和音素对齐,能够快速训练并实现实时因素(RTF)0.15 的推理速度,显著优于当前基于扩散的 TTS 模型。
F5-TTS 在公共的 100K 小时多语言数据集上进行训练,展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。
▎项目地址:点击打开
▎项目功能:AI 视频配音/翻译工具
▎项目介绍:一个智能视频多语言AI配音和翻译工具,它融合了 YouDub-webui 的灵感,并在此基础上进行了拓展和优化。
致力于提供更加多样化和高质量的配音选择,通过集成 Linly-Talker 的数字人对口型技术,为用户带来更加自然的多语言视频体验。
▎项目地址:点击打开
▎软件功能:文本转语音
▎软件平台:#Windows
▎软件介绍:一种工具,旨在将文本、PDF、EPUB 和 SRT 文件转换为多种语言的语音音频,包括语音克隆、LLM 基于文本的预处理以及通过将同步输出与视频的原始音轨混合来直接将生成的字幕音频保存到视频文件的能力。
它利用 XTTS、Silero 和 VoiceCraft 模型进行文本到语音转换和语音克隆,并通过 RVC_CLI 进行增强,以提高质量和更好的语音克隆结果,并通过 NISQA 进行音频质量评估。
此外,它还集成了 Text Generation Webui 的 API,用于基于本地LLM的文本预处理,从而在音频生成之前实现广泛的文本操作。
▎软件下载:点击下载
▎项目功能:文本转语音
▎项目介绍:一个 Azure 文本转语音(TTS)网络应用,可以在本地运行或使用你的 Azure Key 一键部署。
也可以直接使用作者部署好的演示网站,效果挺好,上限 2000 字,支持多语言、多角色,可以自定义风格、语速、语调和音量调整。
▎项目地址:点击打开
▎网站功能:文本转语音
▎网站介绍:一个高质量文本转语音工具,支持多种语言和音色的选择,还可以调整语速,点击生成即可试听或下载,免费可商用。
▎网站网址:点击打开
#GitHub #TTS
🗣 ChatTTS - 对话式高可控的语音合成模型
▎项目功能:文本转语音模型
▎项目介绍:一款专门为对话场景设计的文本转语音模型,例如LLM助手对话任务,支持英文和中文两种语言。
最大的模型使用了 10 万小时以上的中英文数据进行训练。在 HuggingFace 中开源的版本为 4 万小时训练且未 SFT 的版本。
▎项目亮点:
⏺ 对话式 TTS:
⏺ 细粒度控制:
⏺ 更好的韵律:
▎相关推荐:
🔵 ChatTTS_colab - 基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读
🔵 ChatTTS-Forge - 提供了完善的 ChatTTS 封装,包括 API WebUI Playground
▎项目地址:点击打开
▎项目功能:文本转语音模型
▎项目介绍:一款专门为对话场景设计的文本转语音模型,例如LLM助手对话任务,支持英文和中文两种语言。
最大的模型使用了 10 万小时以上的中英文数据进行训练。在 HuggingFace 中开源的版本为 4 万小时训练且未 SFT 的版本。
❗ 使用需知
🔴 为了限制 ChatTTS 的使用,我们在 4w 小时模型的训练过程中添加了少量额外的高频噪音,并用 mp3 格式尽可能压低了音质,以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型,并计划在未来开放。
▎项目亮点:
ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型,支持进一步研究。
▎相关推荐:
▎项目地址:点击打开
▎网站功能:文本转语音
▎网站介绍:一个基于 VQ-GAN 和 Llama、VITS,由 Fish Audio 开发的文本转语音模型。
提供了多语言支持和高质量的语音合成,支持中文、日文和英文三种语言的合成。
特别是基于一些知名游戏角色的声音,如《原神》、《崩坏:星穹铁道》和《碧蓝档案》。
▎网站网址:点击打开
▎网站功能:文本转语音
▎网站介绍:一个使用 Gradio 构建,基于 Edge-TTS 的文本转语音服务。
带有翻译功能,支持选择多个发音人,支持自定义语速和音调并试听和一键生成。
▎网站网址:点击打开
#GitHub #TTS #音频
🗣 Parler-TTS - 一个轻量级高质量文本转语音模型
▎项目功能:文本转语音
▎项目介绍:一个轻量级文本转语音模型,可以根据给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。
与其它 TTS 模型相反,Parler-TTS 是一个完全开源的版本。所有数据集、预处理、训练代码和权重均在许可许可下公开发布。
▎项目地址:点击打开
▎项目功能:文本转语音
▎项目介绍:一个轻量级文本转语音模型,可以根据给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。
与其它 TTS 模型相反,Parler-TTS 是一个完全开源的版本。所有数据集、预处理、训练代码和权重均在许可许可下公开发布。
▎项目地址:点击打开