GPT-SoVITS是一款强大的AI音色克隆软件,其核心功能是通过输入5秒的人声样本,用户即可立即体验文字转语音的功能。
仅需1分钟的训练数据,即可对模型进行微调,提高语音相似性和真实感。该产品支持跨语言,目前已经支持英语、日语和中文等多种语言的推理。
图源备注:图片由AI生成,图片授权服务商Midjourney
同时,产品还集成了声音伴奏分离、自动训练集分割、中文ASR以及文本标注等工具,可帮助初学者创建训练数据集和GPT/SoVITS模型。它还支持在Windows环境下运行,经过了Python3.9、PyTorch2.0.1以及CUDA11的测试,并提供了快速安装指南。
项目地址:https://top.aibase.com/tool/gpt-sovits
GPT-SoVITS的主要特点包括:
通过输入5秒的声音样本即可进行文字转语音转换;
仅需1分钟的训练数据即可实现模型微调;
支持跨语言,包括英语、日语和中文;
集成声音伴奏分离、自动训练集分割、中文ASR和文本标注等辅助工具;
可在Windows环境下运行,通过了Python3.9、PyTorch2.0.1和CUDA11的测试。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】