GPT-SoVITS微调体验记录
/ 7 min read
Table of Contents
最近尝试了GPT-SoVITS的微调,记录一下整个过程和遇到的问题,希望能对同样感兴趣的朋友有所帮助。
项目资源
首先分享一下项目的相关资源:
- GitHub地址:GPT-SoVITS
- 官方手册:GPT-SoVITS指南
- Colab脚本:Colab-WebUI.ipynb
官方手册已经非常详细了,这里就不再重复基本操作步骤,主要记录我在使用过程中的一些经验和遇到的问题。
微调过程
Colab微调尝试
一开始我尝试在Colab上进行微调,但遇到了一些问题:
- 预训练模型下载问题:每次重新连接Colab都需要重新下载预训练模型,非常耗时。解决方法是挂载Google Drive,将预训练模型保存到Drive中,这样就不需要每次都重新下载了。
- 启动路径修改:挂载Drive后,启动Web UI的路径也需要相应修改为Drive中的路径。
- 下载源问题:默认的install.sh脚本使用Hugging Face的官方链接下载资源,经常会断开连接。修改使用HF-Mirror镜像可以显著提高下载速度和稳定性。
修改后的Colab脚本可以参考:colab-webui.ipynb
转向AutoDL
尽管解决了Colab上的一些问题,但我最终还是转向了AutoDL,主要原因是:
- 虽然可以通过挂载Google Drive节省预训练模型的下载时间,但每次启动Colab仍然需要下载CUDA驱动,这个过程非常耗时。
- AutoDL虽然需要付费,但RTX 3080的价格大约是一块多一个小时,对于我来说还是可以接受的。
- 在AutoDL上,环境是持久化的,不需要每次都重新配置,大大提高了效率。
我在AutoDL注册时花了十块钱,用了好几个小时,感觉性价比还不错。
测试与体验
TTS测试文本
在测试过程中,我使用了以下文本进行生成测试:
AI发展新图景:技术突破与治理协同的双重变奏 2025年的人工智能领域,正经历从”技术狂欢”到”理性深耕”的关键转型。当开源模型的全球竞争打破技术垄断,当垂直场景的深度落地释放产业价值,当治理规范的加速构建划定发展边界,AI技术已不再是孤立的技术名词,而是渗透全球经济、社会治理与日常生活的核心力量。这一年,技术突破与风险挑战并存,全球协作与区域创新交织,勾勒出人工智能发展的全新图景。 技术创新的突破点,正从单一模型性能比拼转向”生态协同+能力深化”的多元竞争。在通用大模型领域,中国开源方案的全球崛起成为最引人注目的现象。新加坡国家人工智能计划AISG的战略转向颇具代表性——其东南亚语言大模型项目”Sea-Lion”彻底放弃MetaLlama体系,转而采用阿里巴巴通义千问Qwen的开源架构,打造出的Qwen-SEA-LION-v4模型迅速登顶东南亚语言模型评估榜单。这一转变的核心驱动力,是中国模型在多语种处理上的结构性优势:通义千问Qwen3系列预训练阶段已覆盖119种语言,其中东南亚语言token占比达13%,是Llama2的26倍,其分词器更能精准解决泰语、缅甸语等无空格语言的切分难题,完美适配东南亚多语种混合使用的场景。截至2025年11月,通义千问系列下载量已超6亿次,衍生模型达17万个,超越Meta Llama成为全球最受欢迎的开源大语言模型,印证了中国AI技术的国际竞争力。
遇到的问题
在使用微调后的模型时,我发现了几个比较明显的问题:
-
吞字现象:使用自己训练的GPT模型时,吞字现象比较严重,某些词语会被跳过或简化。
-
中英文切换生硬:当文本中同时存在中英文时,切换感觉非常不自然,而且当英文较长时(比如”Qwen-SEA-LION-v4”),模型容易胡言乱语。
-
数字处理问题:模型在处理数字时表现不佳,例如会把”119个”读成”一一九”而不是”一百一十九”,听起来很奇怪。
-
长文本处理能力有限:当处理较长文本时,输出容易变得混乱,必须将长文本切分为小块,使用起来不太方便。
总结
总体来说,GPT-SoVITS是一个很有潜力的开源项目,但在实际使用中还有不少需要改进的地方。对于简单的中文文本转换,效果还可以接受,但在处理复杂文本、中英文混合、数字等方面,表现还有待提高。
如果是想尝试TTS技术或者做一些简单的语音生成,GPT-SoVITS是一个不错的选择;但如果对语音质量和准确性有较高要求,可能还需要进一步的调整和优化,或者尝试其他更成熟的解决方案。
希望我的这次体验记录能够对大家有所帮助,也期待GPT-SoVITS项目在未来能够不断改进和完善!