GPT-SoVITS微调体验记录 • PoweredByAlgo

最近尝试了GPT-SoVITS的微调，记录一下整个过程和遇到的问题，希望能对同样感兴趣的朋友有所帮助。

项目资源

首先分享一下项目的相关资源：

GitHub地址：GPT-SoVITS
官方手册：GPT-SoVITS指南
Colab脚本：Colab-WebUI.ipynb

官方手册已经非常详细了，这里就不再重复基本操作步骤，主要记录我在使用过程中的一些经验和遇到的问题。

微调过程

Colab微调尝试

一开始我尝试在Colab上进行微调，但遇到了一些问题：

预训练模型下载问题：每次重新连接Colab都需要重新下载预训练模型，非常耗时。解决方法是挂载Google Drive，将预训练模型保存到Drive中，这样就不需要每次都重新下载了。
启动路径修改：挂载Drive后，启动Web UI的路径也需要相应修改为Drive中的路径。
下载源问题：默认的install.sh脚本使用Hugging Face的官方链接下载资源，经常会断开连接。修改使用HF-Mirror镜像可以显著提高下载速度和稳定性。

修改后的Colab脚本可以参考：colab-webui.ipynb

转向AutoDL

尽管解决了Colab上的一些问题，但我最终还是转向了AutoDL，主要原因是：

虽然可以通过挂载Google Drive节省预训练模型的下载时间，但每次启动Colab仍然需要下载CUDA驱动，这个过程非常耗时。
AutoDL虽然需要付费，但RTX 3080的价格大约是一块多一个小时，对于我来说还是可以接受的。
在AutoDL上，环境是持久化的，不需要每次都重新配置，大大提高了效率。

我在AutoDL注册时花了十块钱，用了好几个小时，感觉性价比还不错。

测试与体验

TTS测试文本

在测试过程中，我使用了以下文本进行生成测试：

AI发展新图景：技术突破与治理协同的双重变奏 2025年的人工智能领域，正经历从”技术狂欢”到”理性深耕”的关键转型。当开源模型的全球竞争打破技术垄断，当垂直场景的深度落地释放产业价值，当治理规范的加速构建划定发展边界，AI技术已不再是孤立的技术名词，而是渗透全球经济、社会治理与日常生活的核心力量。这一年，技术突破与风险挑战并存，全球协作与区域创新交织，勾勒出人工智能发展的全新图景。技术创新的突破点，正从单一模型性能比拼转向”生态协同+能力深化”的多元竞争。在通用大模型领域，中国开源方案的全球崛起成为最引人注目的现象。新加坡国家人工智能计划AISG的战略转向颇具代表性——其东南亚语言大模型项目”Sea-Lion”彻底放弃MetaLlama体系，转而采用阿里巴巴通义千问Qwen的开源架构，打造出的Qwen-SEA-LION-v4模型迅速登顶东南亚语言模型评估榜单。这一转变的核心驱动力，是中国模型在多语种处理上的结构性优势：通义千问Qwen3系列预训练阶段已覆盖119种语言，其中东南亚语言token占比达13%，是Llama2的26倍，其分词器更能精准解决泰语、缅甸语等无空格语言的切分难题，完美适配东南亚多语种混合使用的场景。截至2025年11月，通义千问系列下载量已超6亿次，衍生模型达17万个，超越Meta Llama成为全球最受欢迎的开源大语言模型，印证了中国AI技术的国际竞争力。

遇到的问题

在使用微调后的模型时，我发现了几个比较明显的问题：

吞字现象：使用自己训练的GPT模型时，吞字现象比较严重，某些词语会被跳过或简化。
中英文切换生硬：当文本中同时存在中英文时，切换感觉非常不自然，而且当英文较长时（比如”Qwen-SEA-LION-v4”），模型容易胡言乱语。
数字处理问题：模型在处理数字时表现不佳，例如会把”119个”读成”一一九”而不是”一百一十九”，听起来很奇怪。
长文本处理能力有限：当处理较长文本时，输出容易变得混乱，必须将长文本切分为小块，使用起来不太方便。

总结

总体来说，GPT-SoVITS是一个很有潜力的开源项目，但在实际使用中还有不少需要改进的地方。对于简单的中文文本转换，效果还可以接受，但在处理复杂文本、中英文混合、数字等方面，表现还有待提高。

如果是想尝试TTS技术或者做一些简单的语音生成，GPT-SoVITS是一个不错的选择；但如果对语音质量和准确性有较高要求，可能还需要进一步的调整和优化，或者尝试其他更成熟的解决方案。

希望我的这次体验记录能够对大家有所帮助，也期待GPT-SoVITS项目在未来能够不断改进和完善！