广场
最新
热门
资讯
我的主页
发布
不改名字的肥猫
2026-05-04 08:23:00
关注
3年多以前,我还在玩sovits的时候,那个时候声音的模型是需要分离(去环境背景音)出干声,然后做训练的。
然后需要对数据集进行一个筛选,去掉底噪大的部分,然后开始进行训练。
一般训练8000步左右,音色还原度最佳,如果超过8000步,评分还在25以下,这个数据集和训练基本就废了,如果你硬要继续训练,一口气训练到超过14000步,就会出现所谓的“发散”,最终导致出来的声音要么是“电音严重”要么就是“人不人鬼不鬼”。
这里像不像量化交易的开发步骤?提取干声的过程,就是给机器自学习和预测模型找数据集的过程,去掉底噪大的部分,就是筛选掉里面的无效行情(1m暴涨暴跌的部分),训练8000步,不会出现严重的过拟合,训练到14000步“发散”(严重过拟合)最终导致实盘结果无限接近于:抛硬币。
虽然不在一个赛道里,但是底层逻辑是相同的。
会不会在未来某一天,击败我们的不是行业本身的人,而是跨行踩过来的人,就真不好说了。。。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
159.99万 热度
#
美光市值超越Meta跻身全美前十
33.29万 热度
#
哥伦比亚VS葡萄牙
33.84万 热度
#
美国5月PCE通胀升至4.1%创三年新高
18.34万 热度
#
USD1链上质押享年化9.48%
99.74万 热度
置顶
网站地图
3年多以前,我还在玩sovits的时候,那个时候声音的模型是需要分离(去环境背景音)出干声,然后做训练的。
然后需要对数据集进行一个筛选,去掉底噪大的部分,然后开始进行训练。
一般训练8000步左右,音色还原度最佳,如果超过8000步,评分还在25以下,这个数据集和训练基本就废了,如果你硬要继续训练,一口气训练到超过14000步,就会出现所谓的“发散”,最终导致出来的声音要么是“电音严重”要么就是“人不人鬼不鬼”。
这里像不像量化交易的开发步骤?提取干声的过程,就是给机器自学习和预测模型找数据集的过程,去掉底噪大的部分,就是筛选掉里面的无效行情(1m暴涨暴跌的部分),训练8000步,不会出现严重的过拟合,训练到14000步“发散”(严重过拟合)最终导致实盘结果无限接近于:抛硬币。
虽然不在一个赛道里,但是底层逻辑是相同的。
会不会在未来某一天,击败我们的不是行业本身的人,而是跨行踩过来的人,就真不好说了。。。