-
Notifications
You must be signed in to change notification settings - Fork 22
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
实时性和因果性 #3
Comments
@wanghao0225 |
感谢回答,恭喜恭喜,你的模型效果太惊艳了。 |
感谢支持! |
你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果! |
基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的? |
vctk数据集每条语音长度差别太大了,我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况,我认为是vctk数据集的测试集和训练集分布差异太大的原因:测试集的信噪比太高了。一般这种情况,换个随机种子重新训一下就好。 |
是的,模型压缩得太小时,性能会急剧下降。如果对运算量的限制可以放宽些的话,可以把模型调大些(直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可),会得到更好的性能。 |
实测ERB频带处理对信号有影响,但在可接受范围内。模型主要问题还是可能参数太小,SNR低的时候过度抑制的厉害,是否有什么好的办法? |
@songdaw |
你好,我用你的代码跑vctk数据集时也遇到每条语音长度不同的问题,但是我为了偷懒直接全部截取为1s长度,最后得到的结果比补充到4s的还要好一点点,这是合理的吗? |
@UMLJH 这是合理的,也有很多文章直接截取到2s来训练。而且VCTK本来训练的随机性就很大 |
你好,请问你的GTCRN模型,能够保证实时性和因果性吗?
The text was updated successfully, but these errors were encountered: