Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

实时性和因果性 #3

Closed
wanghao0225 opened this issue Apr 1, 2024 · 11 comments
Closed

实时性和因果性 #3

wanghao0225 opened this issue Apr 1, 2024 · 11 comments

Comments

@wanghao0225
Copy link

你好,请问你的GTCRN模型,能够保证实时性和因果性吗?

@Xiaobin-Rong
Copy link
Owner

@wanghao0225
GTCRN是一个因果模型,在12th Gen Intel(R) Core(TM) i5-12400 CPU @ 2.50 GHz测得的实时率为0.07,完全可以保证实时性要求。

@wanghao0225
Copy link
Author

感谢回答,恭喜恭喜,你的模型效果太惊艳了。

@Xiaobin-Rong
Copy link
Owner

感谢支持!

@shenbuguanni
Copy link

感谢支持!

你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果!

@wanghao0225
Copy link
Author

基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的?

@Xiaobin-Rong
Copy link
Owner

基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的?

vctk数据集每条语音长度差别太大了,我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况,我认为是vctk数据集的测试集和训练集分布差异太大的原因:测试集的信噪比太高了。一般这种情况,换个随机种子重新训一下就好。

@Xiaobin-Rong
Copy link
Owner

Xiaobin-Rong commented Apr 24, 2024

感谢支持!

你好,首先非常感谢你的这项工作,在DNS盲测数据集确实有比较好的体验效果,但是我测了我们真机测试集,降噪效果是有限的,我怀疑是ERB这种频带压缩造成的信号建模不佳,一个是用你提供是checkpoint,另一个是用我自己的数据集,替换你的模型重新训练的,好像都比较有限。个人认为,在一些稍微好点的算力平台,增大模型参数和算力,能够带来更好的降噪效果!

是的,模型压缩得太小时,性能会急剧下降。如果对运算量的限制可以放宽些的话,可以把模型调大些(直接调整Encoder/Decoder内各GTConv/Conv层的隐藏通道数即可),会得到更好的性能。

@songdaw
Copy link

songdaw commented May 10, 2024

实测ERB频带处理对信号有影响,但在可接受范围内。模型主要问题还是可能参数太小,SNR低的时候过度抑制的厉害,是否有什么好的办法?
另外,我看输出CRM的虚部mask值都很小,贡献不大,尝试把输出虚部mask置0对结果几乎没影响,请问是否对比过仅实部mask的指标差异?

@Xiaobin-Rong
Copy link
Owner

@songdaw
低SNR环境下,小模型确实存在比较大的性能劣化。目前我也正在研究如何进一步提高小模型的性能。
另外,有测试过纯幅度mask的性能,其实和复数mask差别不大。

@UMLJH
Copy link

UMLJH commented Nov 12, 2024

基于VCTK数据集,我在复现的时候,PESQ的值不到2.8(只改了模型部分,语音处理成了4s),请问vctk数据集,你在数据处理的时候,语音是如何处理的?

vctk数据集每条语音长度差别太大了,我在dataloader里用了collate_fn来对同一个batch内的语音长度填充。不过我认为这不会对性能造成太大影响。事实上我在训练时也遇到过PESQ特别糟糕的情况,我认为是vctk数据集的测试集和训练集分布差异太大的原因:测试集的信噪比太高了。一般这种情况,换个随机种子重新训一下就好。

你好,我用你的代码跑vctk数据集时也遇到每条语音长度不同的问题,但是我为了偷懒直接全部截取为1s长度,最后得到的结果比补充到4s的还要好一点点,这是合理的吗?

@Xiaobin-Rong
Copy link
Owner

@UMLJH 这是合理的,也有很多文章直接截取到2s来训练。而且VCTK本来训练的随机性就很大

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants