机器之心编辑部空气为何突然安静?原来是开了「降噪」按钮
发表时间:2023-10-01 13:00:47
文章来源:炫佑科技
浏览次数:174
菏泽炫佑科技
机器之心编辑部空气为何突然安静?原来是开了「降噪」按钮
机器之心编辑部
空气怎么突然安静了? 原来是“降噪”按钮打开了。
“你说什么?风太大了,我听不见!”
这句话大家常拿来当笑话,其实在现实中也经常发生,尤其是在短视频的录制过程中。 风声、雨声、机械声……每一种噪音都可能导致你的视频“音质全损”。
为了减少环境噪音的影响,人们想了很多办法,比如给麦克风套上一件厚厚的“毛衣”:
但“毛衣”并不是冷笑,它并不能解决所有问题。 更重要的是,我们大多数人直接在手机上录制视频,甚至没有专业的麦克风。
对于软件来说,硬件是不够的。 视频中噪声的普遍存在催生了大量的降噪软件,它们在视频后期制作中发挥着重要作用。 但这些软件也有各自的缺点,如操作复杂、降噪不彻底、上传下载耗时、降噪级别不可调等。 随着短视频制作群体的扩大,越来越多的制作者渴望拥有一款简单、灵活、易用的降噪软件。
对此,拥有3.792亿日活跃用户的快手回应称:已经安排好了。
这个实用的小功能*近在快手旗下的视频拍摄、编辑、制作APP“快影”上线。 打开APP即可直接使用。
降噪功能的入口在“快影”App底部功能区的“音效”中。 点击“视频原声”或“录音”按钮,页面上有一个“降噪功能”选项。
降噪前后效果对比:
在试用过程中,我们发现它不仅可以去除各种噪音,还可以满足实时预览和可调降噪的需求。 之所以能够满足这些需求,是因为快影的降噪功能部署在移动端。
与部署在服务器端的解决方案相比,移动部署可以省去我们上传下载的麻烦,从而降低视频制作的网络要求,节省制作时间; 同时,它还支持个性化降噪选择(5个降噪档位,从噪音抑制5dB到完全消除),让我们可以在不想要的背景声音时将其完全消除,并适当抑制当我们想保留一些背景声音时。
不同档位降噪效果对比:
如果你的听感敏锐的话,可能还会发现快影降噪处理后的音频还是非常丰富、立体的。 这是因为快影的深度降噪算法支持两声道16kHz宽带输出,*大程度保留了原声。 信号的带宽和双耳成像。 相比之下,一般的深度语音降噪算法只能支持单通道8kHz带宽输出,音质会大打折扣。
作为一款为“零基础”创作者打造的视频制作平台,快影拥有很多实用的小功能,比如视频画中画、文字转语音、人脸融合等,可以满足大部分需求的短视频创作者。 生产要求。 “降噪”功能的推出进一步降低了对拍摄环境和硬件的要求,让用户拍摄更加自由。
那么,这么有用的功能是如何创建的呢? 在*近的一次采访中,快手音频技术团队向机器之心介绍了该功能背后的技术细节。
要求模型效果好,体积小。
语音降噪是语音领域一个非常重要的研究方向。 其历史可以追溯到20世纪30年代。 从收音机到电话再到VOIP,对语音降噪技术有着强烈的需求。
在深度学习取得长足进步之前,单通道语音降噪都是通过传统的信号处理方法实现的。 一般认为,它只能去除噪声语音中稳定的噪声成分,如空调噪声、汽车发动机噪声等。这些噪声的音量和频率都比较稳定,比较容易消除。 但我们的环境中也充斥着大量的非平稳噪声,比如汽车喇叭、多人说话等,这些噪声的音量和频率变化较大,这些都是传统降噪方案的缺点。
2015年之后,深度学习技术突飞猛进,降噪技术也取得了长足的进步。 快影的降噪解决方案基于深度学习技术。
技术团队表示,在训练阶段,他们从三个方面入手,保证模型在有限尺寸下的降噪效果。
**个方面是网页设计。 快影降噪方案的核心是CNN和RNN的混合网络结构软件制作,可以捕捉语音的局部特征并跟踪长期特征,保证降噪效果。
第二个方面是前后处理和损失函数的设计。
在预处理方面,团队利用信号处理和心理声学中关于响度和掩蔽的现有结论,在不影响主观聆听体验的情况下,设计了基于信号处理的预处理模块。 该模块的目的是剔除训练目标中人耳无法感知的成分,重点关注那些更重要的成分,从而简化深层网络的训练目标,促进有限数量的小型网络的收敛参数,*终改善主观音质体验。
在后处理方面,团队利用了语音信号低频和高频成分之间强相关性的特点以及心理声学中人耳对高频成分的感知明显弱于低频成分的结论。 -频率组件,合理分配计算资源,达到在大多数模型上处理的目标。 在线降噪解决方案。
在损失函数设计方面,团队基于学术界现有损失函数的实际验证,结合降噪问题中的主要矛盾,即降噪(过)和语音保留(下)之间的平衡,由于语音信号谐波特性明显,设计了新的损失函数:在增强输出语音信号谐波特性的同时,突出了输入带噪语音信噪比较低时的降噪效果。 当输入带噪语音信噪比较低时,突出留声效果,*终保证算法降噪和留声的整体平衡。
第三个方面是数据增强。 噪声数据的多样性是提高去噪模型泛化能力的关键。 为此,技术团队对各种环境混响、采集回放设备以及预处理算法进行了模拟,生成各种数据。 基于这些数据,技术人员依靠人工智能算法来训练神经网络来区分语音和噪声,并将干净的语音与嘈杂的环境分开。
在部署阶段,考虑到短视频创作者实时预览、降噪可调、降噪处理后能够保留原始视频中的立体声信号等需求,技术人员选择了移动部署方案。 为了解决降噪效果与移动端算力之间的矛盾,他们在算法侧进行模型压缩,采用知识蒸馏、模型剪枝、量化等方法。 他们还在工程实现方面对计算复杂度进行了深度优化。 ,保证车型能够适配各种高、中、低端车型。
杀敌一千,不负八百
为了验证快影降噪方案与其他产品的差异机器之心编辑部空气为何突然安静?原来是开了「降噪」按钮,技术团队借助SNR(信噪比)、POLQA(感知客观语音质量评估)等指标对模型进行了评估。
SNR 表示语音的噪声程度。 SNR 越大,语音的噪声越小。
实验结果表明,相同降噪量下,快影的降噪能力与其他产品相当; 不过,快影的降噪方案的优势在于支持可调节降噪的模式。 随着降噪量的增加,快影的降噪效果相对于其他产品的优势变得非常明显。
POLQA 是目前业界公认的参考音质评估方法,可以对降级或经过处理的语音信号与原始信号进行比较进行评级。 它反映了音频的整体音质,包括语音失真程度和语音完整性。
如下图所示,在纯语音降噪中,快影并没有造成音质损伤,而其他产品则没有; 在同样12dB的降噪量下,快影得分比其他产品高出约0.2分。 随着降噪量的增加,快影的降噪优势越来越明显。
注:由于其他产品无法选择降噪量,快影的20dB和全面降噪改进都是相对于其他产品的单一降噪量(约12dB)的改进。
幕后技术团队:未来可期
好用的产品离不开可靠的技术团队。 除了近期推出的降噪产品外,快手音频技术团队还在2021年全球音频技术顶级会议举办的国际回声消除算法大赛中斩获佳绩,夺得双讲回声消除和远程单声道世界冠军。 talk 回声消除单项世界亚军,综合排名世界第三。 值得一提的是,参加本次比赛时,快手的团队实际上在人数上并不占优势,只有其他大厂的三分之一左右。
快手音频技术团队和快影团队表示,下一步重点将是提升快影“特定场景声音分层处理”的效果,解决用户在非正常说话场景下,比如用户唱歌时的噪音问题。 ,算法需要保留伴奏,同时消除噪音。 团队的目标是通过不断优化精细化场景的降噪效果,让每一位用户都能在快影App中享受到黑科技带来的卓越聆听体验。