软硬结合与数据驱动处理声纹辨认两大痛点
作者头像
  • 马飞超
  • 2019-12-14 17:02:27 3

声纹识别作为一种生物识别技术,具备一定的优势,但在实际应用中仍面临诸多挑战。相比于指纹和虹膜等其他生物特征,声纹识别更容易受到外部环境和人体状态的影响,例如噪音干扰。在微信声纹锁的实际体验中,马路边或茶餐厅等嘈杂环境显著降低了识别率。此外,声音的时变性、录音通道的多样性以及语音时长等因素也会影响声纹数据的质量。

为了解决这些问题,目前主要采取了两种改进措施:算法优化和硬件升级。算法方面,通过数据增强和信道补偿算法使训练数据更加多样化,从而提高模型的鲁棒性和稳定性。同时,针对不同场景下的设备特点,开发更适配的算法模型。硬件方面,声智科技提供了软硬一体化的整体解决方案,如公安行业的声纹采集终端,采用四麦克风和六麦克风阵列,每台设备出厂前都会进行麦克风一致性校准,以减少语音采集过程中的失真。此外,声智科技还与第三方芯片和硬件合作伙伴紧密合作,不断优化用户体验。

对于噪音环境,声纹传感器的研发是一个重要的方向。部分厂商已经开发出了能够在指定区域内有效拾音的声纹传感器,从而达到抑制噪音的效果。除了硬件改进,语音增强算法也在解决复杂噪音环境问题方面发挥了作用。针对个人声音的时变性,研究重点在于提取更稳定的声纹特征。基于海量数据,利用深度神经网络模型挖掘更稳定的特征。对于录音通道的多样性,更多采用数据驱动的方法,通过大规模数据库提取多种信道之间的共性特征。尽管如此,未来趋势仍将是数据驱动的方法。

声纹识别的安全性同样重要,因为模拟声音和重放录音是常见的攻击手段。随着语音合成技术的发展,声纹识别系统的安全性受到了更大的挑战。对此,声智科技采用了多种敏感检测策略,结合前端语音处理、语音端点检测、语音合成检测、语音转录检测和说话人分离等多种技术手段,确保声纹识别的安全性。

针对声纹识别的安全问题,快商通参与了ASVspoof自动声纹识别欺骗攻击与防御策略挑战赛,旨在提高声纹识别系统的防欺骗攻击能力,特别是在应对虚假录音攻击方面。2017年,快商通在李海洲院士的带领下获得了ASVspoof比赛的第一名。除了算法和系统外,解决方案还需要大量数据驱动,包括录音样本、设备测试、不同采样率、不同长度和不同环境的训练。

在智能家居等应用场景中,离线声纹识别面临着计算资源有限的挑战。离线声纹识别与在线声纹识别的主要区别在于模型部署的位置——云端或本地。在智能家居设备控制场景下,终端设备的计算资源限制通常只能支持十几个到几十个离线命令词。而在移动设备上,由于计算资源和存储空间较大,可以安装接近通用识别的离线语音识别模型。然而,离线声纹识别在计算资源有限的情况下,性能和安全性通常低于在线声纹识别。

市场需求的不同导致了声纹识别在不同场景下的要求有所不同。例如,在智能家居场景中,声纹识别需要区分不同的用户,基于短命令的离线声纹可以满足这一需求。声智科技已经拥有成熟的离线声纹识别技术,并将其应用于智能电视、智能音箱等产品中。声纹识别技术虽然市场应用还在开拓和培育阶段,但其识别率和安全性已经得到了显著提升。随着市场需求的增长和技术的不断进步,声纹识别将在未来得到更广泛的应用。

    本文来源:图灵汇
责任编辑: : 马飞超
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
痛点软硬辨认结合驱动处理数据
    下一篇