网易云音乐2篇论文入选ICASSP2023,AI歌声评价、乐谱识别均超国际先进水平
作者头像
  • 张俊
  • 2023-02-17 00:00:00 3010

网易云音乐在音乐技术领域取得突破性进展

网易云音乐近期在国际声学、语音与信号处理会议(ICASSP)上展示了其在音乐音频领域内的技术实力,两篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》和《TrOMR: Transformer-based Polyphonic Optical Music Recognition》成功入选。这两项研究成果不仅提升了音乐评价和图像乐谱识别的准确性,同时也展示了网易云音乐在技术创新和实际应用层面的卓越能力。

歌唱评价算法模型:TG-Critic

TG-Critic是网易云音乐研发的一种创新性歌唱评价算法模型,它能够仅凭一段演唱音频,独立判断歌手的演唱水平。实验数据显示,该模型的评估结果与专业专家对歌曲“演唱水平好”的评价高度一致,相似度高达91%。这一成果不仅展现了模型的精准度,也为音乐行业提供了一种无需人工模板支持的高效评价手段。

图像乐谱识别算法模型:TrOMR

TrOMR算法模型则专注于图像乐谱的识别,通过精确解析图片中的五线谱,实现了在复音乐谱上的极低错误率,最高仅2.1%。这一技术革新,极大地简化了乐谱的数字化过程,为音乐创作者、教育者和爱好者提供了更便捷的服务。

创新技术详解

  • 音色引导的歌唱评价:TG-Critic模型引入了音色信息,首次在模型设计中明确关注音色对歌声评价的影响。通过使用预训练模型提取与音色相关的高级特征,模型在提高准确率的同时,更好地捕捉到了音色对评价结果的贡献。

  • 高分辨率网络处理声谱特征:在模型输入中,TG-Critic采用了高分辨率网络来处理CQT声谱特征,有效解决了局部性问题,实现了对局部信息(如演唱技巧)和长距离信息(如气息稳定性)的综合分析,显著提升了模型的识别能力。

  • 自动数据标注机制:为了减少人工标注成本,TG-Critic模型采用循环迭代过程,通过少量人工标注即可获得可靠的数据标签,极大地提高了工作效率。

应用前景

TG-Critic模型的应用范围广泛,不仅能够减少对人力的依赖,还能在直播、音乐人内容分发等领域提供高质量的歌曲推荐和评估服务。同时,该模型还能助力优质歌手的挖掘,丰富社交、游戏等C端场景的互动体验。

  • 图像乐谱识别技术:基于端到端算法的乐谱识别模型,不仅解决了图像乐谱识别的难题,还大幅度降低了错误率。此技术不仅能将图片乐谱转换为midi、musicxml等格式,还为音乐辅助教育、听歌搜谱等场景提供了便利。

总之,网易云音乐在音乐技术领域的持续创新,不仅推动了行业标准的提升,也为广大音乐爱好者带来了更多创新性的服务体验。

    本文来源:图灵汇
责任编辑: : 张俊
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
乐谱网易入选ICASSP2023歌声识别水平评价先进论文
    下一篇