网易云音乐近期在国际声学、语音与信号处理会议(ICASSP)上展示了其在音乐音频领域内的技术实力,两篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》和《TrOMR: Transformer-based Polyphonic Optical Music Recognition》成功入选。这两项研究成果不仅提升了音乐评价和图像乐谱识别的准确性,同时也展示了网易云音乐在技术创新和实际应用层面的卓越能力。
TG-Critic是网易云音乐研发的一种创新性歌唱评价算法模型,它能够仅凭一段演唱音频,独立判断歌手的演唱水平。实验数据显示,该模型的评估结果与专业专家对歌曲“演唱水平好”的评价高度一致,相似度高达91%。这一成果不仅展现了模型的精准度,也为音乐行业提供了一种无需人工模板支持的高效评价手段。
TrOMR算法模型则专注于图像乐谱的识别,通过精确解析图片中的五线谱,实现了在复音乐谱上的极低错误率,最高仅2.1%。这一技术革新,极大地简化了乐谱的数字化过程,为音乐创作者、教育者和爱好者提供了更便捷的服务。
音色引导的歌唱评价:TG-Critic模型引入了音色信息,首次在模型设计中明确关注音色对歌声评价的影响。通过使用预训练模型提取与音色相关的高级特征,模型在提高准确率的同时,更好地捕捉到了音色对评价结果的贡献。
高分辨率网络处理声谱特征:在模型输入中,TG-Critic采用了高分辨率网络来处理CQT声谱特征,有效解决了局部性问题,实现了对局部信息(如演唱技巧)和长距离信息(如气息稳定性)的综合分析,显著提升了模型的识别能力。
自动数据标注机制:为了减少人工标注成本,TG-Critic模型采用循环迭代过程,通过少量人工标注即可获得可靠的数据标签,极大地提高了工作效率。
TG-Critic模型的应用范围广泛,不仅能够减少对人力的依赖,还能在直播、音乐人内容分发等领域提供高质量的歌曲推荐和评估服务。同时,该模型还能助力优质歌手的挖掘,丰富社交、游戏等C端场景的互动体验。
总之,网易云音乐在音乐技术领域的持续创新,不仅推动了行业标准的提升,也为广大音乐爱好者带来了更多创新性的服务体验。