网易云音乐2篇论文入选ICASSP2023，AI歌声评价、乐谱识别均超国际先进水平

张俊
2023-02-17 00:00:00 3010

网易云音乐在音乐技术领域取得突破性进展

网易云音乐近期在国际声学、语音与信号处理会议（ICASSP）上展示了其在音乐音频领域内的技术实力，两篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》和《TrOMR: Transformer-based Polyphonic Optical Music Recognition》成功入选。这两项研究成果不仅提升了音乐评价和图像乐谱识别的准确性，同时也展示了网易云音乐在技术创新和实际应用层面的卓越能力。

歌唱评价算法模型：TG-Critic

TG-Critic是网易云音乐研发的一种创新性歌唱评价算法模型，它能够仅凭一段演唱音频，独立判断歌手的演唱水平。实验数据显示，该模型的评估结果与专业专家对歌曲“演唱水平好”的评价高度一致，相似度高达91%。这一成果不仅展现了模型的精准度，也为音乐行业提供了一种无需人工模板支持的高效评价手段。

图像乐谱识别算法模型：TrOMR

TrOMR算法模型则专注于图像乐谱的识别，通过精确解析图片中的五线谱，实现了在复音乐谱上的极低错误率，最高仅2.1%。这一技术革新，极大地简化了乐谱的数字化过程，为音乐创作者、教育者和爱好者提供了更便捷的服务。

创新技术详解

音色引导的歌唱评价：TG-Critic模型引入了音色信息，首次在模型设计中明确关注音色对歌声评价的影响。通过使用预训练模型提取与音色相关的高级特征，模型在提高准确率的同时，更好地捕捉到了音色对评价结果的贡献。
高分辨率网络处理声谱特征：在模型输入中，TG-Critic采用了高分辨率网络来处理CQT声谱特征，有效解决了局部性问题，实现了对局部信息（如演唱技巧）和长距离信息（如气息稳定性）的综合分析，显著提升了模型的识别能力。
自动数据标注机制：为了减少人工标注成本，TG-Critic模型采用循环迭代过程，通过少量人工标注即可获得可靠的数据标签，极大地提高了工作效率。