腾讯音乐天琴实验室携手清华大学人机语音交互实验室(THUHCSI)、音频语音与语言处理研究组(ASLP@NPU)以及北京市智慧广电(网络视听)重点实验室,共同推出了三套开源数据集。在“中国音数协数字音乐工委”的指导下,这些资源旨在为音乐行业、高校的专业研究人员提供开放数据服务,助力音乐产业基础建设,为音乐数字化转型注入新动力。
片段翻唱数据集(Lyra-CoverSegment Dataset):填补了全曲翻唱数据集的空白,特别针对听歌识曲中的翻唱识别难题。包含QQ音乐精选歌曲的原唱及翻唱片段,涵盖多语种、风格与歌手,总时长达400小时,内含超过53万个录音片段。
哼唱数据集(Lyra-Query by Humming Dataset):为哼唱识别技术的研发提供了有力支持,涵盖了广泛的用户群体和真实的录制环境,主要用于算法评估。
歌唱评价数据集(Lyra-Singing Assessment Dataset):作为国内首个整曲歌唱评价开源数据集,源自全民K歌,对音乐教育、线上卡拉OK及线下赛事具有极高研究与应用价值。它提供了丰富的歌唱数据及标签,有助于开发更精准的歌唱评价模型。
天琴实验室已成长为行业领先的音视频研究基地,并荣获深圳市南山区总工会颁发的示范性劳模和工匠人才创新工作室称号,成为南山互联网企业中唯一获此殊荣的工作室。这一荣誉是对实验室创新成果与攻关能力的高度认可。
除持续探索前沿技术外,腾讯音乐还积极参与音乐行业标准制定,与行业伙伴共同推进《音乐平台术语》与《音乐平台歌词格式要求》两项团体标准的出台。这两项标准的实施旨在统一数字音乐术语定义,规范逐字歌词格式,为音乐平台管理与服务提供标准化支持,进一步推动音乐行业高质量发展。
腾讯音乐以前瞻性的视角和深厚的技术积累,通过发布开源数据集与主导行业标准制定,不仅为音乐产业的创新发展奠定了坚实的基础,也彰显了其作为行业领航者,在推动音乐科技与服务升级方面的重要角色。未来,随着更多创新成果的涌现,腾讯音乐将继续引领音乐产业迈向更高水平。