8月13日,阿里巴巴旗下的通义千问项目宣布开源了一组名为Qwen2-Audio的音频系列模型,包括Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两款。这款大型音频语言模型具备接收多种音频信号的能力,并能依据语音指令执行音频分析或直接生成文本反馈,支持两种音频交互模式。
交互模式详解
性能验证
模型的效能已在一系列基准数据集上得到了验证,其表现超越了以往最优模型的标准。
此图展示了Qwen2-Audio的整体性能概览,直观呈现了其在多个评估维度上的卓越表现。