超越先前最佳，阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型

8月13日，阿里巴巴旗下的通义千问项目宣布开源了一组名为Qwen2-Audio的音频系列模型，包括Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两款。这款大型音频语言模型具备接收多种音频信号的能力，并能依据语音指令执行音频分析或直接生成文本反馈，支持两种音频交互模式。

交互模式详解

性能验证

模型的效能已在一系列基准数据集上得到了验证，其表现超越了以往最优模型的标准。

Qwen2-Audio 性能概览

此图展示了Qwen2-Audio的整体性能概览，直观呈现了其在多个评估维度上的卓越表现。

责任编辑：：杨正

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2024-07-01

从被动采集到主动服务，AI如何改变监控摄像市场？