国内AI大模型“安卓时刻”到来！阿里云通义千问免费、开源、可商用

陶晓庆
2023-08-08 14:28:14 3119

导读：

在人工智能（AI）大模型竞争的浪潮中，阿里巴巴作为最新加入的科技巨头，于8月3日推出了其70亿参数的通义千问模型，并将其开源，这标志着中国科技产业在AI领域的又一里程碑。此次开源行动不仅包括通用模型Qwen-7B和对话模型Qwen-7B-Chat，而且提供了国内首个“模型即服务”开放平台魔搭社区，以促进模型的免费使用和商业应用。

正文：

阿里巴巴在8月3日的举措中，不仅将70亿参数的通义千问模型开源，还推出了两个关键模型：通用模型Qwen-7B和对话模型Qwen-7B-Chat。这两个模型已入驻国内首个“模型即服务”开放平台魔搭社区，实现了开源、免费以及可商用化的目标。特别地，用户可以通过多种途径获取和利用这些模型，包括直接从魔搭社区下载，或者通过阿里云灵积平台访问并调用Qwen-7B和Qwen-7B-Chat，同时阿里云为用户提供了一站式的模型服务，涵盖训练、推理、部署和优化等环节。

魔搭社区的活跃用户已经分享了关于通义千问模型的安装指南、实践案例、模型使用教程等内容，并附上了详细的链接和截图，为新用户的快速上手提供了便利。

关于Qwen-7B：

Qwen-7B模型采用了去重及过滤后超过2.2万亿tokens的数据进行预训练，具备处理中、英等多语言的能力，其上下文窗口长度达到了8k，包含了高质量的中、英、多语言、代码、数学等数据，涵盖了网络文本、百科、书籍、代码、数学以及各类专业领域的内容。

MMLU与C-Eval评测：

在英文评测方面，Qwen-7B的表现超越了当前市面上的其他开源预训练模型，与更大规模模型相比也有显著的竞争优势。在中文评测中，Qwen-7B在C-Eval验证集上的得分最高，甚至在某些情况下超越了更大规模模型，展现了其强大的性能。

Qwen-7B-Chat的创新：

基于Qwen-7B模型，阿里云进一步开发了Qwen-7B-Chat，这是一个基于Transformer架构的中英文对话大语言模型，旨在实现与人类认知的高度对齐。该模型的训练数据来源广泛，包括网络文本、专业书籍、代码等，使得其在C-Eval验证集和MMLU评测集上的zero-shot准确率表现出色。

开源与商业化：

阿里巴巴的这一系列动作标志着中国科技企业首次加入到大模型的开源行列中。除了阿里巴巴的行动，微软和Meta也在7月联手发布了开源AI模型的可商用版本Llama 2，为市场提供了与OpenAI和谷歌模型的替代选项。此外，智谱AI及清华KEG实验室也公布了中国顶级开源大模型ChatGLM2-6B，允许免费商用。