百模大战，谁是赢家？文心3.5稳坐国内第一，综合评分超ChatGPT！

张琦
2023-08-08 00:00:00 3097

近期，清华大学新闻与传播学院沈阳团队公布了《大型语言模型综合性能评估报告》，此报告将国内各大语言模型进行了全面对比分析。结果表明，百度文心一言在三大维度下的20项评估指标中，综合评分位居全国第一，超越了全球领先的ChatGPT。尤其在中文语义理解能力上，文心一言表现尤为突出，部分中文处理能力甚至超过了GPT-4。

沈阳教授指出，百度在3月率先在全球范围内推出了文心一言这一大型语言模型，加速了中国在国际科技竞争领域的步伐。通过此次评估，可以看到文心一言在各方面能力上的显著进步，尤其是中文语义理解上，表现出色。这标志着国产大模型技术的快速发展，使得技术的实际应用更加值得期待。

评估过程中，选取了包括GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工在内的七个大型语言模型，从生成质量、使用与性能、安全与合规三个维度出发，全面考察了它们在上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全、隐私保护等方面的性能。文心一言在中文语义理解上独占鳌头，得分率达到92%，远超讯飞星火及GPT-4。其优势在于对中文特性的精准把握，以及训练过程中融入的大批本土文本，使得它在处理与本土文化相关主题时更具优势，例如诗歌、方言等领域。

在安全合规方面，文心一言在内容安全、偏见与公平性、隐私保护等方面均表现优异，得分率达到了78.18%，与GPT-4并列第一，远超其他模型。这体现了文心一言在保障用户信息安全和版权保护方面的强大能力。

百度在人工智能领域形成了覆盖“芯片-框架-模型-应用”的完整技术栈，其中深度学习平台飞桨为文心大模型的高效训练与推理提供了强大支持。文心大模型3.5版本通过升级基础模型、创新精调技术、强化知识点和逻辑推理能力，实现了模型效果的大幅提升，训练速度加快两倍，推理速度提高了30%。

随着行业对大模型应用的广泛需求，百度文心大模型已经与国家电网、浦发银行、泰康、吉利等多家企业展开合作，共同发布了11个行业大模型。文心大模型的应用规模在国内处于领先地位，已有15万家企事业单位申请接入测试，覆盖超过400个应用场景，展现出显著的测试效果。

本文由【本站】原创发布，未经许可不得转载。详细转载规则请参阅【转载须知】。

图灵汇

责任编辑：：张琦

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。