讯飞星火V3.5春季上新，科大讯飞首发星火图文识别大模型

和顺仙
2024-04-29 00:00:00 3016

+关注

科大讯飞发布讯飞星火V3.5更新版：国产大模型的图文识别新突破

引言

4月26日，科大讯飞宣布推出讯飞星火V3.5更新版本，首度引入星火图文识别大模型，赋予其感知现实世界的能力。此举措标志着国产大模型在支持图文输入领域的重大进展。

现状与挑战

当前，虽然先进的人工智能大模型在语言交互领域展现出卓越性能，但在图文识别方面仍存在局限性。据去年10月华南理工大学对GPT-4Vision的全面评测显示，其文字识别能力相较于专业OCR模型逊色不少，特别是在手写中文文本的识别上出现了显著的误判问题。

市场需求与现状

国内面向C端市场的大多数大模型应用产品并未充分整合图文识别功能。部分头部国产大模型应用虽提供拍照识别服务，但主要局限于“搜题”功能，无法在更广泛的场景中发挥作用。许多应用甚至缺乏拍照选项，用户仅能通过输入文本与模型互动。

星火图文识别大模型的使命

面对日常工作中遇到的复杂信息处理需求，讯飞星火通过其图文识别大模型，旨在解决信息多样化处理难题。该模型具备高精度的复杂板面解析能力、篇章语义的文字识别功能以及对多领域专业符号的识别能力。借助这一技术，讯飞星火能够深入理解多媒体信息，显著提升知识获取和学习效率。无论是一份报纸、会议纪要、说明书，还是书籍、合同，只需拍照，即可获得大模型的快速识别与理解。

科大讯飞的技术积累与成就

科大讯飞董事长刘庆峰指出，公司长期的技术积累，使得其在国际图文识别、公式识别竞赛中屡获第一，为星火图文识别大模型的诞生奠定了坚实基础。在英文公开测试集中，星火大模型的图文识别效果超越了微软、Google等国际竞品6个百分点。在科研、金融、产品文档等典型应用场景中，星火大模型均实现了对当前顶尖模型GPT-4V的超越。