讯飞星火V3.5春季上新，科大讯飞首发星火图文识别大模型

海滨之花
2024-04-29 00:00:00 3053

+关注

科大讯飞发布讯飞星火V3.5更新版：国产大模型的图文识别新突破

引言：

4月26日，科大讯飞宣布推出讯飞星火V3.5更新版本，首度引入星火图文识别大模型，赋予其洞察现实世界的能力。这一举措标志着国产大模型在支持图文输入领域的重大进展。

现状与挑战：

尽管先进的人工智能模型在语言交流方面展现出卓越性能，但在图文识别领域仍存在局限。去年10月，华南理工大学对GPT-4Vision进行评估时发现，该模型在识别文字能力上相比专业OCR模型低了数十个百分点，特别是在手写中文文本的识别中出现了显著的误判问题。

当前应用现状：

国内面向C端的大模型应用大多缺乏图文识别功能。多数产品的拍照识别仅限于“搜题”用途，难以在更广泛的场景中发挥作用。部分应用甚至未提供拍照功能，用户只能通过文本输入与模型互动。

图文识别的需求与挑战：

日常工作中，我们接触到的信息远不止纯文本。从合同、会议PPT到工作纪要，如何利用大模型对这些多媒体信息进行深度理解和整理成为关键需求。

星火图文识别大模型的潜力：

讯飞星火通过其图文识别大模型，旨在解决上述问题。该模型具有高精度的复杂版面解析能力，融合篇章语义的文字识别，以及跨领域的专业符号识别，旨在实现对多媒体信息的深入理解，显著提升用户获取知识和学习效率。无论是会议纪要、说明书、报纸还是书籍，只需拍照即可获得大模型的解读。

科大讯飞的技术积累与成就：

经过多年的努力，科大讯飞在国际图文识别、公式识别竞赛中多次夺冠，为星火图文识别大模型的发布奠定了坚实基础。公司针对各类特定场景的图文识别进行了专项优化，覆盖了包括书籍、学术论文、报纸、体检报告、PPT在内的31种工作生活常见场景，针对18个关键版面元素进行了优化，能够快速识别和处理页眉、页脚、标题、表格等信息，甚至准确识别复杂的公式、印章、二维码及手写内容。