4月26日,科大讯飞宣布推出讯飞星火V3.5更新版本,首度引入星火图文识别大模型,赋予其洞察现实世界的能力。这一举措标志着国产大模型在支持图文输入领域的重大进展。
尽管先进的人工智能模型在语言交流方面展现出卓越性能,但在图文识别领域仍存在局限。去年10月,华南理工大学对GPT-4Vision进行评估时发现,该模型在识别文字能力上相比专业OCR模型低了数十个百分点,特别是在手写中文文本的识别中出现了显著的误判问题。
国内面向C端的大模型应用大多缺乏图文识别功能。多数产品的拍照识别仅限于“搜题”用途,难以在更广泛的场景中发挥作用。部分应用甚至未提供拍照功能,用户只能通过文本输入与模型互动。
日常工作中,我们接触到的信息远不止纯文本。从合同、会议PPT到工作纪要,如何利用大模型对这些多媒体信息进行深度理解和整理成为关键需求。
讯飞星火通过其图文识别大模型,旨在解决上述问题。该模型具有高精度的复杂版面解析能力,融合篇章语义的文字识别,以及跨领域的专业符号识别,旨在实现对多媒体信息的深入理解,显著提升用户获取知识和学习效率。无论是会议纪要、说明书、报纸还是书籍,只需拍照即可获得大模型的解读。
经过多年的努力,科大讯飞在国际图文识别、公式识别竞赛中多次夺冠,为星火图文识别大模型的发布奠定了坚实基础。公司针对各类特定场景的图文识别进行了专项优化,覆盖了包括书籍、学术论文、报纸、体检报告、PPT在内的31种工作生活常见场景,针对18个关键版面元素进行了优化,能够快速识别和处理页眉、页脚、标题、表格等信息,甚至准确识别复杂的公式、印章、二维码及手写内容。
在英文公开测试集中,星火图文识别大模型在多项指标上超越微软、谷歌等国际同行,尤其是在科研、金融、产品文档等典型应用领域,实现了对GPT-4Vision的超越。
星火图文识别大模型的引入,相当于为讯飞星火增添了一双“眼睛”,使得用户能够在遇到不明白的内容时,通过拍照寻求大模型的帮助。对于海量信息的报纸,一键拍照即可整理要点;在签订合同时,拍照上传即可由大模型指出潜在风险,提升决策效率。
随着国家互联网信息办公室数据显示,中国备案的大模型数量已达到117家,未来将有更多国产大模型致力于多模态内容的开发,使大模型技术真正融入人们的日常工作和学习之中,助力提升效率和创新能力。多模态能力将成为衡量大模型可用性和易用性的重要指标,为未来大模型应用打开广阔前景。