4月26日,科大讯飞宣布推出讯飞星火V3.5更新版本,首度引入星火图文识别大模型,赋予其感知现实世界的能力。此举措标志着国产大模型在支持图文输入领域的重大进展。
当前,虽然先进的人工智能大模型在语言交互领域展现出卓越性能,但在图文识别方面仍存在局限性。据去年10月华南理工大学对GPT-4Vision的全面评测显示,其文字识别能力相较于专业OCR模型逊色不少,特别是在手写中文文本的识别上出现了显著的误判问题。
国内面向C端市场的大多数大模型应用产品并未充分整合图文识别功能。部分头部国产大模型应用虽提供拍照识别服务,但主要局限于“搜题”功能,无法在更广泛的场景中发挥作用。许多应用甚至缺乏拍照选项,用户仅能通过输入文本与模型互动。
面对日常工作中遇到的复杂信息处理需求,讯飞星火通过其图文识别大模型,旨在解决信息多样化处理难题。该模型具备高精度的复杂板面解析能力、篇章语义的文字识别功能以及对多领域专业符号的识别能力。借助这一技术,讯飞星火能够深入理解多媒体信息,显著提升知识获取和学习效率。无论是一份报纸、会议纪要、说明书,还是书籍、合同,只需拍照,即可获得大模型的快速识别与理解。
科大讯飞董事长刘庆峰指出,公司长期的技术积累,使得其在国际图文识别、公式识别竞赛中屡获第一,为星火图文识别大模型的诞生奠定了坚实基础。在英文公开测试集中,星火大模型的图文识别效果超越了微软、Google等国际竞品6个百分点。在科研、金融、产品文档等典型应用场景中,星火大模型均实现了对当前顶尖模型GPT-4V的超越。
星火图文识别大模型的加入,为讯飞星火增添了“视觉感知”的能力,使其能够实时解析现实世界中的图文信息,为用户提供即时的帮助与解答。对于报纸、合同等信息密集的材料,一键拍照即可快速提取关键信息;对于租房合同等法律文件,也能辅助识别潜在的风险条款,让用户如同拥有了一位随时待命的法律专家。
随着技术的发展,多模态能力已成为衡量大模型可用性与易用性的关键因素。视觉能力的增强,使大模型能够跨越单纯的语言处理限制,实现对物理世界的感知,为未来的应用开辟了无限可能。预计在未来,更多国产大模型将致力于多模态内容的开发,推动大模型技术全面融入人们的日常生活与学习之中,提升智能化体验。
科大讯飞的这次技术创新不仅展示了国产大模型在图文识别领域的突破,更为人工智能在实际生活中的应用提供了新的视角与可能性。随着技术的不断进步,未来大模型将在更多场景下展现出强大的实用价值,为用户带来更加便捷、高效的智能体验。