亮相2024中国图象图形大会,合合信息文档解析技术获行业关注
作者头像
  • 李葵
  • 2024-05-31 00:00:00 3034

近期,2024年中国图象图形大会在古都西安成功举办。本次盛会由中国图象图形学学会主导,空军军医大学、西安交通大学、西北工业大学共同协办。大会汇聚了二十多个专业论坛,展示了一百多项创新成果,聚焦生成式人工智能、大模型、机器学习、类脑计算等图像图形领域的最新进展。

大模型技术正迅速普及,广泛应用于各行各业的图像处理工作。会议期间,CSIG文档图像分析与识别专业委员会与上海合合信息科技股份有限公司联合举办了一场题为《大模型技术及其前沿应用》的专题讨论会。来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室以及合合信息等学术界和产业界的专家,深入探讨了大模型技术在图像领域的现状与发展、应用实践。

在会议现场,一幅图片吸引了众多与会者的注意。图片展示了参会者聚精会神地聆听着《大模型技术及其前沿应用》的精彩分享。

大模型的迅猛发展背后,也面临着一场关于高质量语料的“能源危机”。根据Epoch研究小组的预测,机器学习数据集可能在2026年耗尽所有高质量语言数据。当前,大量的高质量语料主要存在于书籍、论文、研究报告、企业文档等文件中。然而,复杂版面结构限制了大模型的训练效率和文档问答功能的应用。文档解析技术的进步,使得机器能够识别文件中的多种元素,高效处理文本、表格、图像等多种数据形式,并恢复文件的阅读顺序,从而加速了大模型的训练与应用过程。合合信息的智能创新事业部研发总监常扬在会上分享了公司在智能文档处理领域的技术进展,为与会者提供了新的技术视角。

常扬指出,文档解析的挑战在于精确识别文件中的各元素,并理解它们之间的逻辑关系,包括物理版面分析和逻辑版面分析。物理版面分析着重于视觉特征和布局,目标是将具有高度相关性的文字聚集在同一区域内,如段落、表格等,并采用目标检测任务进行建模。而逻辑版面分析则侧重于语义特征分析,通过构建语义层次关系,形成目录树结构。

文档解析技术涵盖了文档元素检测、文字表格识别、版面分析、阅读顺序还原等关键任务,构成了文档处理领域的核心技术难题。凭借多年的技术积累,合合信息已建立起从电子文档解析到图像处理、文字识别、表格识别、版面分析、版面还原和排版布局的全流程文档智能化处理体系。面对电子文档和扫描件,公司能够灵活识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等元素,准确还原文件阅读顺序,为大模型领域提供了高质量的训练数据和文档问答体验。

另一幅图片记录了参会者们排队体验合合信息智能文档处理技术的场景。常扬表示,他们发现现实世界中的文档具有极高的多样性,难以用单一的版面分类标准来概括。近年来,开放词汇目标检测(OVD)、视觉语义对齐(Alignment)等前沿技术的进展,以及生成式模型的引入,为版面分析提供了新的研究方向。合合信息的研究团队将持续深耕智能文档处理领域,推动新技术在行业中的应用,促进技术价值的快速转化。

    本文来源:图灵汇
责任编辑: : 李葵
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
合合图象中国图形解析亮相大会文档关注行业
    下一篇