近期,2024年中国图象图形大会在古都西安成功举办。本次盛会由中国图象图形学学会主导,空军军医大学、西安交通大学、西北工业大学共同协办。大会汇聚了二十多个专业论坛,展示了一百多项科研成果,聚焦生成式人工智能、大模型、机器学习、类脑计算等图像图形领域的最新进展。
在大会上,CSIG文档图像分析与识别专业委员会与上海合合信息科技股份有限公司联合主办了《大模型技术及其前沿应用》专题论坛。来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等学术界与产业界的专家齐聚一堂,深入探讨大模型技术在图像领域的发展与实践应用。
论坛上,合合信息智能创新事业部的研发总监常扬分享了公司在智能文档处理技术领域的探索与成就。他指出,文档解析技术的难点在于准确识别文档中的元素,并理解它们之间的逻辑关系。常扬提到,物理版面分析侧重于视觉特征与文档布局,如通过目标检测任务,构建基于回归的单阶段模型,以识别文档中的布局元素。而逻辑版面分析则专注于语义特征,通过建立层次关系,形成目录树结构,以提升文档处理的逻辑性与准确性。
文档解析技术涉及文档元素检测、文字表格识别、版面分析与还原阅读顺序等关键任务,是文档处理领域的核心技术挑战。经过多年的积累与优化,合合信息已成功打通从电子文档解析到图像处理、文字识别、表格识别、版面分析、还原阅读顺序与排版布局的全流程。针对电子文档和扫描件,公司能够精准识别文字、表格、图像、流程图等复杂元素,确保文档阅读顺序的完整还原,为大模型训练与文档问答应用提供高质量的语料支持。
常扬表示,随着开放词汇目标检测(OVD)、视觉语义对齐(Alignment)等技术的进展,以及生成式模型的应用,版面分析的研究思路正在不断拓展。合合信息将继续深耕智能文档处理领域,推动新技术在实际场景中的高效应用,促进大模型技术的进一步发展。