随着互联网的迅速发展,图片成为了信息传播的重要媒介,而图片中的文本识别与检测技术也逐渐成为学术界和产业界的研究热点,广泛应用于证件照识别、信息采集和书籍电子化等领域。
尽管如此,基于网络图片的、以中文为主的OCR数据集一直较为匮乏。为此,阿里巴巴“图像与美”团队推出了MTWI数据集,这是阿里巴巴首次公开的OCR数据集,也是当前难度最大、内容最丰富的网络图片OCR数据集之一。
基于该数据集,阿里巴巴“图像与美”团队与华南理工大学共同举办了ICPR MTWI 2018挑战赛。此次比赛分为三个独立赛道:一是识别单行文本图片中的文字;二是检测并定位图像中的文字行位置;三是识别整张图片中的文字内容。每个赛道都吸引了超过一千支队伍参与。
来自中科大NELSLIP团队的杜俊教授和戴礼荣教授带领的团队与科大讯飞合作,取得了三项任务的冠军。以下是中科大学生张建树和朱意星对比赛方案的描述,特别是针对第三赛道的方案。
比赛中,主办方提供了20000张图像作为数据集,其中50%作为训练集,50%作为测试集。所有图像均来源于网络,主要包括合成图像、产品描述和网络广告等内容。这些图像往往包含复杂的排版、密集的小文本或多语言文本,甚至带有水印,对文本检测和识别提出了巨大挑战。
比赛提交的方案主要分为两类:基于CTC的方案和基于注意力机制的Encoder-Decoder方案。NELSLIP团队根据复现结果,最终选择了第二种方案。
首先,OCR长期面临的问题包括连续文本识别和自然场景背景复杂、噪声干扰大等问题。其次,深度学习模型需要大量的数据进行训练,如果样本量不足,模型难以训练到位。此外,比赛中存在一些繁体字,而关于繁体字的训练样本较少,导致识别难度较大。
此次比赛中,NELSLIP团队使用了RAN网络,专门用于解决少样本问题。RAN网络基于张建树在ICME2018上的论文《Radical Analysis Network for Zero-Shot Learning in Printed Chinese Character Recognition》进行了优化,具有以下优势:
团队对注意力机制进行了改进,增加了4个注意力头,并引入了一个coverage actor,它会将历史注意力信息传递给当前时刻的注意力模型,从而提高注意力的对齐能力。此外,还采用了attention guider技术,增强了模型的学习能力。
比赛中,检测主要面临四个方面的挑战:多角度问题、文本重叠问题、文本模糊问题以及文本长度差异问题。
比赛中遇到了许多实际问题,如图像过小、失真、图像分辨率低等。此外,对于注意力机制的研究也在不断进步,但这些改进方案大多针对NLP和机器翻译领域,并未完全适用于文本识别任务。未来,团队可能会进一步改进注意力机制和编码器,特别是在手写字符识别方面。
通过这些创新和改进,团队成功解决了大量文本识别和检测的挑战,推动了OCR技术的发展。