ICPR 图像识别与检测挑战赛冠军方案出炉，基于偏旁部首来识别 Duang 字

人工智能猿
2022-06-21 13:55:43 6

随着互联网的迅速发展，图片成为了信息传播的重要媒介，而图片中的文本识别与检测技术也逐渐成为学术界和产业界的研究热点，广泛应用于证件照识别、信息采集和书籍电子化等领域。

尽管如此，基于网络图片的、以中文为主的OCR数据集一直较为匮乏。为此，阿里巴巴“图像与美”团队推出了MTWI数据集，这是阿里巴巴首次公开的OCR数据集，也是当前难度最大、内容最丰富的网络图片OCR数据集之一。

基于该数据集，阿里巴巴“图像与美”团队与华南理工大学共同举办了ICPR MTWI 2018挑战赛。此次比赛分为三个独立赛道：一是识别单行文本图片中的文字；二是检测并定位图像中的文字行位置；三是识别整张图片中的文字内容。每个赛道都吸引了超过一千支队伍参与。

来自中科大NELSLIP团队的杜俊教授和戴礼荣教授带领的团队与科大讯飞合作，取得了三项任务的冠军。以下是中科大学生张建树和朱意星对比赛方案的描述，特别是针对第三赛道的方案。

比赛中，主办方提供了20000张图像作为数据集，其中50%作为训练集，50%作为测试集。所有图像均来源于网络，主要包括合成图像、产品描述和网络广告等内容。这些图像往往包含复杂的排版、密集的小文本或多语言文本，甚至带有水印，对文本检测和识别提出了巨大挑战。

文本识别

比赛提交的方案主要分为两类：基于CTC的方案和基于注意力机制的Encoder-Decoder方案。NELSLIP团队根据复现结果，最终选择了第二种方案。

比赛难点

首先，OCR长期面临的问题包括连续文本识别和自然场景背景复杂、噪声干扰大等问题。其次，深度学习模型需要大量的数据进行训练，如果样本量不足，模型难以训练到位。此外，比赛中存在一些繁体字，而关于繁体字的训练样本较少，导致识别难度较大。

解决方案

Radical Analysis Network（RAN）网络

此次比赛中，NELSLIP团队使用了RAN网络，专门用于解决少样本问题。RAN网络基于张建树在ICME2018上的论文《Radical Analysis Network for Zero-Shot Learning in Printed Chinese Character Recognition》进行了优化，具有以下优势：

RAN网络采用基于注意力机制的编解码方法，而不是传统的滑窗方法。无论输入是横排还是竖排，它只关注相应的像素点。
这一网络将汉字拆解成偏旁部首的形式，提高了识别效率和准确性。例如，“殿”字可以拆解成“共”字旁和“八”字旁，再结合“尸”字旁形成上下结构。通过这种方式，可以更好地识别汉字。

针对注意力机制的改进

团队对注意力机制进行了改进，增加了4个注意力头，并引入了一个coverage actor，它会将历史注意力信息传递给当前时刻的注意力模型，从而提高注意力的对齐能力。此外，还采用了attention guider技术，增强了模型的学习能力。

检测

比赛中，检测主要面临四个方面的挑战：多角度问题、文本重叠问题、文本模糊问题以及文本长度差异问题。

解决方案

多角度问题：团队使用LocSLPR（Local Spatial Pyramid Pooling）来构建空间金字塔，描绘出文本的轮廓，从而实现更准确的文本行定位。
文本重叠问题：团队使用了堆叠R-CNN方法，通过两次proposal box操作，第一次使用水平矩形框，第二次使用旋转矩形框，解决了文本重叠问题。
文本模糊问题：通过神经网络的鲁棒性来解决，尽管这一问题较为棘手，但在比赛中并未特意设计网络结构。