基于深度学习的场景文字检测研究进展

引用本文

余若男, 黄定江, 董启文. 基于深度学习的场景文字检测研究进展[J]. 华东师范大学学报(自然科学版), 2018, (5): 1-16. DOI: 10.3969/j.issn.1000-5641.2018.05.001. 复制到剪切板

YU Ruo-nan, HUANG Ding-jiang, DONG Qi-wen. Survey on scene text detection based on deep learning[J]. Journal of East China Normal University (Natural Science), 2018, (5): 1-16. DOI: 10.3969/j.issn.1000-5641.2018.05.001. 复制到剪切板

基金项目

国家自然科学基金（11501204）；国家自然科学基金广东省联合项目（U1711262）

第一作者

余若男, 女, 硕士研究生, 研究方向为深度学习与目标检测.E-mail:yrn130814232@163.com

通信作者

黄定江, 男, 教授, 研究方向为机器学习与人工智能及其在计算金融等跨领域中大数据的解析和应用.E-mail:djhuang@dase.ecnu.edu.cn

文章历史

收稿日期：2018-06-27

Contents Abstract Full text Figures/Tables PDF

基于深度学习的场景文字检测研究进展

余若男, 黄定江, 董启文

华东师范大学数据科学与工程学院, 上海 200062

收稿日期：2018-06-27

基金项目：国家自然科学基金（11501204）；国家自然科学基金广东省联合项目（U1711262）

第一作者：余若男, 女, 硕士研究生, 研究方向为深度学习与目标检测.E-mail:yrn130814232@163.com

通信作者：黄定江, 男, 教授, 研究方向为机器学习与人工智能及其在计算金融等跨领域中大数据的解析和应用.E-mail:djhuang@dase.ecnu.edu.cn

摘要：在大数据驱动应用的背景下，随着计算机硬件性能的提高，基于深度学习的目标检测和图像分割算法冲破了传统算法的瓶颈，成为当前计算机视觉领域的主流算法.而场景文字检测任务受到目标检测和图像分割算法发展的影响，近年来也有了极大的突破.这篇综述的目的主要有3个方面：介绍近5年场景文字检测工作进展；比较分析先进算法的优点及不足；总结该领域相关的基准数据集和评价方法.

关键词：文字检测深度学习自然场景目标检测图像分割

Survey on scene text detection based on deep learning

YU Ruo-nan, HUANG Ding-jiang, DONG Qi-wen

School of Data Science and Engineering, East China Normal University, Shanghai 200062, China

Abstract: With improvements in computer hardware performance, object detection, and image segmentation algorithms (based on deep learning) have broken the bottlenecks posed by traditional algorithms in big data-driven applications and become the mainstream algorithms in the field of computer vision. In this context, scene text detection algorithms have made great breakthroughs in recent years. The objectives of this survey are three-fold:introduce the progress of scene text detection over the past 5 years, compare and analyze the advantages and limitations of advanced algorithms, and summarize the relevant benchmark datasets and evaluation methods in the field.

Key words: text detection deep learning natural scene object detection image segmentation

0 引言

文字, 作为人类交流思想、传承文化的媒介, 超越了时间和空间的限制, 从古至今发挥着重要的作用.文字区别于变幻莫测的图像和视频, 有着更强的逻辑性和更概括的表达力.这种属性使文字在自然图像和视频中呈现出一种特殊的、重要的信息来源.利用文字中所蕴含的高层语义, 可以更有效地利用场景信息.场景文字检测技术在图像搜索、目标定位、人机交互、无人驾驶、车牌识别、工业自动化等领域都有着广泛应用.因此, 自然场景中的文字提取技术, 成为了近几年计算机视觉领域的热门研究课题.

然而, 传统光学字符识别技术主要面向高质量的文档图像, 要求输入图像背景干净、字体简单且文字排布整齐规则, 在这种情况下OCR(Optical Character Recognition)技术能够达到很高的识别水平.与文档文字识别不同, 在自然场景图像中, 准确定位和识别文字都是极具挑战的任务.复杂的背景、多变的文字布局、低分辨率、不均匀照明、多语言、多方向等问题, 都加大了自然场景图像文字检测的难度.为了应对这些挑战, 学术界和工业界开展了大量的研究和实践工作, 提出了一系列针对场景文字检测问题的模型与方法.

场景文字检测任务约在20年前就有了相关的研究工作, 它与传统的文档文字检测的重要区别是需要将自然图像中的文字检测出来.在相关文献中, 场景文字检测在不同阶段有不同的任务, 主要分为两类: ①文字检测, 需要检测出文字区域, 并从输入图像中提取这些区域; ②文字识别, 对定位后的文字区域进行识别, 对文字信息进行提取.本文主要集中在第一类任务, 关注是否存在文字以及如何定位自然图像中可能包含的文字区域.

在场景文字检测领域, 已经有一些优秀的综述论文.文献[1-2]对场景文字检测与识别的研究进展做了详尽的调查, 但他们的工作主要集中在传统算法, 错过了近年来提出的一些重要的、有影响力的工作.在过去的5年里, 随着深度学习技术的发展, 自然场景下的文字检测技术已经有了突破性的进展. Zhu等人^[1]介绍了一些基于深度学习的场景文字检测算法, 其在总结中表示深度学习和大数据的结合将是场景文字检测与识别领域的主导.

与之前的文献不同, 本文着眼于深度学习方法, 特别关注自然场景下的文字检测技术这一任务, 对过去5年相关研究进展进行全面调查.本文结构安排如下:第1节介绍基于传统方法的场景文字检测算法; 第2节对近几年深度学习在大规模图像数据中的应用进行概述, 包括目标检测任务及图像分割任务; 第3节对近5年自然图像中文字检测技术进行分类, 总结出各自的优点及不足; 第4节调查场景文字检测领域相关的数据集及评估协议, 并对文字检测算法进行性能比较; 第5节对全文进行总结并对未来的研究热点进行展望.

1 基于传统方法的场景文字检测

场景文字检测的发展历程与绝大多数的计算机视觉任务的发展历程相似, 前期主要基于传统的手工设计特征进行研究, 于2014年左右出现了基于深度学习的方法.传统的场景文字检测主要有两种方法, 分别是基于滑动窗口的方法和基于连通域的方法.

基于滑动窗口的方法将文字视为一种特殊的纹理类型, 根据它们的纹理属性, 使用分类器来区分图像中的文字和非文字区域, 纹理属性有高密度的边缘、文字上下的低梯度、灰度变化、波形分布、离散余弦变换系数等.文献[3-4]倾向于使用固定大小的滑动窗口来寻找最有可能包含文字的区域; 文献[5-6]使用不同尺寸大小的滑动窗口对图像进行全位置扫描.这些方法通常计算昂贵, 效率低下, 并且主要用于处理水平文字, 对任意方向的字体和尺度变化的字体非常敏感.

基于连通域的方法首先通过特定算法提取候选组件, 然后通过人工设计规则或自动训练的分类器过滤非文字组件, 代表性算法有笔画宽度变换(Stroke Width Transform, SWT)^[7]和最大稳定极值区域(Maximally Stable Extremal Regions, MSER)^[8].这些算法主要关注图像的边缘和像素点, 通过检测边缘或提取图像极端区域来检测字符, 然后基于自定义规则或训练的分类器将提取的组件组合成单词或文字行区域.一般来说, 这类方法效率相对较高, 对旋转、尺度变化和字体变化不敏感, 但当涉及连接字符、分割笔画字符或者不均匀照明时会表现不佳.近年来仍有不少基于SWT算法和MSER算法的优秀工作^[9-12], Kang等人^[10]提出了使用轮廓和相关MSER组件聚类来定位多方向文字; Yin等人^[11]同样将文字行的寻找过程视为聚类过程, 通过MSER算法得到字符候选, 使用文字颜色、笔画宽度、字符方向以及投影等特征, 对文字信息的考虑更加全面.此外, Cho等人^[13]将每个文字看作Canny算法中的边缘像素, 通过图像边缘和文字之间的相似度检测来设计文字探测器进行文字检测.

2 基于深度学习的目标检测及图像分割算法

图像分类、目标检测及图像分割是计算机视觉领域的3大任务.目前主流的场景文字检测方法大多基于通用目标检测及图像分割算法.因此这里有必要对当下流行的相关算法进行介绍.

2.1 目标检测

目标检测任务, 既要识别出图中物体的类别, 又要知道物体的位置.基于深度学习的目标检测算法可以分为两大类:一类是基于目标候选区域的算法, 其将检测算法划分成两个阶段, 首先产生候选区域, 然后对候选区域进行分类和边界框回归, 典型算法是R-CNN系列算法, 如R-CNN^[14]、Fast R-CNN^[15]、Faster R-CNN^[16]、R-FCN^[17]等; 另一类是基于回归方法的算法, 其不需要产生候选区域, 直接得到物体的类别概率和位置坐标, 典型算法如YOLO(You Only Look Once)^[18]算法和SSD(Single Shot MultiBox Detector)^[19]算法.目标检测任务主要关注模型分类及定位的准确率和测试速度.一般情况下, 两阶段算法在准确度上有优势, 而单阶段算法在速度上有优势.

2.1.1 基于候选区域的目标检测算法

Girshick等人^[14]基于卷积神经网络(Convolutional Neural Network, CNN)设计的R-CNN模型对分类模型(如AlexNet^[20])进行微调, 移除最后一个全连接层, 利用选择性搜索(Selective search)^[21]算法在图像上提取约2~000个候选区域, 然后再将每个候选区域缩放至相同大小, 并输入到卷积神经网络内进行特征提取.之后对候选框中提取出的特征送入每一类的支持向量机分类器中判别是否属于该类, 使用回归器进一步调整候选框位置. R-CNN模型网络架构如图 1所示. R-CNN将训练和测试过程分为多个阶段, 步骤繁琐, 训练耗时, 模型占用磁盘空间大, 测试速度慢.

图 1 R-CNN网络结构 Fig.1 Architecture of R-CNN

为了使训练和测试速度更快, Fast R-CNN模型^[15]采用SPPNet^[22]中池化输出固定尺寸的思想, 对R-CNN进行改进, 将整张图像输入至CNN得到特征图(Feature map), 把选择性搜索算法得到的候选区域映射到特征图上, 得到感兴趣区域(Region of Interest, RoI), 通过RoI池化(RoIPool)层使每个候选区域生成固定尺寸的特征块.利用Softmax损失和Smooth L1损失对分类概率和边框回归进行联合训练.这两种方法都依赖于选择性搜索算法生成候选区域, 十分耗时.因此在Faster R-CNN^[16]中使用区域候选网络(Region Proposal Network, RPN)代替原来的选择性搜素算法产生候选区域, 检测速度则可大幅提高. Faster R-CNN也存在一些不足之处:一是在候选区域选择上过分依赖于人工设计的锚点框(Anchor box), 需要凭借经验设计合适的大小及比例; 二是RPN网络与Fast R-CNN网络部分权值共享, RPN若出现错误, 后者难以修正, 在测试中主要表现为将背景区域误分为目标物体区域.

Dai等人^[17]提出的R-FCN模型对Faster R-CNN结构进行了改造, 采用全卷积网络结构, 并用专门的卷积层构建位置敏感得分图(Positive-sensitive score maps)来评估各个类别的概率, 使其在保持较高定位准确度的同时, 大幅提高检测速率.

2.1.2 基于回归方法的目标检测算法

不同于R-CNN系列的基于候选区域的算法, YOLO算法^[18]的思想是通过单个卷积神经网络直接对各个边界框进行回归并且预测相应的类别概率.该方法将输入图像划分成$S\times S$大小的网格, 每一个网格单元预测$B$个边界框的坐标和可信度, 共有5个预测值, 分别是边界框的中心相对于网格单元中心的坐标($x$, $y$), 边界框相对于整个图像的宽和高($w$, $h$), 以及预测矩形框和标准矩形框之间的IoU(Intersection over Union)值. YOLO算法的优点是速度快, 标准版实时处理图像达到45帧/s, 简化版本达到155帧/s, 真正实现了端到端的训练, 但该方法不能很好地检测成群出现的小目标以及不常见的长宽比物体, 因此泛化能力较弱.此后, 又出现了YOLOv2^[23]和YOLOv3^[24], 不断刷新目标检测的速度纪录.

SSD^[19]算法是另一个单阶段算法, 它从YOLO算法中继承了将检测问题转化为回归问题的思路, 实现了端到端的数据训练, 并且基于Faster R-CNN算法中的锚点框, 提出了相似的默认框.不同于YOLO算法和Faster R-CNN算法在检测时只利用了最高层特征, SSD算法采用SPPNet^[22]中的金字塔结构进行检测, 在多个大小不同的特征图上同时进行Softmax分类和位置回归.但和Faster R-CNN算法一样, SSD算法也需要凭借经验人工设置默认框的尺寸和比例, 且对小目标检测效果一般.

2.2 图像分割

图像分割根据不同任务, 可以分为语义分割和实例分割两类.语义分割除了识别物体的类别与定位外, 还要标注每个目标的边界, 但不区分同类物体, 将物体进行像素级别的分割提取.而实例分割区别于语义分割, 需要区分同类物体.

2.2.1 语义分割

基于深度学习的语义分割任务最初采用图像块分类(Patch classification)^[25]方法, 即利用像素周围的图像块对每个像素单独归类.使用图像块分类是由于分类网络通常有全连接层, 因此需要固定大小的图像. 2014年, Long等人^[26]提出了端到端的全卷积网络(Fully Convolutional Network, FCN), 即去掉普通卷积神经网络末端的全连接层, 使用转置卷积进行上采样, 引入跳跃连接来改善上采样粗糙的像素定位, 对每一个像素进行分类.使用这种方法可以生成任何大小的图像分割图, 且比图像块分类方法快速, 因此语义分割领域几乎都采用FCN模型.

2.2.2 实例分割

实例分割算法中, 其代表算法有FCIS(Fully Convolutional Instance-aware Semantic Segmentation)^[27]算法和Mask R-CNN^[28]算法. FCIS算法是首个用于实例分割的全卷积端到端算法, 分为内部和外部两种位置敏感的特征提取, 内部提取用于分割任务的物体特征, 外部提取用于类别判断的物体外的特征. FCIS算法利用分类和分割的相关性, 同时解决两个任务, 使系统速度变得更快.但FCIS算法在重叠实例上会出现系统错误, 产生虚假边缘. Mask R-CNN算法在Faster R-CNN算法基础上, 将RoIPool层改为适合做分割任务的RoIAlign层, 保留了精确的空间位置, 并在网络架构中加入一个掩码分支, 与分类分支、检测分支同时训练.

3 基于深度学习的场景文字检测

在过去几年里, 基于深度学习的场景文字检测算法大放异彩, 取得的结果优于传统方法.这些算法大致可以分为两种:一种是基于通用目标检测的方法; 另一种是基于图像分割的方法.这两种方法各有优劣, 适用于不同的任务.

3.1 基于目标检测的方法

基于通用目标检测的方法中, 有大量基于R-CNN模型的改进工作^[29-33]. Tian等人^[29]提出了基于Faster R-CNN模型的CTPN(Connectionist Text Proposal Network)模型, 由于原算法中的RPN难以预测文字行的边界框, 因此作者将文字行划分为固定宽度的小块, 首次将循环神经网络(Recurrent Neural Network, RNN)引入场景文字检测任务中, 加入双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory, BLSTM)^[34]连接文字块, 提高了检测精度. CTPN网络结构如图 2所示, 其中, 图 2(a)为CTPN网络架构, 图 2(b)表示CTPN输出序列化的文字建议框. 图 2(a)中字母$H$、$W$、$C$、$D$分别表示高(Height)、宽(Width)、通道(Channel)、维度(Dimension).

图 2 CTPN结构 Fig.2 Architecture of the CTPN (Connectionist Text Proposal Network)

DeepText^[30]模型同样对Faster R-CNN模型进行了改进, 在RPN后接Inception模块^[35]来更好地提取候选单词区域, 并将RoIPool层改为多层, 对文字分类时加入歧义文字类别, 将原有的2类(文字、非文字)扩展成3类(文字、非文字、歧义文字). RPN只使用3$\times$3的滑动窗口提取高层特征, 对小区域的场景文字不适用.因此Zhang等人^[33]提出了特征强化网络(Feature Enhancement Network, FEN), 对高层和低层特征语义进行了融合, 更好地进行文字定位.这3个模型检测速度快, 精度高, 但都没有考虑场景文字多方向的问题.

R2CNN(Rotational Region CNN)^[31]模型除了进行坐标对齐的边界框回归外, 还针对多方向问题添加了倾斜框的坐标回归, 使用倾斜非极大值抑制(Non Maximum Suppression, NMS)进行后处理.而Ma等人^[18]针对文字倾斜特性, 设计了带有角度信息的锚点框, 将RPN改成RRPN(Rotation RPN), RoI池化层改为RRoI(Rotation RoI)池化层, 生成带角度信息的候选框.

除了基于Faster R-CNN模型, 也有学者设计了基于SSD或YOLO这类不需要生成候选框的模型^[36-38].类似于文献[29], Shi等人^[36]也将文字视为小块单元进行旋转和回归, 把SSD改为多方向模型, 并把小块之间的连接关系融入到网络一起学习, 因此可以处理多方向文字及长文字. WeText模型^[37]同样使用改进的SSD检测字符, 并且使用弱监督方法将训练数据集扩增.同样为了解决文字检测场景中字符级注释标注少的问题, WordSup模型^[39]用弱监督框架, 使用单词注释作为监督源来训练字符检测器.文献[38]则使用类似于YOLO结构的WordDetNet训练生成多方向的矩形框, 确定感兴趣区域.

3.2 基于图像分割的方法

基于目标检测的方法能够很好地解决水平文字的定位问题, 但对于非水平文字, 还需要精心设计带角度信息的候选框生成方法.因此如果要检测倾斜文字, 现在主流的方法是基于图像分割的方法^[40-44].

受语义分割任务中全卷积网络的启发, Zhang等人^[40]将文字行视为一个需要分割的目标, 首次将FCN引入场景文字检测任务中, 其主要思想是将文字块的局部和全局线索与粗粒度策略集成, 在粗层级上利用FCN生成一个像素级别的文字/非文字显著图(Salient map), 算法流程如图 3(A)所示. He等人^[41]提出了CCTN(Cascaded Convolutional Text Network)模型, 模型把传统的自底向上的方法改成自顶向下的方法, 先用CNN粗略检测候选文字区域, 再用CNN从候选文字区域中找出准确的文字行位置. Yao等人^[42]利用改进版的整体嵌套边缘检测算法(Holistically-Nested Edge Detection, HED)来预测文字区域概率、字符概率和相邻字符连接概率, 并把3者融合到一个网络中进行整体学习.同样基于语义分割, Wordfence网络^[43]依赖于单词之间的间隙, 通过检测边缘区域来分割单词.

图 3 基于图像分割的场景文字检测算法示例 Fig.3 Examples of scene text detection algorithms based on image segmentation

PixelLink模型^[44]则基于实例分割视角进行文字检测, 从实例分割结果中提取文字定位信息. Yang等人^[45]受FCIS实例分割的启发, 设计了一个创新性的Inception-Text模块来解决场景文字大尺度、长宽比及方向变化的问题, 用可变形的PSRoI池化层来替换FCIS中的PSRoI池化层.该论文的实验表明, 可变形的PSRoI池化层可以有效处理任意方向的场景文字.基于图像分割的方法能够很好地解决倾斜文字的检测问题, 但往往需要较复杂的后处理方法来解决多行文字相邻很近时难以区分的问题, 并且相比基于边界框回归的方法, 速度上会慢一些.

最近也有许多文献同时使用边界框回归和分割的方式对场景文字进行检测^[46-49]. Dai等人^[46]在FCIS^[27]之上加入RPN思想, 可以有效检测弯曲文字.文献[47-48]将分割分支和检测分支通过共享卷积联合训练. Zhou等人^[49]提出了EAST模型, 使用PVANet^[50]对网络进行优化、加速, 并输出3种结果, 同时对NMS进行改进, 得到了很好的结果, EAST模型标签生成过程如图 3(B)所示. 表 1总结了近几年场景文字检测算法的优势及局限.

表 1 近几年场景文字检测算法的优势及局限 Tab.1 Advantages and limitations of scene text detection algorithms in recent years

3.3 端到端场景文字检测

以上提到的这些方法仅仅关注场景文字定位问题, 也有许多学者试图构建一个统一的场景文字定位和识别框架.这类框架大致可以分为两类:一类是把这两个任务分成两阶段进行, 首先使用文字定位模型生成文字区域候选框, 然后再使用单独的文字识别模型对定位后的文字进行识别; 另一类方法是将这两个步骤合在一起, 使用一个单一的模型对文字定位和识别任务进行统一训练, 真正实现端到端的文字检测. 表 2总结了近几年端到端文字检测系统的优势及局限.

表 2 近几年端到端文字检测系统的优势与局限 Tab.2 Advantages and limitations of end-to-end text detection systems in recent years

Wang等人^[6]在2012年首次将非监督学习算法与多层卷积神经网络相结合, 使用一个通用框架来训练高精度文字检测器和字符识别器模块. Jaderberg等人^[5]提出的一种滑动窗口文字定位方法, 可以在多个不同分辨率的图像上对文字区域进行定位, 文字识别阶段则使用一个单独的字符级CNN, 与定位阶段的CNN共享权重进行文字检测.之后Jaderberg等人^[51]又提出了使用一个集成模型生成具有高召回率的文字候选区域, 然后使用一个预定义的单词分类器用于单词识别, 但这种方法只适用于一种给定的语言.

Gupta等人^[52]基于YOLO架构为场景文字定位训练了一个全卷积回归神经网络, 并采用文献[59]中的单词分类器进行文字识别. Liao等人^[53]提出的TextBoxes模型, 通过对SSD算法进行改进以适用于文字定位问题, 并使用CRNN^[60]进行文字识别, 提高检测速度的同时也提升了模型的鲁棒性.在TextBoxes基础上, Liao等人^[56]又提出了扩展版本TextBoxes++, 能够对任意方向的文字进行检测. Busta等人^[55]使用YOLOv2和RPN进行定位, 利用双线性采样算法将文字区域统一成高度一致的变长特征序列, 再使用双向LSTM和CTC(Connectionist Temporal Classification)^[61]进行识别, 该模型可以有效处理文字区域多方向且变长的问题.

近期Li等人^[54]提出了结合RPN和LSTM的模型, 分别进行文字检测和文字识别. Bartz等人^[57]提出的SEE模型, 通过集成空间变换网络(Spatial Transformer Networks, STN)^[62], 以半监督的方式来学习检测和识别文字, 此模型只接受图像和文字标签作为输入, 不需要标准矩形框标记, 文字检测由网络本身学习. Liu等人^[58]提出了一个统一的端到端框架, 用于同时检测和识别任务, 该框架的文字定位分支和识别分支共享卷积特征, 并且提出了区别于RoIPool和RoIAlign的RoIRotate方法, 避免了RoI与提取特征之间的错位, 使输出特征的长度可变, 更适合文字识别.

4 数据集及评估协议

公开数据集和相关的评估协议为算法的开发和比较建立了可靠的参考, 本节将介绍场景文字检测领域常用的一些数据集和评估协议, 并对文字检测算法进行性能比较.

4.1 数据集

表 3总结了场景文字检测任务的常用数据集.

表 3 场景文字检测常用数据集 Tab.3 Common datasets for scene text detection

$\bullet$ ICDAR基准数据集^①: ICDAR鲁棒性阅读比赛官方数据集.自2003年起公开自然场景文字数据库, 直到2018年已包括文字定位数据库、文字分割数据库、单词识别数据库、端对端识别数据库. ICDAR2003^②、2005^②、2011^③、2013^①、2015-Focused^①场景文字数据集多为水平文字, ICDAR 2015-Incidental^①场景文字数据集采集自随机场景, 文字方向任意、小字体、低像素, 如图 4所示. 图 4(a)表示原图, 图 4(b)为人工标注的标准矩形框, 图 4(c)为矩形框对应的注释信息. ICDAR 2017-MLT数据集是目前为止语种最多且数据量巨大的场景文字检测及语种分类数据集, 其中文字长度、字体、尺寸、颜色千变万化, 同时还包含许多真实场景的噪声.

① ICDAR 2013、ICDAR 2015、ICDAR 2017数据集下载地址: http://rrc.cvc.uab.es/?ch=2&com=downloads

② ICDAR 2003、ICDAR 2005、KAIST、SVT、NEOCR、MSRA-TD500数据集下载地址:http://www.iapr-tc11-org/mediawiki/index.php?title=Datasets-List

③ ICDAR 2011数据集下载地址: http://www.cvc.uab.es/icdar2011competition/?com=downloads

图 4 ICDAR 2015-Incidental场景文字数据集示例 Fig.4 Examples from the ICDAR 2015 incidental scene text dataset

$\bullet$ KAIST^①:包括在不同光照条件下的室外和室内场景图像, 通过手机摄像头或数码相机采集.图片中的场景文字是韩国街道或商店常见文字.

① ICDAR 2003、ICDAR 2005、KAIST、SVT、NEOCR、MSRA-TD500数据集下载地址: http://www.iapr-tc11.org/mediawiki/index.php?title=Datasets_List

$\bullet$ SVT^①:图像来自谷歌街景图, 较为模糊.只有单词级别的标注.

$\bullet$ NEOCR^①:包含659个真实的全景图, 适用于多方向的自然场景文字检测, 是个多语言数据集, 包含英文、匈牙利语、俄语、土耳其语和捷克语.

$\bullet$ OSTD^②:来源于室内场景和街景图, 适用于多方向文字检测.

② OSTD数据集下载地址: http://media-lab.ccny.cuny.edu/wordpress/cyi/project_scenetextdetection.html

$\bullet$ MSRA-TD500^①:从室内(办公室和商场)和室外(街道)拍摄, 是评价自然场景中面向多方向文字的检测算法的基准, 包含500张水平的和倾斜的自然场景文字图像.

$\bullet$ CUTE80:包含80张图像, 适用于弯曲文字检测和识别任务.

$\bullet$ HUST-TR400:包含400张图像, 采用{$x$, $y$, $w$, $h$, $\theta$}形式标注, 其中{$x$, $y$}指水平矩形左上角坐标, {$w$, $h$}指水平矩阵的宽和高, $\theta $值是标准矩形与水平矩形的夹角.该数据集适用于多方向文字检测任务.

$\bullet$ USTB-SV1K:图片来自街景图, 适用于多方向多视角文字检测.

$\bullet$ SCUT-FORU-DB^③:包含3 931幅图像, 标注了55 209个字符或单词实例, 是一个中英文场景文字检测和识别数据库.

③ SCUT-FORU-DB数据集下载地址: https://pan.baidu.com/s/1kVRIpd9

$\bullet$ COCO-Text^④:包含63 686张图像, 标注了173 589个文字区域, 每个文字区域包含3个属性, 分别是印刷体和手写体、清晰和不清晰、英文和非英文.

④ COCO-Text数据集下载地址:https://vision.cornell.edu/se3/coco-text-2/

$\bullet$ RCTW-17: ICDAR 2017中文场景文字检测比赛数据集, 包含从街道、屏幕、室内场景等拍摄的照片, 中文单词没有空格分隔, 所以长文字行是常见的.

$\bullet$ Total-Text^⑤:包含自然场景下的弯曲文字, 有1~555张图片, 包含3种不同的文字方向:水平、多方向、弯曲.

⑤ Total-Text数据集下载地址: https://github.com/cs-chan/Total-Text-Dataset

$\bullet$ CTW1500^⑥:专门针对弯曲文字的场景数据集, 包含1~500张图片.

⑥ CTW-1500数据集下载地址:https://github.com/Yuliang-Liu/Curve-Text-Detector

$\bullet$ CTW^⑦:专门针对中文文字的场景数据集, 包含多方向和弯曲文字.

⑦ CTW数据集下载地址: https://ctwdataset.github.io

4.2 评估协议

本节总结场景文字检测评估协议, 主要以ICDAR鲁棒性阅读比赛评估协议为主.在场景文字检测中, 主要有3个性能评估指标:准确率(Precision)、召回率(Recall)和$F$度量($F$-Measure).文字检测准确率被定义为交集区域与预测文字区域面积之比.召回率被定义为交集区域与标准文字区域面积之比. Hua等人^[81]通过给每个标准矩形框分配一个难度等级来改进协议; Yao等人^[9]进一步完善了该协议, 如果预测矩形和标准矩形之间的夹角小于$\pi $/8, 且重叠率超过0.5, 就将该预测边界框视为正确.

4.2.1 ICDAR 2003评估协议

预测矩形框$r$和标准矩形框$r'$之间的匹配度$m$是两个矩形的交集面积与包含这两个矩形的最小边界框的面积之比.因此, 定义矩形$r$在矩形集合$R$中的最佳匹配为

$ \begin{align} m(r;R)=\max\{m(r, r')|r'\in R\}. \end{align} $

(1)

准确率和召回率分别定义为

$ \begin{align} {\rm Precision}=\dfrac{\sum_{r_e\in E}m(r_e;T)}{|E|}, \end{align} $

(2)

$ \begin{align} {\rm Recall}=\dfrac{\sum_{r_t\in T}m(r_t;E)}{|T|}, \end{align} $

(3)

其中, $E$和$T$分别表示预测边界框和标准边界框的集合.

$F$度量则定义为准确率和召回率的调和平均数.准确率和召回率之间相对的权重由参数$\alpha$控制, 通常设为0.5, 即准确率和召回率权重相等

$ \begin{align} F=\dfrac{1}{\dfrac{\alpha}{{\rm Precision}}+\dfrac{1-\alpha}{{\rm Recall}}}. \end{align} $

(4)

ICDAR 2003评估协议也应用于ICDAR 2005场景文字检测任务.

4.2.2 ICDAR2011评估协议

ICDAR 2003评估协议无法处理一对多和多对多的匹配问题, 因此会低估文字检测算法的性能.为解决此问题, Wolf和Jolion提出了DetEval协议^[82], 考虑了预测矩形框与标准矩形框之间的每一种可能匹配.准确率和召回率分别定义为

$ \begin{align} {\rm Precision}(G, D, t_r, t_p)=\dfrac{\sum\limits_{j}{\rm Match}_{D}(D_{j}, G, t_r, t_p)}{|D|}, \end{align} $

(5)

$ \begin{align} {\rm Recall}(G, D, t_r, t_p)=\dfrac{\sum\limits_{t}{\rm Match}_{G}(G_{i}, D, t_r, t_p)}{|G|}, \end{align} $

(6)

其中, $G$和$D$分别代表标准矩形框和预测矩形框的集合, $t_{r}\in [0, 1]$是召回率的范围, $t_{p}\in [0, 1]$是准确率的范围, $t_{r}$和$t_{p}$的典型值分别为0.8和0.4. Match$_{D}$和Match$_{G}$是将不同类型的匹配考虑在内的函数.具体来说, Match$_{D}$和Match$_{G}$的定义分别是

$ \begin{align} {\rm Match}_{D}(D_{j}, G, t_r, t_p)=\left\{\!\! {\begin{array}{l} 1, \ \ \ \text{如果}1\text{对}1\text{匹配}, \\ 0, \ \ \ \text{如果无匹配}, \\ f_{sc}(k), \ \ \ \text{如果多对}k\text{匹配}, \end{array}} \right. \end{align} $

(7)

$ \begin{align} {\rm Match}_{G}(G_{i}, D, t_r, t_p)=\left\{\!\! {\begin{array}{l} 1, \ \ \ \text{如果}1\text{对}1\text{匹配}, \\ 0, \ \ \ \text{如果无匹配}, \\ f_{sc}(k), \ \ \ \text{如果多对}k\text{匹配}, \end{array}} \right. \end{align} $

(8)

其中, $f_{sc}(k)$是控制惩罚程度的函数, 即在分裂或合并情况下施加的惩罚.实践中, $f_{sc}(k)$设为常数0.8.

ICDAR 2011评估协议也用于ICDAR 2013及2015-Focused场景文字检测任务.

4.2.3 ICDAR 2015-Incidental评估协议

ICDAR 2015-Incidental评估协议主要针对多方向文字检测算法.文献[9]中最早提出使用最小区域矩形作为性能评价的基本单元, 在文字倾斜的情况下, 最小矩形区域比一般矩形更加精确.但由于倾斜文字与水平方向存在夹角, 直接计算两个最小区域矩形之间的重叠比非常困难.为解决这个问题, Yao等人^[9]提出了计算$G$和$D$经过旋转之后得到的矩形$G'$和$D'$之间的重叠比. $D$和$G$之间的重叠比的定义是

$ \begin{align} m(D, G)=\dfrac{{\rm area}(D'\cap G')}{{\rm area}(D'\cup G')}, \end{align} $

(9)

其中, $D'\cap G'$表示预测矩形框和标准矩形框的交集区域, $D'\cup G'$表示两者之间的并集区域.通过此方法得到的重叠率是不准确的, 因此采用一种比较宽松的方式判断文字是否被正确检测.类似于Pascal VOC目标检测任务中的评估标准^[83], 如果预测矩形框和标准矩形框之间的夹角小于$\pi $/8, 且两者重叠比高于0.5, 则认为文字被正确检测.同一文字行的多个检测被视为误报.

对于同一幅图像, 其准确率和召回率分别定义为

$ \begin{align} {\rm Precision}=\dfrac{|TP|}{|E|}, \end{align} $

(10)

$ \begin{align} {\rm Recall}=\dfrac{|TP|}{|T|}. \end{align} $

(11)

其中, TP表示正确检测矩形的集合, $E$和$T$分别表示预测矩形集合和标准矩形集合.

此外, Yao等人对构建的MSRA-TD500数据集添加额外的标注信息, 对所有检测难度较大的文字, 都赋予一个"困难"标签, 并且给多方向文字检测协议引入一种弹性机制:对于检测难度大的文字, 如果成功检测则判定有效, 但如果出现漏检也不会对检测算法进行惩罚.因此, 标准矩形集合可以分为2个子集:正常子集$T_{0}$和困难子集$T_{d}$.同样地, 正确的检测TP也可以分为两个子集:正常检测子集$TP_{0}$和困难检测子集$TP_{d}$.在加入弹性机制后, 准确率、召回率和$F$度量的定义分别是

$ \begin{align} {\rm Precision}=\dfrac{|TP_0|+|TP_d|}{|E|}=\dfrac{|TP|}{|E|}, \end{align} $

(12)

$ \begin{align} {\rm Recall}=\dfrac{|TP_0|+|TP_d|}{|T_0|+|TP_d|}=\dfrac{|TP|}{|T_0|+|TP_d|}, \end{align} $

(13)

$ \begin{align} F=\dfrac{2{\rm Precision}\times {\rm Recall}}{{\rm Precision}+{\rm Recall}} \end{align} $

(14)

ICDAR 2015-Incidental评估协议也被用于ICDAR 2017-MLT场景文字检测任务.

4.3 算法性能比较

表 4比较了近5年场景文字检测算法的性能, 由于各算法实验数据集繁多, 这里只挑选具有代表性的基准数据集进行比较, 如ICDAR 2013、ICDAR 2015-Incidental和MSRA-TD500场景文字检测数据集.端到端场景文字检测算法大多没有产生中间文字检测结果, 因此不列入表中比较.从表 4中可以看出, Jiang等人^[48]提出的混合算法在ICDAR 2013数据集上取得了最好的性能; Yang等人^[45]提出的IncepText算法在ICDAR 2015-Incidental和MSRA-TD500数据集上都取得了很好的性能, 该算法是基于图像分割的方法进行文字检测的.

表 4 场景文字检测算法性能比较 Tab.4 Performance comparison of scene text detection algorithms

5 总结与展望

本文对基于深度学习的场景文字检测算法进行了全面调查.首先回顾了传统场景文字检测方法存在的问题, 介绍了基于深度学习的目标检测及图像分割的代表性算法; 其次, 对近5年基于深度学习的场景文字检测的主要研究方法和存在的问题进行了分析和论述, 并给出了相关数据集及评估协议.本节对本文进行总结并对未来可能的研究方向进行展望.

目前, 场景文字检测应用场景越来越多, 如辅助图像检索、智能导航识别路标、监控识别车牌、以图搜题等.场景文字检测虽然取得了很大的进步, 但由于现实场景复杂多变, 自然场景下的文字检测仍有许多挑战有待解决.本文从文献中总结出了一些普遍的问题以及可能的研究方向, 具体如下.

$\bullet$处理随机复杂文字:相比之前大多数研究只关注水平文字, 近几年更关注多方向及弯曲的文字检测与识别; ICDAR鲁棒性阅读比赛也逐渐加大难度, 更多关注随机场景文字检测.如何处理复杂背景中的文字检测与识别, 将是今后研究的一个热点.

$\bullet$多语言文字识别:从数据集可以看出, 目前绝大多数算法仍主要针对英文字符和阿拉伯数字设计.当面对不同种类语言和文字时, 这些算法是否还能保证高性能呢？因此针对多语言场景的文字检测与识别值得进一步研究.

$\bullet$端到端实时检测与识别:现阶段基于深度学习的方法大多把检测和识别分开来研究, 端到端完成识别的成果较少, 导致模型在速度上仍存在瓶颈, 难以应用于移动端设备.端到端实时检测与识别仍需进一步研究.

参考文献

[1]	ZHU Y, YAO C, BAI X. Scene text detection and recognition:Recent advances and future trends[J]. Front Comput Sci, 2014, 10(1): 19-36.
[2]	YE Q, DOERMANN D. Text detection and recognition in imagery:A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(7): 1480-1500. DOI:10.1109/TPAMI.2014.2366765
[3]	WANG K, BELONGIE S. Word spotting in the wild[C]//Computer Vision-ECCV 2010. Berlin: Springer, 2010: 591-604.
[4]	NEUMANN L, MATAS J. Scene text localization and recognition with oriented stroke detection[C]//2013 IEEE International Conference on Computer Vision. IEEE, 2013: 97-104.
[5]	JADERBERG M, VEDALDI A, ZISSERMAN A. Deep features for text spotting[C]//Computer Vision-ECCV 2014. Cham: Springer, 2014: 512-528.
[6]	WANG T, WU D J, COATES A, et al. End-to-end text recognition with convolutional neural networks[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). 2012: 3304-3308.
[7]	EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010: 2963-2970.
[8]	MATAS J, CHUM O, URBAN M, et al. Robust wide baseline stereo from maximally stable extremal regions[J]. Image and Vision Computing, 2004, 22: 761-767. DOI:10.1016/j.imavis.2004.02.006
[9]	YAO C, BAI X, LIU W, et al. Detecting texts of arbitrary orientations in natural images[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012: 1083-1090.
[10]	KANG L, LI Y, DOERMANN D. Orientation robust text line detection in natural images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014: 4034-4041.
[11]	YIN X C, YIN X, HUANG K, et al. Robust text detection in natural scene images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 970-983. DOI:10.1109/TPAMI.2013.182
[12]	YIN X C, PEI W Y, ZHANG J, et al. Multi-orientation scene text detection with adaptive clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1930-1937. DOI:10.1109/TPAMI.2014.2388210
[13]	CHO H, SUNG M, JUN B. Canny text detector: Fast and robust scene text localization algorithm[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016: 3566-3573.
[14]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 580-587.
[15]	GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2015: 1440-1448.
[16]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017(6): 1137-1149.
[17]	DAI J, LI Y, HE K, et al. R-FCN: Object detection via region-based fully convolutional networks[C]//Advances in Neural Information Processing Systems 29. NIPS, 2016: 379-387.
[18]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 779-788.
[19]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[20]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25. NIPS, 2012: 1097-1105.
[21]	UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI:10.1007/s11263-013-0620-5
[22]	HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Computer Vision-ECCV 2014. Cham: Springer, 2014: 346-361.
[23]	REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 6517-6525.
[24]	REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. arXiv preprint, arXiv: 1804. 02767v1[cs.CV] 8 Apr 2018. http://cn.arxiv.org/abs/1804.02767
[25]	CIRESAN D, GIUSTI A, GAMBARDELLA L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images[G]//Advances in Neural Information Processing Systems 25. Curran Associates, Inc, 2012: 2843-2851.
[26]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015: 3431-3440.
[27]	LI Y, QI H, DAI J, et al. Fully convolutional instance-aware semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 4438-4446.
[28]	HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//2017 IEEE International Conferé nce on Computer Vision (ICCV). IEEE, 2017: 2980-2988.
[29]	TIAN Z, HUANG W, HE T, et al. Detecting text in natural image with connectionist text proposal network[C]//European Conference on Computer Vision. Cham: Springer, 2016: 56-72.
[30]	ZHONG Z, JIN L, ZHANG S, et al. DeepText: A unified framework for text proposal generation and text detection in natural images[J]. arXiv preprint, arXiv: 1605. 07314v1[cs.CV] 24 May 2016.
[31]	JIANG Y, ZHU X, WANG X, et al. R2CNN: Rotational region CNN for orientation robust scene text detection[J]. arXiv preprint, arXiv: 1706. 09579v2[cs.CV] 30 Jun 2017. http://cn.arxiv.org/abs/1706.09579
[32]	MA J, SHAO W, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. arXiv preprint, arXiv: 1703. 01086v3[cs.CV] 15 Mar 2018. http://cn.arxiv.org/abs/1703.01086
[33]	ZHANG S, LIU Y, JIN L, et al. Feature enhancement network: A refined scene text detector[J]. arXiv preprint, arXiv: 1711. 04249v1[cs.CV] 12 Nov 2017. http://cn.arxiv.org/abs/1711.04249
[34]	GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6): 602-610.
[35]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. arXiv preprint, arXiv: 1409. 4842v1[cs.CV] 17 Sep 2014. http://cn.arxiv.org/abs/1409.4842
[36]	SHI B, BAI X, BELONGIE S. Detecting oriented text in natural images by linking segments[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3482-3490.
[37]	TIAN S, LU S, LI C. WeText: Scene text detection under weak supervision[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 1501-1509.
[38]	QIN S, MANDUCHI R. Cascaded segmentation-detection networks for word-level text spotting[C]//201714th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017: 1275-1282.
[39]	HU H, ZHANG C, LUO Y, et al. WordSup: Exploiting word annotations for character based text detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 4950-4959.
[40]	ZHANG Z, ZHANG C, SHEN W, et al. Multi-oriented text detection with fully convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 4159-4167.
[41]	HE T, HUANG W, QIAO Y, et al. Accurate text localization in natural image with cascaded convolutional text network[J]. arXiv preprint, arXiv: 1603. 09423v1[cs.CV] 31 Mar 2016. http://cn.arxiv.org/abs/1603.09423
[42]	YAO C, BAI X, SANG N, et al. Scene text detection via holistic, multi-channel prediction[J]. arXiv preprint, arXiv: 1606. 09002v2[cs.CV] 5 Jul 2016. http://cn.arxiv.org/abs/1606.09002
[43]	POLZOUNOV A, ABLAVATSKI A, ESCALERA S, et al. Wordfence: Text detection in natural images with border awareness[C]//2017 IEEE International Conference on Image Processing (ICIP). IEEE, 2017: 1222-1226.
[44]	DENG D, LIU H, LI X, et al. PixelLink: Detecting scene text via instance segmentation[J]. arXiv preprint, arXiv: 1801. 01315v1[cs.CV] 4 Jan 2018. http://cn.arxiv.org/abs/1801.01315
[45]	YANG Q, CHENG M, ZHOU W, et al. Incep text: A new inception-text module with deformable PSROI pooling for multi-oriented scene text detection[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI). 2018: 1071-1077.
[46]	DAI Y, HUANG Z, GAO Y, et al. Fused text segmentation networks for multi-oriented scene text detection[J]. arXiv preprint, arXiv: 1709. 03272v4[cs.CV] 7 May 2018. http://cn.arxiv.org/abs/1709.03272
[47]	HE W, ZHANG X Y, YIN F, et al. Deep direct regression for multi-oriented scene text detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 745-753.
[48]	JIANG F, HAO Z, LIU X. Deep scene text detection with connected component proposals[J]. arXiv preprint, arXiv: 1708. 05133v1[cs.CV] 17 Aug 2017. http://cn.arxiv.org/abs/1708.05133
[49]	ZHOU X, YAO C, WEN H, et al. EAST: An efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 2642-2651.
[50]	KIM K H, HONG S, ROH B, et al. PVANET: Deep but lightweight neural networks for real-time object detection[J]. arXiv preprint, arXiv: 1608. 08021v3[cs.CV] 30 Sep 2016. http://cn.arxiv.org/abs/1608.08021
[51]	JADERBERG M, SIMONYAN K, VEDALDI A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1): 1-20. DOI:10.1007/s11263-015-0823-z
[52]	GUPTA A, VEDALDI A, ZISSERMAN A. Synthetic data for text localisation in natural images[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016: 2315-2324.
[53]	LIAO M, SHI B, BAI X, et al. TextBoxes: A fast text detector with a single deep neural network[C]//31st AAAI Conference on Artificial Intelligence. 2017: 4161-4167.
[54]	LI H, WANG P, SHEN C. Towards end-to-end text spotting with convolutional recurrent neural networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017: 5248-5256.
[55]	BUSTA M, NEUMANN L, MATAS J. Deep textspotter: An end-to-end trainable scene text localization and recognition framework[C]//Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017: 2223-2231.
[56]	LIAO M, SHI B, BAI X. TextBoxes++:A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3676-3690. DOI:10.1109/TIP.2018.2825107
[57]	BARTZ C, YANG H, MEINEL C. See: Towards semi-supervised end-to-end scene text recognition[J]. arXiv preprint, arXiv: 1712. 05404v1[cs.CV] 14 Dec 2017. http://cn.arxiv.org/abs/1712.05404
[58]	LIU X, LIANG D, YAN S, et al. FOTS: Fast oriented text spotting with a unified network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 5676-5685.
[59]	JADERBERG M, SIMONYAN K, VEDALDI A, et al. Synthetic data and artificial neural networks for natural scene text recognition[J]. arXiv preprint, arXiv: 1406. 2227v4[cs.CV] 9 Dec 2014. http://cn.arxiv.org/abs/1406.2227
[60]	SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304. DOI:10.1109/TPAMI.2016.2646371
[61]	GRAVES A, FERNÁNDEZ S, GOMEZ F, et al. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd International Conference on Machine Learning. New York: ACM, 2006: 369-376.
[62]	JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems 27. NIPS, 2015: 2017-2025.
[63]	LUCAS S M, PANARETOS A, SOSA L, et al. ICDAR 2003 robust reading competitions:Entries, results, and future directions[J]. International Journal of Document Analysis and Recognition (IJDAR), 2005, 7(2/3): 105-122.
[64]	LUCAS S M. ICDAR 2005 text locating competition results[C]//8th International Conference on Document Analysis and Recognition (ICDAR'05). 2005: 80-84.
[65]	SHAHAB A, SHAFAIT F, DENGEL A. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images[C]//Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011: 1491-1496.
[66]	KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition[C]//International Conference on Document Analysis and Recognition. IEEE Computer Society, 2013: 1484-1493.
[67]	KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 competition on robust reading[C]//International Conference on Document Analysis and Recognition. IEEE 2015: 1156-1160.
[68]	NAYEF N, YIN F, BIZID I, et al. ICDAR2017 robust reading challenge on multi-lingual scene text detection and script identification-RRC-MLT[C]//201714th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017: 1454-1459.
[69]	LEE S, CHO M S, JUNG K, et al. Scene text extraction with edge constraint and text collinearity[C]//201020th International Conference on Pattern Recognition. 2010: 3983-3986.
[70]	NAGY R, DICKER A, MEYER-WEGENER K. NEOCR: A configurable dataset for natural image text recognition[C]//Camera-Based Document Analysis and Recognition. Berlin: Springer, 2011: 150-163.
[71]	YI C, TIAN Y. Text string detection from natural scenes by structure-based partition and grouping[J]. IEEE Transactions on Image Processing, 2011, 20(9): 2594-2605. DOI:10.1109/TIP.2011.2126586
[72]	RISNUMAWAN A, SHIVAKUMARA P, CHAN C S, et al. A robust arbitrary text detection system for natural scene images[J]. Expert Systems with Applications, 2014, 41(18): 8027-8048. DOI:10.1016/j.eswa.2014.07.008
[73]	YAO C, BAI X, LIU W. A unified framework for multioriented text detection and recognition[J]. IEEE Transactions on Image Processing, 2014, 23(11): 4737-4749. DOI:10.1109/TIP.2014.2353813
[74]	YIN X C, PEI W Y, ZHANG J, et al. Multi-orientation scene text detection with adaptive clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1930-1937. DOI:10.1109/TPAMI.2014.2388210
[75]	张树业.深度模型及其在视觉文字分析中的应用[D].广州: 华南理工大学, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10561-1016770438.htm
[76]	VEIT A, MATERA T, NEUMANN L, et al. COCO-Text: Dataset and benchmark for text detection and recognition in natural images[J]. arXiv preprint, arXiv: 1601. 07140v2[cs.CV] 19 Jun 2016.
[77]	SHI B, YAO C, LIAO M, et al. ICDAR2017 competition on reading chinese text in the wild (RCTW-17)[C]//Document Analysis and Recognition (ICDAR), 201714th IAPR International Conference on. IEEE, 2017: 1429-1434.
[78]	CHNG C K, CHAN C S. Total-text: A comprehensive dataset for scene text detection and recognition[C]//201714th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017: 935-942.
[79]	LIU Y L, JIN L W, ZHANG S T, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint, arXiv: 1712. 02170v1[cs.CV] 6 Dec 2017. http://cn.arxiv.org/abs/1712.02170
[80]	YUAN T L, ZHU Z, XU K, et al. Chinese text in the wild[J]. arXiv preprint, arXiv: 1803. 00085v1[cs.CV] 28 Feb 2018. http://cn.arxiv.org/abs/1803.00085
[81]	HUA X S, LIU W Y, ZHANG H J. An automatic performance evaluation protocol for video text detection algorithms[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(4): 498-507. DOI:10.1109/TCSVT.2004.825538
[82]	WOLF C, JOLION J M. Object count/area graphs for the evaluation of object detection and segmentation algorithms[J]. International Journal of Document Analysis and Recognition (IJDAR), 2006, 8(4): 280-296. DOI:10.1007/s10032-006-0014-0
[83]	EVERINGHAM M, ESLAMI S M A, GOOL L V, et al. The pascal visual object classes challenge:A retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136. DOI:10.1007/s11263-014-0733-5