目录
• 介绍
• 深度学习和数字化
• 挑战与缺点
• 数字化和OCR-传统方法
• 图神经网络与数字化
• 用实现ID卡数字化
• 结论
介绍
在本文中,我们将讨论任何组织如何使用深度学习来自动执行ID卡信息提取,数据输入和查看过程,以实现更高的效率并削减成本。我们将回顾过去针对该问题使用的各种深度学习方法,比较结果并研究该领域的最新知识。我们将讨论图神经网络以及如何将它们用于数字化。
当我们将研究ID卡的特定用例时,处理任何形式的文档,发票和收据等并且对建立深度学习和OCR如何解决问题的技术了解感兴趣的任何人都会找到有用的信息。
深度学习和数字化
许多组织在入职过程中要获得足够数量的有关他们的客户的信息,要求客户提交一些可用于验证其身份并获得有关他们的详细信息的文档。一些例子包括银行和保险公司。由于此过程是在许多地方手动完成的,因此通常很耗时并且容易出错。希望客户提交文档的数字副本,以供人工审阅者查看,识别其是否为伪造,提取姓名,地址等信息,并将其输入数据输入软件。
随着深度学习方法和OCR技术的发展,与物理文档信息提取有关的半自动化或全自动解决方案正在得到越来越广泛的采用。这是信息数字化变得盛行的几个原因-
1. 信息提取 -我们可以捕获ID卡上提供的所有信息,并将这些数据作为唯一来源进行推送以供进一步使用。从捕获的身份证提取的所有信息将采用简单的文本/数字格式。这有助于以有组织的方式维护数据,并有助于进行任何形式的验证或注册过程。
2. 更高的速度和效率 -数字身份证可以为企业和组织节省大量时间和金钱。简单扫描身份证并从中检索所有数据需要几秒钟。通过基于深度学习的方法(稍后讨论),可以实现向快速数字过程的转变,而不是手动输入和查看。
3. 记录数据无误 -随着技术和计算能力的提高,机器现在能够捕获许多错误的数据。通过自动执行重复性任务并允许人员在信息提取管道的最后阶段查看文档信息,可以减少人为错误的机会。
4. 轻松集成到任何系统中 -数字化解决方案可以轻松集成到任何系统中。例如,经过训练可以从特定ID卡中识别信息的模型可以部署在用户批量上传图像的网站上,也可以在用户单击图像的手机中使用,从而提取信息。
挑战与缺点
深度学习已解决了许多自动化问题,但是研究人员和开发人员在尝试构建具有可称赞的质量并输出高精度的完美模型时仍然面临一些挑战。可能存在很多物理和技术错误,下面将讨论其中的一些错误。
各种设计,模板和多语言环境-针对不同类型的ID卡,有几种字体,设计和模板。各种字体的字符具有较大的类内变化,并且形成许多图案子空间,从而当字符类数较大时,很难执行准确的识别。如果完全使用随机图像集训练模型,则模型表现不佳的可能性很高。有时很少有身份证用不同的语言打印。在多语种情况下,从扫描的文档中捕获信息仍然是主要的研究问题,因为复杂符号中的信息更加麻烦。
方向和偏斜度(旋转)-扫描的文档或ID卡通常与传感器的平面平行。但是,当使用相机或任何数字方式手动捕获图像时,它们会遇到诸如方向和偏度之类的问题。手机在方向传感器方面具有优势。他们可以识别设备是否倾斜,并且在发生扭曲时可以禁止客户拍照。偏斜度基本上是ID卡被捕获的角度程度。如果偏度较大,则模型将显示一些不良结果。但是,有多种技术可以解决此问题,例如 ,RAST算法,Hough变换,傅里叶变换方法等。
场景复杂度 -场景复杂度通常由捕获图像的环境定义。复杂度取决于多个因素,例如光线不均匀,对比度,倾斜度(捕获图像的位置)等。捕获的信息具有可比性文字的结构和外观,使得处理图像具有挑战性。因此,为了克服这个问题,我们需要在训练或标记ID卡以提取信息之前确保对图像进行预处理。对于光照条件,我们还可以使用过滤器和增强器,以突出显示文本并使模型更易于处理图像。
数字化和OCR-传统方法
让我们看一下在从ID卡提取信息时,如何使用深度学习来实现最先进的性能。
物体检测
使用流行的深度学习架构,例如-RCNN,Mask-RCNN,YOLO,SSD,,使用对象检测从文本文档中提取信息的任务变得更加容易。在这里,对模型进行角色训练,然后将角色识别为图像中的对象。下面的图像清楚地描绘了从使用对象检测完成的图像中识别文本。
网络的输出由需要连接为文本的单个字符组成。说,如果单个字符被错误地预测,该错误不会影响整个文本。
卷积递归神经网络
循环神经网络用于处理文本数据是众所周知的。但是,为了从ID卡中提取信息,我们需要处理图像(已捕获)和文本(需要识别)的交叉点。为此,CRNN于2015年推出。在CRNN中,第一级具有基本的完全卷积网络。网络的下一层定义为功能层,并分为“功能列”。特征列被输入到深度双向LSTM中,该LSTM输出序列,并用于查找字符之间的关系。下图是说明流程的图像。
结果 – CRNNs最初用于音乐分类,然后慢慢地变成文本识别和分类的工具。该网络在分类任务中的准确性达到77%。研究中使用的CRNN深度高达20层,并接受了2500个样本的训练。
STN-OCR网络
空间变换器网络应用仿射变换来消除图像中的空间差异。它了解图像的哪个部分最重要,并据此缩放或旋转图像以聚焦在该部分上。
STN-OCR是一个半监督神经网络,由定位网络,网格生成器和采样器组成。定位网获取输入图像,并为我们提供要应用于其上的变换的参数。网格生成器使用所需的输出模板,将其与从定位网络获得的参数相乘,然后为我们提供要在其中应用转换以获得所需结果的点的位置。最后使用双线性采样核生成我们的变换特征图。这些最终的变换后的特征图将通过我们的下一步工作进行预测,以预测输入图像中的文本。
以下是STN-OCR网络的网络架构,该网络架构可从图像中识别信息。
结果 -作者使用通过计算预测值和文本标签的交叉熵损失或CTC损失而获得的误差梯度。该网络从SVHN数据集中的图像中识别文本的准确性达到95.2%。鲁棒读取数据集使用了相同的网络,该网络的准确度为90.3%。
注意力机制的OCR
注意OCR是CNN和RNN的结合,具有新颖的注意机制。在这种情况下,我们将具有不同视图的图像通过同一CNN特征提取器传递,然后将结果连接到单个大型特征图中。首先,我们使用卷积网络层来提取编码的图像特征。然后,将这些提取的特征编码为字符串,并通过循环网络传递,以进行注意力处理。实现中使用的注意力机制是从机器翻译模型中借用的。我们使用基于注意力的解码器来最终预测图像中的文本。
结果 -对街景图像进行了研究,该图像在具有挑战性的法国街名标志(FSNS)数据集上达到了84.2%的准确度,明显优于之前的最新水平(Smith'16),后者达到了72.46%。普通CNN的准确率高达80.4%。
为什么CNN不够
卷积神经网络在图像分类,视频处理,语音识别和自然语言理解等任务中表现出色。这些任务中的数据通常在欧几里得空间中表示。但是,越来越多的应用程序从非欧几里德域中生成数据,并将其表示为具有复杂关系和对象之间相互依赖关系的图形。
这就是图神经网络起作用的地方。
图神经网络与数字化
图网络是使用图作为输入的一种特殊类型的神经网络。如果您想知道什么图形,这些是对对象(节点)和关系(边)建模的简单数据结构。主要思想是使用图的节点之间的拓扑关系对基础的图结构数据进行编码,以便在数据处理步骤中合并图结构信息。
基于图网络的最受欢迎的研究之一是Deep Walk。该算法执行随机游走以创建节点序列。跳过语法模型用于生成节点嵌入,然后将其用于对这些节点进行分类。上图是深度网络的输入和输出图像,图中的不同颜色表示输入图中的不同标签。我们可以看到,在输出图中(嵌入2维),具有相同标签的节点被聚在一起,而具有不同标签的大多数节点被正确地分开。
图卷积网络
在GCN中,将图形类型的输入数据馈入其中。在特征提取过程中,他们使用频谱和空间方法对图形进行卷积,从而可以更准确地识别ID卡或文本文档中文本的坐标。使用空间特征的一个主要优点是它们不需要均匀的图形结构,这意味着输入可以是不同类型的。普通池化层和子采样层的使用是为了突出文本的功能。一旦特征提取完成,他们将使用分类网络来识别在坐标内找到的文本并返回分数。这样,我们就可以生成文本并将输出作为标签返回。您可以通过阅读本文并查看以下内容来了解 有关图网络的更多信息:仓库。
CNN与GCN
现在,让我们看看CNN和GCN之间的核心区别。在下面的图像中,左侧的图像代表二维卷积,其中图像中的像素被视为整个节点,而相邻像素则由滤镜大小决定(相邻像素可以是3×3滤镜,4×4滤镜, 等等)。2D卷积采用红色节点及其邻居的像素值的加权平均值来突出显示并从图像中提取特征。另一方面,在图卷积中,要找到红色节点的隐藏表示,我们需要取红色节点及其相邻节点的节点特征的平均值。
视觉效果丰富的文档的GCN
视觉上丰富的文档中的文本不能序列化为序列而不会丢失信息。诸如基于-CRF的模型之类的经典信息提取模型无法考虑文档图像的视觉特征。本文使用图卷积以某种方式解决该问题,使我们也可以考虑视觉特征。
模型架构
对于GCN,输入将作为图形信号加载。在本文中,他们使用图卷积从VRD中提取信息。每个文本段都由该段的位置和其中的文本组成。因此,文本元素的位置由使用边界框的四个坐标确定。
他们使用基于图卷积的模型来组合VRD中呈现的文本和视觉信息。在所有文本段上训练图形嵌入,以获得进一步与文本嵌入结合的文档矢量(为此使用bi-LSTM)。输出通过完全连接的层和CRF层最终得到我们的预测。
性能
在两个真实的数据集上对模型的性能进行了评估-增值税发票(VATI)和国际采购收据(IPR)。该模型与两个-CRF模型进行了比较。基线I将-CRF应用于每个单独的句子。将IOB标记模型应用于串联的文档。他们还分析了自己的模型,而没有视觉特征和文本特征提取,也没有注意力机制,并提供了比较。结果如下所示。
用于身份证数字化的GCN
下面是将输入作为文档图加载的方式,并且每个节点都相互连接。在图中,节点表示文本段(通常为OCR),边缘表示两个节点之间的视觉依存关系,例如相对形状和距离。
现在考虑ID卡信息提取的问题,想象一下图中的所有节点(将用作输入)都与标签(ID卡字段)相关联,并且我们要预测节点的标签。在这里,我们的节点是文档中的每个单词,它们的特征向量是与边界框信息连接在一起的词向量,标签是它们表示的字段(名称,地址等)。通过此输入,网络将学习可以理解节点信息的节点表示形式。有关其邻域节点的信息。这些图形嵌入通过,然后经过完全连接的层,以最终获得不同的字段。输出可用于通过解码器体系结构顺序生成OCR文本及其位置。
用实现ID卡数字化
该 OCR API可以让你轻松打造OCR模型。您可以上传数据,对其进行注释,设置模型以进行训练并等待通过基于浏览器的UI进行预测,而无需编写任何代码,也不必担心GPU或为深度学习模型找到合适的架构。
15分钟内将身份证数字化
您可以上传自己的数据并训练模型,获取每个预测的JSON响应以将其与您自己的系统集成,并基于先进的算法和强大的基础架构构建机器学习支持的应用程序。
这是如何做 –
323AI导航网发布