OCR技术在档案数字化中的运用(yòng)

作者：大档家时间：2020-11-18

什么是OCR技术？

OCR是英文(wén)Optical Character Recognition的缩写，中文(wén)含义為(wèi)光學(xué)字符识别，也称為(wèi)文(wén)字识别，是文(wén)字自动输入的一种方法。它通过扫描和摄像等光學(xué)输入方式获取纸张上的文(wén)字、图像信息，利用(yòng)各种模式识别算法分(fēn)析文(wén)字形态特征，与汉字的标准编码相比较从而判别不同的字符，并按通用(yòng)格式存储在文(wén)本文(wén)件中，实现文(wén)本的编辑、检索和存储。所以，OCR技术是一种快捷、省力的文(wén)字输入方式，实践证明其在档案信息数字化工程中的作用(yòng)愈来愈显著。其运用(yòng)过程一般使用(yòng)扫描等光學(xué)输入设备读取纸张上的文(wén)字、图像信息到计算机能(néng)识别的格式，如JPG、FDF、TIF、BMP等，再通过OCR软件自动分(fēn)析比较生成可(kě)编辑的文(wén)本文(wén)件。

OCR技术的发展历程

OCR的概念是由德國(guó)科(kē)學(xué)家Tausheck在1929年率先提出来，后来美國(guó)科(kē)學(xué)家Handel也提出了利用(yòng)计算机扫描等技术对文(wén)字进行识别的想法。而最早对印刷體(tǐ)汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他(tā)们发表了第一篇关于汉字识别的文(wén)章，采用(yòng)了模板匹配法识别了1000个印刷體(tǐ)汉字。可(kě)以说是第一次把OCR从理(lǐ)论概念到实际运用(yòng)的实现。经过四十年各领域专家和學(xué)者的运用(yòng)和研究，以及计算机技术和光學(xué)扫描技术的不断发展，OCR技术已经从原来的字符识别率低于50％到现在针对印刷體(tǐ)字符识别正确率达到了99％以上，并可(kě)以识别宋體(tǐ)、黑體(tǐ)、楷體(tǐ)等多(duō)种字體(tǐ)的简、繁體(tǐ)；也可(kě)对多(duō)种字體(tǐ)、不同字号的混排进行识别；有(yǒu)的OCR技术识别速度很(hěn)快，1000字符控制在一二分(fēn)钟之内，而且可(kě)以识别图像、表格、文(wén)字混排的版面。所以从技术角度分(fēn)析当前的OCR技术完全可(kě)以运用(yòng)到档案信息数字化工程中，从应用(yòng)层面分(fēn)析OCR技术也已完全适合在档案数字化中发挥其识别率高、速度快捷、批量处理(lǐ)等作用(yòng)。

OCR软件工作原理(lǐ)

OCR软件一般是由图像处理(lǐ)模块、版面划分(fēn)模块、文(wén)字识别模块和文(wén)字编辑模块等四部分(fēn)组成。图像处理(lǐ)模块主要具有(yǒu)文(wén)稿扫描、图像缩放、图像旋转等功能(néng)。通过扫描仪输入后，文(wén)稿形成图像文(wén)件，图像处理(lǐ)模块可(kě)对图像进行放大，去除污点和划痕等处理(lǐ)，目的是為(wèi)文(wén)字识别创造更好的条件，使识别率更高。版面划分(fēn)模块主要包括版面划分(fēn)、更改划分(fēn)，即对版面的理(lǐ)解、字切分(fēn)、归一化等，目的是使OCR软件将同一版面的文(wén)章、表格等分(fēn)开，以便分(fēn)别处理(lǐ)，并按照一定的顺序进行识别。文(wén)字识别模块是OCR软件的核心部分(fēn)，主要对输入的汉字进行"阅读"，对于汉字通常是一个字、一个字的辨认，即单字识别，再进行统一归类。文(wén)字识别模块通过对不同样本汉字的特征进行提取，完成识别，自动查找可(kě)疑字，具有(yǒu)前后联想等功能(néng)。文(wén)字编辑模块主要对OCR识别后的文(wén)字进行修改、编辑，如系统识别认為(wèi)有(yǒu)误，则文(wén)字会以醒目的红色或蓝色显示，并提供相似的文(wén)字供选择，选择编辑器供输出等。所以随之OCR软件的不断完善和发展，越来越被图书、档案管理(lǐ)单位等需要成GB和TB容量的数据录入行业所倚重和青睐。

OCR技术的发展得益于扫描仪和计算机硬件的迅速发展。尽管汉字量大、字形复杂，但随着OCR技术逐渐趋向成熟。许多(duō)OCR软件不仅能(néng)识别黑白印刷體(tǐ)汉字，还能(néng)识别灰度和彩色印刷體(tǐ)汉字，同时，对于手写體(tǐ)汉字识别的研究也取得了很(hěn)大进展，正确识别率已达到了70％以上。

OCR技术与档案数字化的关系

档案数字化发展历程

回顾档案现代化管理(lǐ)发展历程，经历过两次实质性的跨越式发展：第一次，二十世纪八十年代开始，档案目录实现计算机检索，建立可(kě)供计算机检索的档案信息目录数据库（包括案卷级和文(wén)件级目录）。第二次，从二十一世纪初开始，档案信息数字化的管理(lǐ)与利用(yòng)，即通过对档案信息的電(diàn)子扫描，建立档案信息图像文(wén)件以及全文(wén)信息数据库，使用(yòng)户可(kě)以做到在授权范围内实现档案信息任意关键词的全文(wén)检索和查阅。第一次的跨越式发展实际是从传统的手工管理(lǐ)向计算机数据库管理(lǐ)的转变，也就是机读档案目录替换纸质档案目录检索，其关键技术是依托计算机数据库技术。由于计算机扫描技术和存储技术应用(yòng)费用(yòng)昂贵、工序繁杂，以及档案形成部门的電(diàn)子文(wén)件还没有(yǒu)完全普及，所以在此过程中很(hěn)少涉及到全文(wén)检索和利用(yòng)。而第二次跨越式发展实质是彻底改变了传统档案信息管理(lǐ)中目录级检索和调卷的方法，真正把纸质档案信息通过数据录入或计算机扫描技术以及OCR技术把档案信息以数据库和图像格式保存在计算机存储设备上，实现档案信息的全文(wén)检索和阅读。其关键技术就是把文(wén)本类電(diàn)子文(wén)件中档案信息提纯出来，以数据库形式存放，提供检索和利用(yòng)，或者在案件级和文(wén)件级目录下挂接電(diàn)子文(wén)件，如图像格式（TIF、JPG、PDF）等，实现不进库房，不调案卷，不翻实體(tǐ)，而利用(yòng)相当于原始纸质档案的信息，缩短了利用(yòng)时间、拓展了利用(yòng)人群、增加了利用(yòng)效果、提高了工作效率。

OCR技术与档案数字化的关系

从当前流行的档案数字化技术层面分(fēn)析，档案的存储技术、载體(tǐ)性质、计算机运行和检索速度都在发生着日新(xīn)月异的变化，但档案的检索技术从本质上还是没有(yǒu)改变，与传统手工目录检索一样依赖于档案案卷和卷内目录。随着OCR技术的不断完善，OCR软件的识别正确率趋向完美以及办公自动化软件的推广，档案检索技术得以突破目录检索的瓶颈，可(kě)以实现全文(wén)任何字符的检索。这是自计算机数据库技术、网络技术以及存储技术运用(yòng)于档案管理(lǐ)后又(yòu)一个里程碑式的发展，使档案信息检索技术实现了跨越式的发展，从根本上解决了档案用(yòng)户面对浩瀚档案目录无所适从、束手无策的局面。从OCR技术的发明到实际应用(yòng)一直没有(yǒu)脱离计算机数据库技术和文(wén)字输入背景，也就是OCR技术的产生是為(wèi)了减轻批量文(wén)字输入、打印工作量、提高工作效率，而档案信息数字化的关键技术和工作也是海量文(wén)字的输入和检索，所以可(kě)以断定OCR技术的产生和发展是档案现代化管理(lǐ)或类似档案管理(lǐ)行业在发展过程中，存在批量文(wén)字输入计算机数据库时，代替人工单字或词组输入的最适合的方法之一。从技术层面讲两者的关系是相互依赖、相互发展、相互促进。

QQ截图20201118140058.png

OCR技术在档案数字化中的运用(yòng)研究

OCR技术在档案数字化中的应用(yòng)

OCR技术在档案数字化中运用(yòng)，主要过程是把纸质载體(tǐ)档案的信息内容利用(yòng)高速扫描仪转换成计算机能(néng)识别的图像文(wén)件，如JPG、TIF或合成多(duō)页的PDF文(wén)件，再利用(yòng)OCR软件的字符识别功能(néng)把不能(néng)编辑的图像文(wén)件和PDF文(wén)件中每个字符与标准的汉字数据库中字符对比，截取相同形状的字符并保存在文(wén)本编辑软件中，保持能(néng)编辑的状态，并可(kě)以进行自动标引或运用(yòng)各类数据库软件的搜索引擎针对字符搜索，以达到档案信息的全文(wén)检索。

在实际档案全文(wén)数字化过程中一般先把一份文(wén)件扫描成多(duō)页JPG、TIF或PDF文(wén)件，再运用(yòng)OCR软件识别并判断识别效果，并进行必要的调整和修复就可(kě)以到达全文(wén)数字化的要求。

在扫描生成页面后，OCR技术针对印刷體(tǐ)的页面文(wén)件一般识别率可(kě)达98％以上，在自动纠错、人工校对后，基本符合档案数字化的要求。从扫描和识别的速度分(fēn)析，一般中档扫描仪每分(fēn)钟扫描在40－60页面左右，配合主流OCR识别软件以及处理(lǐ)、分(fēn)析、校对每页档案全文(wén)数字化用(yòng)时在1分(fēn)钟以内，装订50个页面的案卷数字化时间在30分(fēn)钟左右。与人工单字符输入法相比，工作效率提高近十倍，工作强度成倍减少。运用(yòng)OCR识别技术进行档案全文(wén)数字化，工作人员可(kě)以長(cháng)时间连续工作，而纯人工输入连续工作的后果是差错率的居高不下，从而影响档案信息全文(wén)的检索和使用(yòng)。

OCR技术在全文(wén)输入中的作用(yòng)

OCR技术在档案全文(wén)检索技术中的运用(yòng)主要在于实现档案全文(wén)数据库的输入工作。如针对一卷50页的案卷，案卷和卷内目录一般不超过51个，而全部目录在数据库著录时，对于熟悉计算机输入的人来讲不费吹灰之力，几分(fēn)钟或更長(cháng)点时间就可(kě)以完成，但是如需做到全文(wén)任何关键词检索，必须把每个页面上的汉字字符（可(kě)能(néng)超过500个）输入计算机数据库，50页的文(wén)件可(kě)能(néng)有(yǒu)汉字字符25000个左右，以1分(fēn)钟输入100中文(wén)字符计算，连续不断地输入也需要4个多(duō)小(xiǎo)时。所以面对浩瀚如海的馆藏档案案卷以及每日俱增的新(xīn)归档案卷，依赖单个字符的输入法和数量相对较少的档案工作人员是无法完成如此巨大的全文(wén)输入工作量。在档案管理(lǐ)工作中馆藏量和增量档案一般很(hěn)难缩小(xiǎo)和控制，工作人员数量很(hěn)难大幅度增加，所以唯有(yǒu)改变数据的输入方式，提高输入效率。OCR技术正是弥补了单字符输入速度慢的不足，OCR识别率的大幅提高更是填补单字符输入差错率高的缺陷。因此从当前档案全文(wén)数字的工作量以及计算机输入和各种文(wén)字识别技术的功效来判定，OCR技术是比较适应档案全文(wén)数字化的一种技术，是实现档案全文(wén)数字化的技术基础和实现途径之一

OCR技术的缺陷和弥补方法

经过OCR技术在档案数字化过程中的实际运用(yòng)，其扫描高速、识别快捷、高效等优势显而易见，但是这毕竟是依赖于计算机和人工智能(néng)等技术，也存在一些先天缺陷，如针对手写字迹，特别是保存时间较長(cháng)的历史档案，其识别率往往较低，甚至识别成一堆乱码，使人无法阅读。针对这种OCR技术的缺陷，第一种弥补方法是进行扫描和OCR识别后，实行人工校对识别文(wén)字，尽量保持OCR文(wén)字与原始页面内容一致，虽然所需时间、精力较多(duō)，但毕竟可(kě)以实现档案全文(wén)检索，值得尝试和运用(yòng)；第二种弥补方法是从OCR识别率极低考虑，从现在的OCR技术以及相关技术的局限性出发，只能(néng)考虑手工全文(wén)输入或扫描成图像文(wén)件后，放弃全文(wén)检索功能(néng)直接挂接到文(wén)件目录中，做到文(wén)件级目录检索。在针对一些陈旧纸质档案，页面泛黄、局部生有(yǒu)霉斑或受污染的档案，在OCR过程中也经常把其识别成文(wén)字或乱码。其弥补方法是在扫描成多(duō)页JPG或TIF或PDF文(wén)件后进行人工修复，把原来是文(wén)字部分(fēn)以外的页面进行清洁处理(lǐ)（删除或复制成空白）。也可(kě)以对整个页面进行补光或柔化处理(lǐ)，使没有(yǒu)文(wén)字部分(fēn)页面接近白色，识别过程中OCR软件不会把其当成文(wén)字或图像处理(lǐ)，从而达到档案信息数字化的要求。

结语

随着信息化社会的不断发展，计算机网络技术的不断普及，档案利用(yòng)人群对档案信息的检索准确率、查全率的要求越来越高，而传统的案卷级和文(wén)件级目录检索技术已经无法适应当前网络时代的搜索要求，档案全文(wén)数字化是档案管理(lǐ)发展的必然趋势。采用(yòng)高性价比的数字化方法，在最短的时间内把档案全文(wén)进行数字化是档案管理(lǐ)者必须考虑的发展战略，纵观并比较当前的各类档案数字化技术，使用(yòng)高速扫描和OCR技术以及计算机全文(wén)数据库技术是实现档案信息数字化比较适合的方法。

作者：徐忠勇单位｜上海大學(xué)档案馆

（图文(wén)来自网络，转载仅做交流分(fēn)享，若有(yǒu)侵权请联系删除）