现如今,在众多工具软件、应用软件、数据库软件以及各类接口类程序都在慢慢接入国产化的操作系统,助力国内的IT环境的搭建与运维,也有了可以在国产化操作系统平台下使用的OCR文档文字识别技术开发包了。
目前国产化操作系统下的OCR技术可以OCR识别简体中文、繁体中文以及中英文混排的文档图片,文件PDF,OFD格式都可以识别。
OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。OCR识别软件是开发工具包,实际操作中有两种方式:
1.支持接口挂接,可一天24小时不间断的进行OCR识别处理,输入JPG、PDF文件,输出TXT、双层PDF或者OFD文档结果格式的文件。
2.使用数据加密线的授权方式,进行单机授权使用,麒麟或者UOS的电脑连接好扫描仪接收文档的扫描件图片就可以进行单机OCR授权使用。
OCR开发包支持双层PDF文件的OCR识别结果输出;也支持识别导入的图片PDF文件,所以功能很强大。也能够导出国产化操作系统下的专用格式.ofd文件。
随着信创的大环境下,接下来会铺开国产化的应用,档案管理,档案数字化,就是其中一块必不可少的应用场景,同样OCR也是档案数字化不可缺少的工具模块。
拓展小知识
OCR软件主部分组成。图像输入、预处理:预处理:主要包括二值化,噪声去除,倾斜较正等。
图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式,目前有OpenCV,CxImage等开源项目 。
二值化:对彩色图片进行处理使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。
噪声去除:对于不同的文档,根据噪声的特征进行去噪。
倾斜较正:对拍照出来的产生倾斜图片,这就需要文字识别软件进行较正。
版面分析:将文档图片分段落,分行的过程就叫做版面分析。
字符切割:由于拍照条件的限制,经常造成字符粘连,断笔,因此极大限制了识别系统的性能,这就需要文字识别软件有字符切割功能。
字符识别:这一研究,已经是很早的事情了,比较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。
版面恢复:人们希望识别后的文字,仍然像原文档图片那样排列着,段落不变,位置不变,顺序不变地输出到word文档、pdf文档等,这一过程就叫做版面恢复。
后处理、校对: 根据特定的语言上下文的关系,对识别结果进行较正,就是后处理。