带你了解-国产操作系统下的OCR技术实现档案数字化--企业新闻-北京东方明德科技发展有限公司

当前位置：企业新闻

带你了解-国产操作系统下的OCR技术实现档案数字化

现如今，在众多工具软件、应用软件、数据库软件以及各类接口类程序都在慢慢接入国产化的操作系统，助力国内的IT环境的搭建与运维，也有了可以在国产化操作系统平台下使用的OCR文档文字识别技术开发包了。

目前国产化操作系统下的OCR技术可以OCR识别简体中文、繁体中文以及中英文混排的文档图片，文件PDF，OFD格式都可以识别。

OCR软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。OCR识别软件是开发工具包，实际操作中有两种方式：

1.支持接口挂接，可一天24小时不间断的进行OCR识别处理，输入JPG、PDF文件，输出TXT、双层PDF或者OFD文档结果格式的文件。

2.使用数据加密线的授权方式，进行单机授权使用，麒麟或者UOS的电脑连接好扫描仪接收文档的扫描件图片就可以进行单机OCR授权使用。

OCR开发包支持双层PDF文件的OCR识别结果输出；也支持识别导入的图片PDF文件，所以功能很强大。也能够导出国产化操作系统下的专用格式.ofd文件。

随着信创的大环境下，接下来会铺开国产化的应用，档案管理，档案数字化，就是其中一块必不可少的应用场景，同样OCR也是档案数字化不可缺少的工具模块。

拓展小知识

OCR软件主部分组成。图像输入、预处理：预处理：主要包括二值化，噪声去除，倾斜较正等。

图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV,CxImage等开源项目。

二值化：对彩色图片进行处理使图片只前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色，这就是二值化图了。

噪声去除：对于不同的文档，根据噪声的特征进行去噪。

倾斜较正：对拍照出来的产生倾斜图片，这就需要文字识别软件进行较正。

版面分析：将文档图片分段落，分行的过程就叫做版面分析。

字符切割：由于拍照条件的限制，经常造成字符粘连，断笔，因此极大限制了识别系统的性能，这就需要文字识别软件有字符切割功能。

字符识别：这一研究，已经是很早的事情了，比较早有模板匹配，后来以特征提取为主，由于文字的位移，笔画的粗细，断笔，粘连，旋转等因素的影响，极大影响特征的提取的难度。

版面恢复：人们希望识别后的文字，仍然像原文档图片那样排列着，段落不变，位置不变，顺序不变地输出到word文档、pdf文档等，这一过程就叫做版面恢复。

后处理、校对: 根据特定的语言上下文的关系，对识别结果进行较正，就是后处理。

客户服务中心