数据加工的文件格式
文字格式:TXT、DOC、RTF、XML、HTML、Excel数据表、Access数据库等;图像格式:TIF、JPG、BMP、GIF、PDF、DJVU、CEB等;电子书格式:双层PDF、双层DJVU、双层CEB、OEB、EPUB、XML、HTML网页格式等。
数据加工的质量保障
★保障体系:OCR智能识别、人工一二三校、人机结合对比校方式保障数据质量的万无一失;
★文字录入:错误率控制在千分之三以内,外校质量可控制在万分之三或万分之一,根据客户要求而制定;
★扫描识别:图书、期刊、报纸、文档等印刷品错误率控制在万分之三或万分之一,根据客户要求而制定;
★原样录入:质量控制在五万分之一、十万分之一乃至零,根据客户要求而制定。
数据加工流程
1.图像扫描:
采用科技光学仪器对数据进行扫描,生成TIFF、JPG、PDF等图像文件。
2.图像处理:
对扫描后的图像进行纠偏、去黑边、分页、拼图等处理,更高的还原原图像。
3.影象输入:
将通过扫描仪等光学仪器扫描并已人工处理过的图像链接到OCR软件中,我们所用的先进扫描仪等硬件设备使影像更清晰、扫描的质量更增进OCR处理的效率。
4.图像分析:
利用OCR对图像进行版面分析,比如文字的横向纵向、图片与表格等进行进行区分处理。
5.文字识别:
将分析好的图像OCR进行智能识别并进行人工校对(可先进行纵校再横校),保证质量减少错误率。
6.结果输出:
经过人工的一二三校,将数据按客户要求的格式输出并根据不同要求排版处理等。
古籍识别案例
《中华大典》,是一部可以和明朝《永乐大典》相媲美的中国古典文化的集成。。《中华大典》的编纂出版,是在继承、弘扬中国类书优良传统的基础上,参照现代科学的图书分类法,以古文献汇编的形式,进行梳理汇编,提供准确的古籍分类资料。是国家重大文化出版工程。我公司参与识别、排版制作电子文件等工作。
我公司针对古籍识别的古繁体字专门有自己的字库,现已更近或没有的字,我们用自己的造字系统造出与原文中一样的字,以更高的还原原文件。例: