图书数字化介绍
东方明德资料数字化解决方案,拟在以东方明德人多年来在图书、报纸、期刊、杂志和档案方面的专业的数字化销售、服务、实施经验,帮助用户建立自己的数字化流水线加工工厂,高效、高质量的实现电子资料的加工,或者利用东方明德的加工工厂为客户提供数字化加工服务。
随着全国文化信息资源共享工程与中国数字图书馆工程的起动,信息化已成为国际潮流,信息资源建设成为当务之急。信息资源建设的重点是电子文献、各类数据库、网络资源、电子杂志、电子图书等新型数字化信息资源的建设。在数字化信息资源建设中,很大的一个需求是将现有的纸介质印刷品数字化,使之成为能够用计算机阅读、理解、查询、检索的电子文件,最终将其应用于数据库存储,或通过CD-ROM、Internet网进行出版,或上传数字图书馆供用户使用。
以传统纸张为载体的保存方式,占据了大量的空间,需要特殊的环境,而且不方便查询,随着时间的推移,还面临着腐蚀、老化等问题。而将纸介质文件信息进行电子化处理,保存到光盘上,具有存储、管理、共享等功能,还可以减少文件库房占地,节省保管设备和人员方面开支,又方便统计和进行远程查询。
因此,将图书、期刊、报纸、文档资料等信息资源通过扫描仪,扫描成图像文件,再通过OCR识别成文字,建立目录和全文索引,制作成电子文件,然后用软件进行管理使用,已是当务之急。
图书数字化的工序
图书拆分→图像扫描→图像处理→文字识别→横向校对→纵向校对→对比校→索引制作→索引质检→成品验收→图书装订还原
1. 图书拆分
为了方便扫描加工,对可以拆的图书进行拆分扫描,加工完后再进行图书还原。其流程为:图书封皮与书脊分离,将脱离封皮的图书书脊用电动切纸机切去胶块部份,不同情况按不同尺寸精度切开。
2.图像扫描
扫描组主要负责将纸质性的图书扫描转为电子版的图像。在过程当中保证没有少扫漏扫现象。
3.图像处理
修图组是对扫描完的电子图像进行去污、校正等;同时修图组还进行质检图像模糊、原稿残缺、补扫、漏扫、图片不完整、多图重叠等图像问题。
4.识别与校对
用专业的识别软件将图像进行标注并识别其文本,然后进行人工一、二、三校,以保障数据的质量达到出版水平。
文字识别:差错率千分之五
横向校对:差错率万分之五
纵向校对:差错率万分之三
对 比 校:差错率万分之一
5.索引制作:
按照索引项目利用所提供的软件进行标注或人工标引。
6.索引质检:
检查索引的文字正确性与索引的字段标识。
7.成品验收:
对图像、文本与索引进行全面的质检,合格后提交成品。
8.装书还原:
成品入库后,就可以进行图书还原工作了,把要还原的图书用平台订书机和电动打穿装订机将书的内容装订好,然后用胶订机把书粘好,还原为原书。
图书数字化的种类
资料数字化根据检索和利用需求,大概分为以下几个种类:
第一类 全文图像化,有简单的目录索引
这种类型的资料数字化,仅仅是将纸质的资料利用扫描仪扫描成图像文件,并进行简单的编目,提供目录索引,而不做文字的识别。
其流程如下:
这种电子资料的好处在于投资小,每单位的价格最便宜;其缺点是没有全文检索功能,只能为读者提供简单的索引查询,图像文件较大导致浏览速度较慢。
第二类 全文文本化,可全文检索
这种类型的资料数字化,全部利用人工录入,建立全文文本化的电子资料,可以提供全文检索。
其流程如下:
其优点是占用存储空间较小,可实现全文检索,浏览传输速度快;其缺点是未经过格式化,没有版面信息,读者阅览到的是单纯文本,单位价格较高。
第三类 全文图像文本化,可全文检索
这种类型的资料数字化,在提供纸质资料的扫描图像文件后,还进行了人工录入或者OCR识别,为图书建立了全文文本,因此可以提供全文检索。
其流程如下:
这种类型,实际上是利用双层文件的形式向读者展示电子资料的。它分为上下两层,上面的是图像层,下面的是文本层,但是这种文本没有经过排版,它是无格式混乱的。读者看到的是上层的图像,而全文检索时,可以使用下层的文本。这种类型的好处在于单位价格较便宜,但是由于在读者浏览时要同时传输图像文件和文本文件,其浏览速度最慢。
第四类 基于原版原样的,可全文检索
这种类型的资料数字化,利用扫描仪将纸质资料扫描加工成图像文件,再通过OCR工厂,识别成能够保留原始版面样式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的检索。
其大致流程如下(更详细的流程参见后面的“东方明德图书电子化的过程”):
这种类型的优点在于支持全文检索,占用存储空间较少,由于是文本格式的文件,电子资料质量(放大、缩小是不失真)和浏览速度都很好;其缺点是价格较高。
规模化、流水线式的数字化加工
公司避于手工业作坊式的生产方式,建立了数字化加工工厂。并创立了从资料整理去污→扫描→图像处理(纠偏、消蓝、图像增强、去杂)→OCR识别(版面分析、识别、横向校对、纵向校对、导出文件)→建立索引→刻录光盘(可全文检索、二次检索、模糊检索)等全过程的流水线式加工方式,大大提高了加工效率和效果。规范了加工流程、项目管理方法和制度,合理的分配人员到各个流水线节点,创建了可优化的项目质量保证体系,使得每一次新的加工项目都能够继承原有项目的优秀经验,并使得在这次新的项目中产生的经验,能够有效的被下一个项目继承和发扬。
规模化的生产、流水线式的作业,使得加工工人能够从事自己最擅长和最熟练的工作,导致了项目质量的不断提高和单位成本的稳定下降。
成熟的软件产品
东方明德本着以广阔的胸襟,容纳各种优秀的人才和产品。由于经济的全球化带来的人才和竞争方面的压力,使得任何一个公司都不可能完全依赖于自己而立足于市场不败,要想在竞争中获得生存,就必须和其他人合作。
我们引进TH-OCR录入工厂,并与清华紫光建立了合作伙伴关系,在数字化领域进行多方面产品与服务合作。
OCR录入工厂具有以下一些特点:
★高品质:不须打印校样,一次录入就能达到出版质量,可将最终文档的错误率严格控制在万分之一以内;
★高效低成本:保持同样数量工作人员的情况下完成更大的工作量;生产效率是传统手工方式的3倍以上
★超强能力:具有对超大字符集(达两万余字)、超多种字体(近百种)的汉字识别能力;具有超级查错纠错能力,将电子文档的错误率减少到万分之一以下;具有对彩色及复杂中文资料等进行版面分析、版面理解和准确复原的能力;能将已有的各种印刷品自动地转换化为具有原式原样原文重现版面的、可供计算机阅读和查询检索的、具有PDF、HTML、RTF等标准文档格式的文档输出。
OCR录入工厂的构成:
★精确的版面分析:OCR数据录入工厂能对扫描获得的各种图像,包括彩色/灰度图像和二值图像及复杂的报刊、杂志进行自动版面分析,分析不同的物理结构元素进行区域分割,即横、竖排文本区、图形、表格区等;
★超强的识别核心:OCR数据录入工厂是唯一可以识别2万多汉字的系统,综合性能处于国内外绝对领先地位。该系统可识别简体6763个汉字(国标一级3755和国标二级3008)、繁体13053个汉字(繁体字一级5401和二级7652)的超大字符集,可识别字体达近百种(同时自动识别原各种宋体、仿宋、黑体和楷体及小姚和魏碑等字体外,还同时自动识别各种圆体、隶书等等);
★独特的校对方式:具有超级查错纠错能力,通过横向校对、纵向校对、对比校对后确保电子文档的错误率“万无一失”;
★原版原样的版面恢复:可将扫描、识别、校对后的各种报刊、杂志、图书等的电子文档自动地转换为具有原式原样、版面信息重构的、可供计算机阅读和查询检索的、具有PDF、HTML等标准格式的电子文档;
★方便地应用于全文检索:由录入工厂处理生成的多种电子文档格式,可应用于各种检索系统。可直接用于数字图书馆、CD-ROM出版或Internet网上出版;在“Jdaedit”软件中,将识别后文档自动编辑形成逻辑结构,比如:图书的“书名”、“版号”、“正文”、“作者”等标引信息。标引信息是自动形成的,但需要人工调整和添加。标引信息为数据的自动归档、全文精确检索等提供了条件。同时,“Jdaedit”软件也是形成PDF格式文档的必要工具;
★流程管理和质量控制:流程管理贯穿于整个录入工厂的生产流程中,服务器端控制整个流程,它将数据打包、分发给各个客户端;客户端接收数据包,完成流程当中的某个或某几个工序,完成后将数据打包发回给服务器。质量控制功能是检验最终文本错误率的有效工具,它通过独特的方法检验横向校对、纵向校对和综合校对之后的文本差错率以确保最终文本的差错率在一定范围之内。流程管理和质量控制是大批量数据高效、高质录入的必不可少的环节。
东方明德资料数字化解决方案以OCR录入工厂为核心产品,并辅助图像净化处理系统、图文校验工具,在整个的过程中融入东方明德多年的资料数字化领域的管理与制作经验,确保为用户提供优秀的产品和服务。
优秀的加工团队
现今世界的社会分工逐渐向两个方向延伸:一是,专业化和职业化,二是,分工合作。我们生活在一个知识爆炸的年代,信息不是贫乏,而是泛滥,这导致任何的人都不能精通所有的行业,职业化以及专业化使得人们能够更专注于自己的领域,而做出更大的贡献。分工合作使项目的成功率大大提高。
东方明德秉承以人为本的企业文化,注重员工与公司的共同发展,拥有着一批具有专业技术和管理水平的项目经理及加工队伍,可以同时为多家客户提供数字化加工服务。
低廉的价格
东方明德采用优秀的产品能够节省3~5倍于传统手工方式的加工,通过规模化和流水线式的生产手段,再次降低了各种费用和成本,我们为客户提供优质产品的同时,能够以低于同行业水平的价格为客户提供加工服务。
完善的服务
信息数字化是一个服务性质的行业,东方明德把“客户就是上帝”的思想,从经理到员工,从前期销售到后期加工、服务,贯彻到每个地方,让公司所有员工都建立为客户提供优质服务的理念。
公司为客户提供从售前的销售拜访、售前咨询、规划、解决、实施方案,到售后的免费电话、现场有限支持、定期客户回访等方式,为客户提供优质的服务。
东方明德资料数字化解决方案的流程:
正确率
出版要求错误率控制在万分之三以内,传统的资料数字化过程需要进行人工录入、打样、一校、打样、二校、打样、三校等三次校对,而且其中有大量的人工参与;而东方明德公司通过图像净化、OCR识别、横向校对、纵向校对等手段(绝大部分是由计算机完成),能够对印刷体的资料将错误率控制到“万无一失”。
加工速度
传统的资料数字化主要是通过人工打字录入的方式,再通过打样、校对、排版等工序,最后制作出电子资料。其中大量的需要人工的参与,利用计算机的优势之处较少,因而加工速度较慢。
东方明德资料数字化主要是利用快速扫描技术、图像处理技术、OCR识别技术等,大量的利用计算机快速处理能力,并辅助人工的控制和管理,因而具有非常高的加工速度。