古籍数字化介绍
我国古籍数字化经历了数据库版、光盘版、网络版三个建设阶段。数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。
在网络时代,任何知识信息得到充分利用的前提,是看其能否转化为数字化信息。古籍文献有很高的学术价值,我公司采用计算机技术,对古籍文献进行全文数字化加工处理,制作成古籍文献书目数据库和古籍全文数据库,不仅有效保护古籍,而且能更好地传播利用古籍,提高古籍文献的使用率。
模化、流水线式的数字化加工
公司避于手工业作坊式的生产方式,建立了数字化加工工厂。并创立了从资料整理去污→扫描→图像处理(纠偏、消蓝、图像增强、去杂)→OCR识别(版面分析、识别、横向校对、纵向校对、导出文件)→建立索引→刻录光盘(可全文检索、二次检索、模糊检索)等全过程的流水线式加工方式,大大提高了加工效率和效果。规范了加工流程、项目管理方法和制度,合理的分配人员到各个流水线节点,创建了可优化的项目质量保证体系,使得每一次新的加工项目都能够继承原有项目的优秀经验,并使得在这次新的项目中产生的经验,能够有效的被下一个项目继承和发扬。
规模化的生产、流水线式的作业,使得加工工人能够从事自己最擅长和最熟练的工作,导致了项目质量的不断提高和单位成本的稳定下降。
成熟的软件产品
东方明德本着以广阔的胸襟,容纳各种优秀的人才和产品。由于经济的全球化带来的人才和竞争方面的压力,使得任何一个公司都不可能完全依赖于自己而立足于市场不败,要想在竞争中获得生存,就必须和其他人合作。
我们引进TH-OCR录入工厂,并与清华紫光建立了合作伙伴关系,在数字化领域进行多方面产品与服务合作。
流程管理和质量控制:
流程管理贯穿于整个录入工厂的生产流程中,服务器端控制整个流程,它将数据打包、分发给各个客户端;客户端接收数据包,完成流程当中的某个或某几个工序,完成后将数据打包发回给服务器。质量控制功能是检验最终文本错误率的有效工具,它通过独特的方法检验横向校对、纵向校对和综合校对之后的文本差错率以确保最终文本的差错率在一定范围之内。流程管理和质量控制是大批量数据高效、高质录入的必不可少的环节。
东方明德资料数字化解决方案以OCR录入工厂为核心产品,并辅助图像净化处理系统、图文校验工具,在整个的过程中融入东方明德多年的资料数字化领域的管理与制作经验,确保为用户提供优秀的产品和服务。
数字化流程 :
1、古籍领出登记
将珍贵古籍从馆里领出进行数字化扫描,做到每一本领出古籍都要严格登记,避免遗漏。登记时确认每本古籍的总页数,与管理人员进行交接
2、古籍整理
将领出古籍进行平整处理,确保古籍无粘连、折边、部分缺失等情况,确认处理好后开始利用书刊扫描仪进行数字化扫描。 如无页码的需进行人工编页码防止扫描是顺序错乱以及丢页。
3、古籍扫描
进行扫描时,根据每本古籍的不同情况做相应的处理。如古籍情况较好,则可以采用玻璃压稿台对古籍进行压平扫描;如古籍纸张较薄,则需用空白A4纸张进行插垫,确保获得的影像不会有背透而影响观赏效果;如古籍本身情况不理想,则不必使用玻璃压稿台进行压平,由书刊扫描仪自带PerfectBook 功能进行扫描处理。
4、图像修图处理
扫描后的图像进行纠偏、去黑边、分页、拼图等处理,更高的还原原图像。
5、图像质检
处理后的图像统一质检,质检视具体情况而言分为一次质检和二次质检。主要是检查图像的质量,和有无漏页、重复扫描等情况。 发现问题及时改正补扫等等。
6、识别录入
利用OCR对图像进行版面分析,比如文字的横向纵向、图片与表格等进行进行区分处理。
将分析好的图像OCR进行智能识别并进行人工校对(可先进行纵校再横校),保证质量减少错误率。
经过人工的一二三校,将数据按客户要求的格式输出并根据不同要求排版处理等。
7、格式转换
双层PDF图文格式: 用扫描方式制成TIFF图像,然后利用OCR技术将图像形式全部识别为可检索的汉字,并将文字和图像进行对应,制作成图像在上、文字在下的双层PDF格式文件。既便于用户快速准确地查找到所需内容,又能使用户古籍的原始面貌。双层PDF特别适合于古籍数字化,异写、通假、避讳等造成的众多汉字无法完全识别,用户通过图像即可对照。
8、数据存储
据及压缩转换后的数据进行存储,通过网络传输到磁盘阵列中进行存储。
9、古籍入库登记
完毕后,将扫描后的古籍及未完成的古籍进行入库。与管理人员进行逐一核对,核对无误后进行登记,登记完成后,古籍方可入库。