当前位置:企业新闻
图书数字化的加工
图书文献数字化主要流程
1、图书拆分:扫描前拆除装订过的图书
2、图书扫描:根据项目扫描要求选择扫描仪
3、图书处理:对扫描的图片进行深加工处理
4、识别校对:对图像进行全文识别校对
5、索引制作:利用软件进行标注或人工标引
6、装订还原:胶状或线装的方式装订还原
图书数字化的种类
第一类:全文图像化,有简单的目录索引
这种类型的图书数字化,仅仅是将纸质的资料利用扫描仪扫描成图像文件,并进行简单的编目,提供目录索引,而不做正文文字的识别。
第二类:全文文本化,可全文检索
这种类型的图书数字化,全部利用人工录入,建立全文文本化的电子资料,可以提供全文检索。
第三类:全文图像文本化,可全文检索
这种类型的图书数字化,在提供纸质资料的扫描图像文件后,还进行了人工录入或者OCR识别,为图书建立了全文文本,因此可以提供全文检索。
第四类:基于原版原样的,可全文检索
这种类型的图书数字化,利用扫描仪将纸质资料扫描加工成图像文件,再通过OCR工厂,识别成能够保留原始版面样式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的检索。
四种加工类型的比较