古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号,进而揭示古籍文献中包含的信息资源的系统工作。
字节跳动在助力永乐大典数字化的过程中必然会遇到部分难点,接下来本文从技术角度出发分析一下。
古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号,进而揭示古籍文献中包含的信息资源的系统工作。
古籍数字化操作平台是进行古籍数字化的主要硬件。
从全球范围来看,真正做到完全符合古籍数字化各项标准的操作平台几乎没有。
由于受自然光照环境的影响,使得扫描的古籍书影有时会出现偏色和色彩分布不均等情况,从而影响扫描效果,需要经常反复加工、多次扫描才能达到要求。
设备存储空间不足也是操作中存在的问题之一。
扫描后的古籍书影基本都是以TIFF无压缩图像进行存储,每个书影在后期加工处理前都在100MB左右。
这样算来,每人每天扫描的图像数据容量在10GB左右,占用的空间相当大,经常出现电脑空间不足。
即使是将扫描好的书影剪切到移动硬盘或者其他磁盘上,复制速度较慢,同时只能是以点对点的形式进行保存,很容易造成数据丢失,对数据安全造成隐患。
古籍数字化人员的工作量特别大,从前期整理、原始书影采集,到后期纠偏裁切、元数据著录等都由一名同志完成。
在不包括元数据著录的情况下,每人每天最多只能处理100幅书影左右,大大影响了扫描速度,而且容易造成漏扫、多扫与重复扫描等问题。
在填写《文献整理登记表》中,叶数一栏的规定是阿拉伯数字。
除封面、前护、后护、封底单独统计叶数外,各卷叶数均在此填写。
但如果上一卷卷末和下一卷卷端在同一页上则没有明确的规定,容易造成卷次叶数统计混乱。
软件的默认设置参数比较混乱。比如:每次扫描设置好的分辨率400DPI、TIFF无压缩格式、平面扫描、矩形裁切等参数无法保存,扫描不同部古籍时默认参数每次都不一样。
有时其他参数不变,只将TIFF无压缩格式变成TIFF-G4,或者只将TIFF格式变成PDF格式等等,一不小心就容易出错,所以每次打开软件都需要重新设定参数。
同时该软件裁切和倾斜校正参数不完善,无法精确设置留边1CM,也没有大批量处理功能,需要利用其他软件逐幅书影进行纠编和裁切,给书影的后期加工处理增加了难度。
技术问题还再其次,永乐大典的文字诘屈聱牙,如果没有负责的工作人员和专家指点,就会出现错误,可见古籍数字化之难。
领取专属 10元无门槛券
私享最新 技术干货