日前,中国第一历史档案馆(以下简称“一史馆”)在“改革开放四十年满文档案工作回顾与展望”座谈会上正式发布了“满文输入通”“满文识别通”软件及“满文朱批奏折全文检索数据库”。这是国内少数民族手写体文字图像计算机识别的首次成功应用。
“满文识别通”
专家首先演示了“满文识别通”软件,它的功能是将满文档案的图像信息通过识别技术转换成可编辑检索的文本信息。软件界面如下:
界面可同时显示满文档案原图、满文标准字体或满文转写字母,便于校对。上图演示以满文朱批为例,左边是档案的文件名,淡黄色背景为档案图像,右边的拉丁字母是识别结果。
在实际操作中,大批量数据加工在后台进行,由机器操作,而具有满文专业技能的人均可以参与校对,一定程度上缓解了满文人才稀缺的压力。
据介绍,这一系统的满文行书识别率86.6%,满文楷书识别率95.1%,处于国内外行业领先地位。同时软件可以实现机器学习、迭代更新,随着样本库的增加,识别率逐步提升。它的单机识别速度达到每小时625画幅,相较于纯人工每人每小时大约4画幅的速度,效率显著提高。此外,软件易操作、兼容性强,基于微软系统开发,对软件和硬件环境要求不高,便于推广使用。
“满文输入通”
“满文输入通”软件包括满文输入法、满文字库、拉丁字母与满文相互转换软件。
其中满文字库包含了团队最新设计的几种满文字体,这些字体取材于一史馆档案中真实存在的满文字体。
满文字库:雕版体
满文字库:书名体
满文字库:榜书体
拉丁字母与满文相互转换软件
上图演示中,左边是满文的拉丁字母转写,右边是满文。这一软件能够实现双向转换、批量转换,既方便学者使用,也方便相关机构进行数据库的建设。
满文输入法
满文输入法解决了满文键位与满文转写统一的难题,省略了切换按键。在文档中,输入满文时可像汉语一样切换字体,软件设计了包括雕版体、奏疏体、行书体、匾额体、书名体和榜书体等字体供选择;方便教学、科研和满文古籍出版等工作。有学者提到,现在有些文物机构的满语匾额书写尚不规范,可以应用“匾额体”字库来解决。
字体较为雄浑的满文匾额体
满文朱批奏折全文检索数据库
应用“满文识别通”及“满文输入通”开发的“满文朱批奏折全文检索数据库”有满文史料13万余件,可以应用于局域网,也具备接入互联网的能力。
数据库登录界面
以往档案查询只能依据著录题名通过检索档号或者责任者来查询档案,有了全文数据库以后,可以检索档案全文信息,检索效率更高。
数据库利用平台的档案阅读界面,左边是原档图像,右边是文本信息。
右侧的文本信息可以显示为拉丁字母转写或满文字体,满文字体可切换三种字体。
此外该数据库还有后台管理功能,为数据库中的数据和使用者设置使用权限,包括是否能下载、阅读,以保障数据安全。满文朱批奏折全文检索数据库将于2018年12月3日起在中国第一历史档案馆利用平台向社会开放利用。
(澎湃新闻 彭珊珊)
领取专属 10元无门槛券
私享最新 技术干货