当古籍修复遇上人工智能

来源:光明日报

  中评社北京4月13日电/据光明日报报道,北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列研讨会日前在线上举办。

  在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要三百年的时间。不过,若利用人工智能技术辅助修复整理,大概二三十年就能完成。

  王军所说的“利用人工智能技术修复古籍”,并非遥远的科学设想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学—字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技术加速中华古籍资源的数字化建设,预计三年内完成10000种精选古籍的智能化修复整理。

  古籍文本转化正在智能化

  很长一段时间里,古籍保护主要采用原生性保护方式,即把古籍当作“文物”保护起来。后来出现再生性保护方式,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。

  即便将所有古籍用数字化手段影印出版,古籍也是“死”的,人们无法方便地使用。北京大学中文系教授杨海峥举了个简单的例子——影印的古籍没有标点符号,非常不便于阅读。另外,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。过去,这种转化主要依靠专家人工录入,时间成本极高。

  “信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化。”王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。

  据了解,利用人工智能和大数据技术,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。

  在这些方面,字节跳动等互联网公司也有很多经验和技术积累。例如,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用。“这些技术可以逐渐向古籍智能数字化的方向上迁移。我们在古籍数字化平台开发中,与北大在技术上能优势互补,进行有效的打通与融合。”字节跳动人工智能实验室总监李航表示。

  王军介绍,“古籍数字化平台”将会进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在word文档中进行整理编辑,再传递相关的文档,在提高效率的同时,也方便公众参与。