2027初步建“国家关键语料库”
近期,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》)。其中提到,到2027年,国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。基本形成“政府主导、部门协同、社会参与、共建共享”的语言文字信息化工作机制;基本建成国家语言文字大数据中心,初步建成国家关键语料库和国家战略语言资源信息库;语言文字信息化标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显着增强。
“国家关键语料库”是什么
《意见》提出,推动基础性语言资源建设,实施国家关键语料库共建共享计划,重点支持建设大规模中文语料库及高质量民族语言文字语料库、手语盲文语料库、行业领域语料库、语言监测动态语料库等。
教育部语言文字信息管理司相关负责人在接受中青报·中青网记者专访时提到,语料库是自然语言处理、大语言模型、人工智能技术创新应用的重要支撑,是经济社会信息化建设、数字化赋能和智能化发展的基础要素,促进语言数据赋能信息技术创新与信息技术赋能语言文字资源使用的双向赋能。
以文化传承领域为例,目前已经建设了中华思想文化术语库、中华精品字库、甲骨文数据库、中国语言资源保护数据库等。
其中,中华思想文化术语库包括了中华民族所创造或构建,凝聚、浓缩了中华哲学思想、人文精神、思维方式、价值观念,以词或短语形式固化的概念和核心词。该语料库中包括1200余条思想文化术语、中医文化关键词、典籍译本、典籍译名、博雅双语词等。