“中研院”AI资源大多来自大陆 柯志恩要求改善
中评社台北11月11日电(记者 俞敦平)中国国民党籍“立委”柯志恩今日在“立法院”教育及文化委员会质询“中研院”院长廖俊智,质疑当前“中研院”所使用的大部分数据来源来自中国大陆,认为“中研院”应加强台湾繁体中文语料库建设,才能在全球语言模型竞争中保持地位。廖俊智回应,表示“中研院”已意识到此问题,并承诺加强中文语料库的扩展与优化,以支持台湾的语言技术发展需求。
“中研院”长廖俊智11日应“立法院”教育及文化委员会邀请列席报告业务概况并备质询。
柯志恩首先指出,当前“中研院”所使用的AI训练资料大部分数据来源来自中国大陆,使得所研发的AI模型在面对台湾在地语言需求时显得不足。柯志恩进一步指出,简体中文在全球AI语料的比例已达16%,而繁体中文仅占0.05%,使得在全球语言模型中,繁体中文的存在感相对薄弱。
柯志恩质疑“中研院”在繁体中文资料建构上的投入不足,认为这将使台湾在AI领域的发展受到限制。她指出,“中研院”今年在AI模型的发展上花费了2703万(新台币),但若无法同时增强繁体中文资料库的内容,将难以达到预期效果。她建议“中研院”应该积极扩展繁体中文语料,以弥补台湾AI模型在全球竞争中的不足。
对此,廖俊智回应称,“中研院”已逐步意识到繁体中文语料的短缺问题,并承诺会持续努力以补足此缺口。他坦言,目前“中研院”确实在繁体中文资料方面的投入尚不足,但该院将持续加强繁体中文语料的扩展,期望能够逐步提升其在全球AI语言模型中的占比,并使台湾的AI技术更具竞争力。
廖俊智强调,未来“中研院”将在繁体中文资料库的建设上加大投入,目标是将繁体中文在语言模型中的占比从目前的0.05%提升到5%,以期在全球AI技术的浪潮中,让台湾语言和文化的需求更被重视。他表示,此举将有助于让台湾的AI技术能够持续进步并且符合本地需求。
中评社台北11月11日电(记者 俞敦平)中国国民党籍“立委”柯志恩今日在“立法院”教育及文化委员会质询“中研院”院长廖俊智,质疑当前“中研院”所使用的大部分数据来源来自中国大陆,认为“中研院”应加强台湾繁体中文语料库建设,才能在全球语言模型竞争中保持地位。廖俊智回应,表示“中研院”已意识到此问题,并承诺加强中文语料库的扩展与优化,以支持台湾的语言技术发展需求。
“中研院”长廖俊智11日应“立法院”教育及文化委员会邀请列席报告业务概况并备质询。
柯志恩首先指出,当前“中研院”所使用的AI训练资料大部分数据来源来自中国大陆,使得所研发的AI模型在面对台湾在地语言需求时显得不足。柯志恩进一步指出,简体中文在全球AI语料的比例已达16%,而繁体中文仅占0.05%,使得在全球语言模型中,繁体中文的存在感相对薄弱。