蓝委葛如钧关注生成式AI在繁体中文的优化
中评社台北3月20日电(记者 俞敦平)中国国民党籍“立委”葛如钧20日在教育及文化委员会上针对台湾人工智慧(AI)技术的发展质询“中研院”长廖俊智,他特别关注于繁体中文的资料库的建立与生成式AI在繁体中文的优化,他鼓励“中研院”不要因为过去的失误而止步,并建议他们可以考虑拥抱开源社群,共同让繁体中文的大型语言模型能急起直追,从小学生变成大学生。
“立法院”教育及文化委员会20日邀请“中研院”长廖俊智等相关人员进行业务报告并备询。
葛如钧指出,目前AI最常接触到的语言是英文,而繁体中文在AI语言模型训练中的比例很低,这可能影响AI对于繁体中文的理解和使用。他质疑如果没有足够的在地化的资料库支持,生成式AI会无法透过流畅的使用台湾在地化的逻辑和词汇来交流表述。
廖俊智回应认为,强化AI繁体中文的优化对台湾非常重要,并提到国科委已经启动了台德(TAIDE)计划,旨在改善这一情况。他强调了“中研院”在这方面的努力和领导角色。
葛如钧进一步指出,日本在AI训练上针对版权内容的处理方法,是采取全面开放版权的手段,意图透过这种与欧美不同较为激进的方式,让在AI领域起步较晚的日本能急起直追。他询问廖俊智对此事的看法,并问他是否会为了让也是处于落后的繁体中文追上采取类似激进的手段。廖俊智同意这是一个前瞻的做法,并表示需要深入研究其利弊。
接着葛如钧提到了“中研院”释出以Llama 2开发的繁中优化大型语言模型所引起的争议,当时因为参考资料大量使用网路上较为丰富的简体中文内容,因此该模组生成了许多争议性的内容,事后“中研院”因此成立的AI风险研究小组。他强调了在AI学习过程中会面临众多挑战,并呼吁“中研院”不要因为一次的失误就停止前进,他询问风险小组的近况。“中研院”智财技转处的代表邱文聪,提到了风险小组已经有了进度报告,并且标示出可能的风险来源,详细资料会书面交给葛如钧。
最后,葛如钧鼓励“中研院”在AI技术的开放上采取更开放和开源的合作精神,并提到了脸书用户自发性开设了繁体中文内容的开源社团。他认为,建立一个大型的繁体中文语言资料库是迫切且重要的,并且应该由政府、企业和民众共同努力。他赞扬了“中研院”资讯所廖弘源所长领衔的YOLO演算法,并期待“中研院”在AI语言模型推进上能够带领台湾走向更开放和前瞻的未来。
中评社台北3月20日电(记者 俞敦平)中国国民党籍“立委”葛如钧20日在教育及文化委员会上针对台湾人工智慧(AI)技术的发展质询“中研院”长廖俊智,他特别关注于繁体中文的资料库的建立与生成式AI在繁体中文的优化,他鼓励“中研院”不要因为过去的失误而止步,并建议他们可以考虑拥抱开源社群,共同让繁体中文的大型语言模型能急起直追,从小学生变成大学生。
“立法院”教育及文化委员会20日邀请“中研院”长廖俊智等相关人员进行业务报告并备询。
葛如钧指出,目前AI最常接触到的语言是英文,而繁体中文在AI语言模型训练中的比例很低,这可能影响AI对于繁体中文的理解和使用。他质疑如果没有足够的在地化的资料库支持,生成式AI会无法透过流畅的使用台湾在地化的逻辑和词汇来交流表述。
廖俊智回应认为,强化AI繁体中文的优化对台湾非常重要,并提到国科委已经启动了台德(TAIDE)计划,旨在改善这一情况。他强调了“中研院”在这方面的努力和领导角色。