大模型发展亟需高质量“教材”相伴

jsxw 中评资讯 09-01 20 0

　　中评社北京1月15日电／据科技日报报导，1月5日，美国人工智能公司OpenAI表示，正在与数十家出版商洽谈达成文章授权协议，以获取内容来训练其人工智能模型。2023年12月27日，《纽约时报》起诉OpenAI和微软公司，指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月，就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。

　　这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型，语料短缺会在非常大的程度上限制大模型发展。”近日，哈尔滨工业大学（深圳）计算机科学与技术学院教授邵睿在接受科技日报记者采访时说：“增加语料对于提升大模型能力的边际效益正在减弱，高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”

　　大模型训练语料短缺问题严重

　　科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示，从全球已发布的大模型数量来看，中国和美国大幅领先，占全球总数的80%以上。

　　虽然大模型发展如火如荼，但大模型高质量语料短缺已成为全球共性问题。公开资料显示，大模型对数据供给要求极高。比如，训练GPT－4和Gemini　Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测，到2026年之前，机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示，最早在2024年，人类就可能会陷入训练数据荒，届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。

　　值得注意的是，当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。

南京印刷服务

大模型发展亟需高质量“教材”相伴

热点资讯