多模态大模型推动AI迈向“通感”时代

  中评社北京7月20日电/据新华社报导,如同人类的“五感”互相连通密不可分,人工智能(AI)的视觉、语言、音频等模态间的边界也在日渐融合。随着人工智能感知、交互和生成能力的快速发展,多模态大模型正推动人工智能迈进“通感”时代。

  记者昨天从上海人工智能实验室获悉,该实验室发布的书生多模态大模型在全球80多种多模态和视觉评测任务中性能领先,超过谷歌、微软、OpenAI等研发的同类模型。

  书生多模态大模型包含200亿个参数,由80亿个海量多模态样本训练而成,支持350万语义标签的识别和理解,覆盖开放世界常见的类别和概念,已具备开放世界理解、跨模态生成、多模态交互3方面核心能力。

  当ChatGPT横空出世,专家就预言它将改变人机交互的“接口”。当下,多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向,一个人人都能用语音“指挥”AI的低门槛时代或许已近在咫尺。

  从预定义任务到开放任务,解锁真实世界理解力

  在快速增长的各类应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求,迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。书生多模态大模型融合了视觉、语言及多任务建模三大模型能力,即通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型,这使它能够更接近人类的感知和认知能力。

  在人工智能研究中,“开放世界”是指非预设、非学术集或封闭集定义的真实世界。传统研究中,AI仅能完成预定义任务,即学术集或封闭集定义的任务,而这种任务范围与真实的开放世界存在很大差距。例如,ImageNet-1K学术集包含1000种物体,其中约有两种花、48种鸟和21种鱼;而在真实世界中,花、鸟、鱼的种类分别约为45万、1万和2万。