OpenAI新工具 文字可转60秒视频
“在夜晚的城市中,霓虹灯光将街道点亮,身着皮衣的女子从行人中走出,墨镜上反射出街道上的斑马线”……乍一看,这段长达59秒的视频似乎是真实拍摄的,然而它其实是由OpenAI全新AI视频生成工具Sora凭藉寥寥数行输入的文字,一键输入、凭空生成的视频。
美国当地时间15日下午,OpenAI正式宣布推出视频生成工具Sora,并发布了一系列该工具生成的演示视频。这些视频五花八门,题材包括猛犸象踏过雪原,淘金热时期的美国小镇、男子坐在白云上读书等等,画面生动逼真,令人瞠目结舌。
“人人都可当导演”
AI视频工具已成为业界的热门话题。Sora十分易用,用户只需输入文字描述自己想要的视频,AI就能输出一段最长60秒、细节丰富的影片,毋须拥有任何视频拍摄的设备与制作经验,相比于传统的视频制作,AI效率更高、成本更低,大幅降低视频门槛,几可实现“人人都可以当导演”。
Sora使用的技术,与OpenAI旗下的图像生成AI工具DALL-E相似,使用“扩散模型”来训练AI将随机像素转变成视频。但是训练AI处理视频与以往的处理文字不同,因为视频并非由文字组成。研究人员要想办法,将视频切成像文字单词一样的“块”。最终,他们将视频按帧数划分,在空间和时间上也切割成“块”。如此一来,Sora内部的神经网络就能像处理语言文本一样,能够处理视频“块”。
处理复杂题材仍存缺陷
尽管OpenAI的演示视频令人印象深刻,但在社交平台上,不少受邀测试的创作者发出的视频,显示了Sora问题不少,尤其是处理相对复杂题材。例如,在一个“男人在跑步”的视频中,男子站在跑步机上,但却在朝着与跑步机相反的方向跑动。在另一“穿帮”视频中,一群小狼在小路上嬉戏的视频中,发生了数次小狼“凭空出现”或“凭空消失”的情形。
OpenAI警告称,Sora当前的模型“存在缺陷”,例如在生成视频期间对空间认知发生错误、发生“左右不分”,或无法在整个视频中保持视觉连续性等。OpenAI解释说,例如,视频中一个人咬了一口饼乾,但之后这块饼乾上的咬痕可能就会消失。《华盛顿邮报》记者Drew Harwell指出,Sora所生成的视频中,人类手部形态有缺陷,易穿帮,这是AI生成图像中最难以攻克的障碍之一。
Sora能力让人惊讶的同时,也引发了外界AI技术滥用的担忧。OpenAI表示,已意识到了Sora可能会生成错误信息和仇恨内容等。Sora目前仅开放给少量学者与研究人员使用,其间将同时进行所谓的红队演练(red-teaming),即试图让AI工具“失灵”,产生不恰当的内容或出毛病,以发现问题。OpenAI在有结论之前,不会开放公众使用Sora。
“在夜晚的城市中,霓虹灯光将街道点亮,身着皮衣的女子从行人中走出,墨镜上反射出街道上的斑马线”……乍一看,这段长达59秒的视频似乎是真实拍摄的,然而它其实是由OpenAI全新AI视频生成工具Sora凭藉寥寥数行输入的文字,一键输入、凭空生成的视频。
美国当地时间15日下午,OpenAI正式宣布推出视频生成工具Sora,并发布了一系列该工具生成的演示视频。这些视频五花八门,题材包括猛犸象踏过雪原,淘金热时期的美国小镇、男子坐在白云上读书等等,画面生动逼真,令人瞠目结舌。
“人人都可当导演”
AI视频工具已成为业界的热门话题。Sora十分易用,用户只需输入文字描述自己想要的视频,AI就能输出一段最长60秒、细节丰富的影片,毋须拥有任何视频拍摄的设备与制作经验,相比于传统的视频制作,AI效率更高、成本更低,大幅降低视频门槛,几可实现“人人都可以当导演”。
Sora使用的技术,与OpenAI旗下的图像生成AI工具DALL-E相似,使用“扩散模型”来训练AI将随机像素转变成视频。但是训练AI处理视频与以往的处理文字不同,因为视频并非由文字组成。研究人员要想办法,将视频切成像文字单词一样的“块”。最终,他们将视频按帧数划分,在空间和时间上也切割成“块”。如此一来,Sora内部的神经网络就能像处理语言文本一样,能够处理视频“块”。