OpenAI新工具　文字可转60秒视频

jsxw 中评资讯 09-01 6 0

　　中评社北京2月17日电／据大公报报导，综合法新社、《华尔街日报》、《麻省理工科技评论》报导：继推出热门聊天机器人ChatGPT之后，人工智能（AI）公司OpenAI在15日又有大动作，宣布推出全新的视频AI生成工具“Sora”。该工具能够根据文字输入，生成最长60秒的高品质视频，极具“爆款”潜质。Sora目前仍存在许多缺陷，包括无法处理比较复杂的题材，发生“左右不分”等等。由于生成视频的能力太过强大，该工具目前仍在测试阶段，在OpenAI完成风险评估前，暂时不会对公众开放。

　　“在夜晚的城市中，霓虹灯光将街道点亮，身着皮衣的女子从行人中走出，墨镜上反射出街道上的斑马线”……乍一看，这段长达59秒的视频似乎是真实拍摄的，然而它其实是由OpenAI全新AI视频生成工具Sora凭藉寥寥数行输入的文字，一键输入、凭空生成的视频。

　　美国当地时间15日下午，OpenAI正式宣布推出视频生成工具Sora，并发布了一系列该工具生成的演示视频。这些视频五花八门，题材包括猛犸象踏过雪原，淘金热时期的美国小镇、男子坐在白云上读书等等，画面生动逼真，令人瞠目结舌。

　　“人人都可当导演”

　　AI视频工具已成为业界的热门话题。Sora十分易用，用户只需输入文字描述自己想要的视频，AI就能输出一段最长60秒、细节丰富的影片，毋须拥有任何视频拍摄的设备与制作经验，相比于传统的视频制作，AI效率更高、成本更低，大幅降低视频门槛，几可实现“人人都可以当导演”。

　　Sora使用的技术，与OpenAI旗下的图像生成AI工具DALL－E相似，使用“扩散模型”来训练AI将随机像素转变成视频。但是训练AI处理视频与以往的处理文字不同，因为视频并非由文字组成。研究人员要想办法，将视频切成像文字单词一样的“块”。最终，他们将视频按帧数划分，在空间和时间上也切割成“块”。如此一来，Sora内部的神经网络就能像处理语言文本一样，能够处理视频“块”。　　OpenAI科学家布鲁克斯表示，建立能够理解视频，以及人们世界中复杂互动的模型，是所有未来AI系统的重要一步。其他科企，如Meta、谷歌在研究文字到视频的AI技术。

　　处理复杂题材仍存缺陷

　　尽管OpenAI的演示视频令人印象深刻，但在社交平台上，不少受邀测试的创作者发出的视频，显示了Sora问题不少，尤其是处理相对复杂题材。例如，在一个“男人在跑步”的视频中，男子站在跑步机上，但却在朝着与跑步机相反的方向跑动。在另一“穿帮”视频中，一群小狼在小路上嬉戏的视频中，发生了数次小狼“凭空出现”或“凭空消失”的情形。

　　OpenAI警告称，Sora当前的模型“存在缺陷”，例如在生成视频期间对空间认知发生错误、发生“左右不分”，或无法在整个视频中保持视觉连续性等。OpenAI解释说，例如，视频中一个人咬了一口饼乾，但之后这块饼乾上的咬痕可能就会消失。《华盛顿邮报》记者Drew　Harwell指出，Sora所生成的视频中，人类手部形态有缺陷，易穿帮，这是AI生成图像中最难以攻克的障碍之一。

　　Sora能力让人惊讶的同时，也引发了外界AI技术滥用的担忧。OpenAI表示，已意识到了Sora可能会生成错误信息和仇恨内容等。Sora目前仅开放给少量学者与研究人员使用，其间将同时进行所谓的红队演练（red－teaming），即试图让AI工具“失灵”，产生不恰当的内容或出毛病，以发现问题。OpenAI在有结论之前，不会开放公众使用Sora。　　中评社北京2月17日电／据大公报报导，综合法新社、《华尔街日报》、《麻省理工科技评论》报导：继推出热门聊天机器人ChatGPT之后，人工智能（AI）公司OpenAI在15日又有大动作，宣布推出全新的视频AI生成工具“Sora”。该工具能够根据文字输入，生成最长60秒的高品质视频，极具“爆款”潜质。Sora目前仍存在许多缺陷，包括无法处理比较复杂的题材，发生“左右不分”等等。由于生成视频的能力太过强大，该工具目前仍在测试阶段，在OpenAI完成风险评估前，暂时不会对公众开放。

　　“人人都可当导演”

OpenAI新工具 文字可转60秒视频

热点资讯

OpenAI新工具　文字可转60秒视频