Meta推出了一种名为“Make-A-Video”的新人工智能系统,该系统将允许用户通过输入所需场景的文本描述来生成短视频剪辑。该公告是在该公司最近在生成技术研究方面取得的进步之后发布的,该技术旨在让创作者对人工智能图像生成进行更具创造性的控制。随着这一宣布,Meta将该技术向前推进了一步,除了文本到图像之外,还包括文本到视频的生成功能。但是,该公司尚未向用户发布该模型的访问权限。
提示生成的视频为五秒或更短,并且不包含任何音频。但是,Meta声称该模型支持各种提示。
Meta在通过博客文章宣布这一消息时表示,在对“开放科学”的承诺中,它将分享最新人工智能生成技术背后的研究细节,同时也确认其计划为用户发布演示体验。
生成式人工智能研究通过为人们提供快速,轻松地创建新内容的工具,推动创造性表达向前发展,“Meta在宣布这项工作的博客文章中说。“只需几句话或几行文字,Make-A-Video就可以将想象力带入生活,并创建充满鲜艳色彩和风景的独一无二的视频,”这家母公司在Facebook和Instagram上补充道。
在描述工作模型的研究论文中,该公司指出,“Make-A-Video”演示模型利用了来自WebVid-10M和HD-VILA-100M数据集的图像,标题和未标记的视频片段,其中包括由Pallstock等网站创建并从网络上抓取的库存视频片段,这些视频片段共同跨越了数十万小时的镜头。
Meta首席执行官马克·扎克伯格(Mark Zuckerberg)在Facebook上将这项工作描述为“惊人的进步”,同时补充说“生成视频比照片困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何随时间变化。
然而,围绕人工智能生成媒体提出了令人担忧的问题,一些人认为它可能导致错误信息,宣传和非自愿色情的增加,正如人工智能图像生成系统和Deepfakes的情况所看到的那样,根据《华盛顿邮报》的一份报告。但是,有关演示体验的时间表以及如何限制访问的明确性尚不清楚。