清野 裸舞
新智元报谈
裁剪:桃子 Aeneas
【新智元导读】Meta版Sora,就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频,还能生成音效、裁剪视频、上传图像生成个性化视频。以致Meta还放出了92页论文,模子架构、试验细节一并公开,干货满满!
毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!
Meta将其称为「迄今最先进的媒体基础模子」。
全新上线的大杀器Movie Gen Video,是一个30B参数的Transformer模子,不错从单个文本指示,生成高质地的高清图像和视频,视频为1080P、16秒、每秒16帧。
掀开新闻客户端 普及3倍畅通度一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模子。通过视频输入和文本指示,它就不错可控性生成和视频同步的高保真音频,时长最长45秒。
最惊东谈主的是,此次Meta一并连论文都发布了。
论文中,翔实先容了Movie Gen的架构、试验模范和实验截至。
论文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_content=thread&utm_campaign=moviegen
从论文不错看出,Movie Gen Video沿用了Transformer的想象,尤其模仿了Llama 3。而商讨东谈主员引入的「流匹配」(Flow Matching),让视频在精度和细节发达上,都优于扩散模子。
稍显缺憾的是,此次Meta发的亦然「期货」,产物瞻望来岁才庄重向公众洞开。
不出有时的,围不雅大师给出亮眼点评:「Meta果然抢着OpenAI之前发布了Sora,呵呵」。
就在昨天,Sora负责东谈主Tim Brooks采选去职,Meta这个时间点放出Movie Gen,也果真够扎心的。
而HuggingFace工程师也径直贴出Meta开源主页,在线催更模子开源。
也有东谈主期待,Meta版Sora的此次发布,大概或激出其他家的下一个王炸级产物。
一键视频生成,赶超Sora
凭借开源Movie Gen,Meta庄重进攻AI视频限度。
不错说,Movie Gen在裁剪、个性化功能方面,站在了一个新阶段。而且,最令东谈主印象潜入的,即是把一张个东谈主照,调理成个性化视频。
小扎在外交平台上以身试法,将我方像片看成输入,Movie Gen为其配上了健身的视频。
掀开新闻客户端 普及3倍畅通度文本生成视频
当今,独一使用陋劣的文本输入,就能生成自界说的视频了。
从官网放出的Demo不错看出,Meta所言不虚,Movie Gen确凿不错说「为千里浸式AI本体」确立了新标准。
更为精良的是,Movie Gen不错创建不同宽高比的高清长视频。在业内,这属于初度!
这个「雷声大作,伴跟着管弦乐曲」的视频,关于山石地貌和电闪雷鸣的描述惊东谈主的传神,配乐更是慎重激越。
掀开新闻客户端 普及3倍畅通度Thunder cracks loudly, with an orchestral music track.
一个小女孩拿着风筝跑过海滩,仿佛电影中的场景。
戴着粉色太阳镜躺在甜甜圈游水圈上的树懒,视频中光影和水波都很当然。
在冒着热气的温泉中玩着小木船的白毛红脸猴,岂论是热气、水面、山公毛发回是水中怪石,都看不出裂缝。
在海边耍着火圈的男东谈主,视频皆备合乎prompt的要求,镜头、光影和氛围的描述,也曾达到了大片级画质。
多样超执行的场景,Movie Gen都能完竣生成,比如这只毛茸茸的冲浪考拉。
文本裁剪视频
而独一使用文本输入,就不错裁剪现存视频。
Movie Gen不错相沿特地精准的视频裁剪,岂论是样子、过渡,如故细巧裁剪。
通过翰墨输入,就能让小女孩向空中放飞的灯笼,酿成一个气泡。
在沙地上跑步的须眉,手中不错加上蓝色绒球,周围环境不错换羽化东谈主掌沙漠,以致不错让须眉换上孤苦恐配角装。
在不雅众席上不雅影的一双男女,不错让他们戴上3D眼镜、布景换成游乐土,以致加高下雨的殊效。
南极冰原上的企鹅不错穿上维多利亚式的穿着,布景不错加上遮阳伞和沙滩床,以致整幅画面都能酿成铅笔素样貌。
个性化视频
况且,Movie Gen还有一个Sora莫得的亮点——个性化视频!
独一上传咱们想要的图像,它就不错由此生成个性化视频,保留东谈主物的身份和动作。
输入这个女孩的像片,给出prompt,就能让她在南瓜地上戴着领巾喝咖啡。
让这名须眉化身科学家,穿上实验服起初作念实验。
一张像片,就能生成我方和爱犬在露台上的自拍视频。
以致让我方在西部寰球小镇中化身骑马的女牛仔,死后就是落基山脉。一秒走进大片不是梦!
音效和配乐
Movie Gen还不错将视频、文本看成输入,并为视频生成音频。
它可让你创建和彭胀视频音效、布景音乐或整个这个词配乐。
比如,底下企鹅戏水的画面中,配上了AI生成的优好意思的管弦乐曲。
掀开新闻客户端 普及3倍畅通度文本输入:A beautiful orchestral piece that evokes a sense of wonder
AI生成的烟花音效,亦然如斯地传神。
掀开新闻客户端 普及3倍畅通度文本输入:Whistling sounds, followed by a sharp explosion and loud crackling.
流泻而下的瀑布和和雨水,站在高处眺望远处顿感壮不雅。
掀开新闻客户端 普及3倍畅通度文本输入:Rain pours against the cliff and the person, with music playing in the background.
一条蛇在草地里逐渐前进,给东谈主一种危境四伏的赶脚。
掀开新闻客户端 普及3倍畅通度文本输入:Rustling leaves and snapping twigs, with an orchestral music track.
AI生成的布景音,很有平地摩托摩托竞赛那味儿了。
掀开新闻客户端 普及3倍畅通度文本输入:ATV engine roars and accelerates, with guitar music.
还有溜滑板,配着动作,给出不同节拍的音效。
掀开新闻客户端 普及3倍畅通度文本输入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.
92页技巧敷陈,同用Llama 3架构
Movie Gen发布同期,Meta还祭出了92页的技巧敷陈。值得一提的是,此次团队也被定名为「Movie Gen team」。
Pytorch之父Soumith Chintala示意,其中许多细节将会激动AI视频限度的发展。
接下来,沿途望望Movie Gen得以终了的技巧重心吧。
商讨东谈主员示意,Movie Gen主若是基于两种基础模子打造的,一个是Movie Gen Video,另一个是Movie Gen Audio。
Movie Gen Video
Movie Gen Video参数有300亿,基础架构细节如下图所示。
它能够蚁合文本到图像和文本到视频的生成。
Movie Gen Video不错遵命文本指示,生成长达16秒、16帧每秒高清视频。
它亦然通过预试验微调完成,在主干网罗架构上,它不时沿用了Transformer的想象,尤其是模仿的Llama3的想象。
而且,该模子有雄壮的适合性,可生成不同纵横比、差异率和时长的高质地图像和视频。
预试验阶段,在大要1亿个视频和10亿张图像上进行了蚁合预试验。
它是通过「看」视频,来学习视觉寰球。
实验截至发现,Movie Gen Video模子能够联接物理寰球——
不错推理物体畅通、主-客体交互、几何联系、相机畅通、物理司法,以及多样主意的合理畅通。
在微调阶段,商讨东谈主员精选了一部分视频,对模子在好意思学、畅通质处所面完成了微调。
为了提高试验、推理服从,商讨东谈主员在时空压缩的潜在空间(Latent Space)中进行生成。
为此,他们试验了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。
然后,再使用预试验文本编码器,来编码用户提供的文本指示,并取得文本指示镶嵌,这些镶嵌用作模子的条款。
流匹配,打败扩散耗费
值得一提的是,商讨东谈主员还引入「流匹配」(Flow Matching)来试验生成模子,这使得视频生成后果在精度、细节发达上,都优于扩散模子。
「流匹配」是一种新兴的生成模子试验模范,其中枢念念想是——径直学习样本从开动噪声情状向计算数据分散转机的历程。
而且,模子只需通过臆度如安在每个时间步中演化样本,即可生成高质地的截至。
与扩散模子比拟,「流匹配」试验服从更高、缱绻资本更低、况且在时间维度保合手连气儿性和一致性。
有网友对此转头谈,在质地和文本对皆上,东谈主类评估都热烈倾向于流匹配,而不是扩散。
此外,Movie Gen Video在技巧上也引入了许多转换:
他们引入了转换的位置编码模范——「因子化可学习编码」,能够寂寥对高度、宽度、时间三个维度进行编码,然后将其相加。
基于这种生动想象,让模子不仅能够适合不同宽高比,还能处理率性长度的视频。
另外,为了经管模子推理服从问题,商讨东谈主员接受了一种「线性-二次时间步长」的计谋。
如下图所示,仅需50步,就能终了接近1000步采样后果,大幅普及了推理速率。
与此同期,Movie Gen Video还接受了一种奥妙的「时间平铺」模范,进一步普及生收服从。
具体来说,这种模范将输入的视频,在时间维度上切分红多个小片断,然后对每个片对寂寥进行编码妥协码,终末再将整个处理好的片断,再行拼接成完成视频。
这种分而治之计谋,不仅显耀裁减内存需求,还提高了举座推理服从。
为了确保最毕生成的视频质地,团队在解码阶段接受了尽心想象的叠加和夹杂技巧。
终末微调得到的Movie Gen Video模子,与刻下最先进的模子比拟,大幅特出LuamaLabs的Dream Machine,还有Gen-3。
它仅小幅特出了Sora、Kling 1.5。
如下是,生成图像质地的对比。总的来说,Movie Gen Video在画面一致性、质地等方面,均取得了最优发达。
指示中袋鼠走路细节,在Sora中到终末并莫得展现。
Movie Gen Audio
音频模子参数共有130亿,能够生成48kHz的高质地电影音效和音乐。
而且,这些AI音频与输入视频,终了同步。
值得一提的是,Movie Gen Audio不错原生处理不同长度音频生成。
这一历程是通过TAE完成解码与编码。
而且,通过音频蔓延技巧,能够为长达几分钟视频,制作出连贯长音频。
商讨东谈主员在大要100万小时音频上,对模子进行了预试验。
得到的预试验模子,不仅学会了物理相关,还学会了视觉寰球和音频寰球之间的心思相关。
另外,模子还不错生成,与视觉场景匹配的非画面「内环境」声息,即即是声源莫得出当今画面中。
终末,模子还不错生成相沿神色,并与视觉场景动作相匹配的非画面内音乐。
色吧777而且,它还能与专科地夹杂音效和布景音乐。
通过评估,与刻下先进的音频模子ElevenLabs等比拟,Movie Gen Audio截至如下所示。