1. 首页>>分享

通义万相开源14B首尾帧生视频模型Wan2.1-FLF2V-14B,AI智能扩写提升创意表现力

智东西 4 月 18 日获消息,通义万相首尾帧生视频模型 Wan2.1-FLF2V-14B 于昨日宣布开源。用户只需上传两张照片,一张作为首帧,一张作为尾帧,便可得到一段时长 5 秒、分辨率为 720p 的高清视频。

该模型能够开启灵感模式,利用 AI 智能扩写来对视频创意进行描述,以此提升画面的丰富度和表现力,进而满足用户对于视频生成的更可控且更个性化的需求。

用户现在能够登陆通义万相的官网,然后免费体验新发布的首尾帧生视频模型。同时,用户还可以前往 Github、Hugging Face 或者魔搭社区(Modelscope),在那里下载该模型,以便进行二次开发,从而解锁更多的创意可能性。

该模型凭借 14B 的参数量,成为了全球首个参数量达到百亿规模的开源首尾帧生视频模型。

一、细节处理、情感表达、各种运镜,都不在话下

通义万相在其官方公众号的推文中公布了几个崭新的演示案例,这些案例展现出了新模型极为出色的工作能力。

绝对优势理论2*2*1模型__视频处理开源

在黑暗的环境中,有一群人站成一列。他们背对镜头,站在一束光的前面。镜头逐渐上移,从上方俯拍,从而拍出了光源的全貌。

_绝对优势理论2*2*1模型_视频处理开源

该模型能够真实地还原物理规律。当光源出现时,地面上的人影会随着光束的移动而发生改变。

在复杂的动态场景里,通义万相首尾帧生视频模型能够对内容细节进行高精度处理。例如,女孩的衣服会因跑步时的肢体动作而产生褶皱,深褐色的头发会在光线的影响下不时改变颜色等,这使得视频看起来更加逼真。

_视频处理开源_绝对优势理论2*2*1模型

一个女生身穿粉色运动服。她在城市街道中跑步。镜头先特写了女生的脸部。接着记录下女生转过街角向前跑去的背影。

绝对优势理论2*2*1模型__视频处理开源

生成首尾帧衔接画面时,通义万相首尾帧生视频模型可以依据不同的运镜方式来对视频场景进行丰富与完善。

_视频处理开源_绝对优势理论2*2*1模型

一个男人处于黑暗之中,正看向一束光。接着,镜头逐渐拉远,将四周都是楼梯的环境全貌展现了出来。这种展现方式具有漫画风格。

_视频处理开源_绝对优势理论2*2*1模型

通义万相的首尾帧生视频模型能够满足用户对于视频情感表达的需求。

绝对优势理论2*2*1模型_视频处理开源_

一个蓝色卡通人物打着红色雨伞站在雨中。它的眼神饱含忧郁。

_绝对优势理论2*2*1模型_视频处理开源

通义万相首尾帧生视频模型能够自主进行优化并提出术语指令,这有助于创作者迅速生成富有创意的视频,还能降低使用的门槛,让更多的用户可以轻松地创造出高质量的视频内容。

二、通义万相2.1首尾帧生视频模型是如何训练的

Wan2.1 系列模型采用了 DiT(Diffusion in Transformer)架构,它把扩散模型的生成能力和 Transformer 模型的特征提取以及长序列处理能力融合在一起,并且通过 VAE 视频压缩,使得视频生成过程既能保证清晰度,又能提高工作效率。

同时在空间方面也具有很高的一致性,不会出现物体异位、形态变化不合理等情况。

_绝对优势理论2*2*1模型_视频处理开源

通义万相模型结构图

Wan2.1 系列模型有其特定架构,通义万相首尾帧生视频模型在此基础上新增了条件控制分支,该分支以用户上传的首帧照片和尾帧照片作为控制条件,从而实现了视频从首帧到尾帧能够丝滑且准确地进行过渡效果。

该模型提取了首帧的 CLIP 语义特征,同时也提取了尾帧的 CLIP 语义特征。并且将这些处理结果反馈到了 DiT 的生成过程中,以此来保证模型在生成首尾帧衔接画面时的稳定性。

绝对优势理论2*2*1模型__视频处理开源

通义万相首尾帧生视频模型架构图

这种方法使高精度的视频切片训练成为可能。

通义万相首尾帧生视频模型为了在有限内存下支持高清视频推理,采用了模型切分策略和序列并行策略。它通过多种优化手段,在保证推理效果没有损失的情况下,大幅度缩短了推理时间。

通义万相首尾帧生视频模型的训练过程经历了三个阶段。首先是在 480p 分辨率下进行混合任务训练。接着是针对首尾帧生成能力进行专项优化。最后在 720p 分辨率下完成了高精度训练。

结语:首尾帧生视频模型为使用者提供更多创作自由度

文生视频和单图生视频与之相比,首尾帧生视频的可控性更强。用户能够自主地决定开头和结尾的画面,还可以借助提示词指令来对生成的内容进行描述。

这无疑提升了训练首尾帧生成视频模型的难度。一方面要达成画面从首帧到尾帧的流畅衔接,另一方面还要满足视频自身的质感与自然表现。

通义万相首尾帧生视频模型具备能够实现对图像细节进行高精度处理的能力,同时也能够生成和谐自然的动作视频,展现出了极为强大的技术优势以及创新性,在开源之后将会给图生视频领域带来更多的价值。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275536.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息