人物跑动有着真实的物理轨迹,火焰燃烧也有真实的物理轨迹。机械蝴蝶能穿梭在未来都市,这是奇幻场景。AI 既能精准模拟现实世界的运动规律,又能将抽象文字转化为惊艳的动态画面。
APPSO 第一时间来到发布会现场,本次的更新亮点包括:
1.
可灵、可图模型进行了层面更新,快手运用多项自研技术进行创新,使得画面美学、语义响应以及动态质量都有了大幅度的提升。2.0 对训练和推理策略进行了全面升级,尤其在强化对于复杂运动主体交互滤镜、构图术语等专业方面的表达和理解响应上有突出表现。
2.
新增“多模态编辑”功能,此功能具有精准微调的能力,能够在一段 5 秒的视频基础上,输入图片或文字,对视频进行灵活且精准的修改与再创作。同时新增了“图片编辑”及“风格转绘”功能。
3.
AI 进行音效生成,它会依据影像内容并且结合文字 prompt,从而生成与之适配的音效片段。
我们提前进行了内测。在体验过程中,我们不仅被新模型的强大所震撼,还发现了一些使用小技巧,这些小技巧能够帮助你体验这款强大的生成+编辑工具。
不止是多模态功能,更是一种语言
仅用文字与 AI 沟通是不够的,它只能有限地描述脑海中的想法。使用图片能使准确程度提高一些。结合动态影像,准确程度会更高。
这些共同形成了 MVL,也就是 Multi-modal Visual Language,它是一种全新的交互“语言”。MVL 由 TXT 语义骨架和 MMW 多模态描述子组成,通过文本加上动作描述文件,能够生成精细的视频成片。
这套语言构成了可灵 2.0 新增的“多模态编辑”功能,该功能包含三种模式,分别是替换、增加和删除。
在可灵的创意社区里,我们发现了一个视频,这个视频是可灵用户制作的,并且堪称现实主义创作。
不过呢,既然是现实主义题材,那就还可以更加写实一些。可以让川普去工厂里装手机,也可以让马斯克去工厂里装手机。
这是“多模态编辑”可以大显身手的时候了。首先,我们把缝纫机删除掉。接着,通过下方的文字输入框,@具体的图片和部分,以便更清楚地明确需要改动的内容。
at 的设计符合用户的直觉。在有多个素材的情形下,它能够更便捷地通过文字来明确指出需要改动的对象。
注意!点击编辑后,会弹出笔刷编辑界面。在这个界面中,可以通过涂抹的方式,选择要替换的具体区域。并且一定要在时间线上选几个点,这样才能保证覆盖到整个视频。
可以看到,单个元素在涂抹以及文字 prompt 的双重作用下,能够被删得干干净净。
替换模式就有更多可玩的了,除了修改原视频,还可以结合图片。
是要让这两人去装手机吗?先将手机流水线的图片导入进来,接着进入选择主题的界面,然后框出具体的部分。
大功告成!
在可灵 2.0 版本里,“多模态”不只是一个新出现的功能。它更是一种全新的互动语言,能够更充分地对模型的能力进行开发和调用,从而作用于实际的创作工作流。
从生成到编辑,全链路的创作工作流
如果说“多模态编辑”满足的是影像从业者在精细调优方面的需求,那么可图 2.0 以及可灵的图生视频模式,是能够造福所有人民群众的。
图生视频的使用比例达到 85%,它是更为可用的一种手段。并且搭配上视频模态微调,就能够一次性跑完所有的流程。
比如,先拿胶布人形象图,生成当下最流行的 3D 玩偶版本。
然后直接生成视频——没错,手指和动作,只是一句话即可生成。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275486.html