1. 首页>>分享

腾讯混元AI视频新功能上线:图生视频免费体验,画质与一致性大幅提升

就在刚刚,腾讯版Sora补齐了又一重要拼图——图生视频。

它有着熟悉的配方,如同去年 12 月发布的文生视频模型 HunyuanVideo 那样,是发布即开源的。

那么,此次上新的「图生视频」到底有多强呢?

有网友直接用它制作了一部电影:

可以看到,新功能在画质、物体一致性等方面有了很大提升。

目前该功能已在腾讯混元 AI 视频中上线,人人都能够免费体验,不过存在次数限制。

图片

话不多说,量子位一手实测走起~

实测腾讯混元「图生视频」

图生视频这项功能本身在视频 AI 领域并非新奇,这是可以确定的。然而,其难点在于能够生成效果良好的视频。

各位玩家在狂卷生成效果的时候,一些老大难问题逐渐显现出来,并且这些问题成为了检验和驱动视频 AI 进化的重要因素。

所以,要直观地展示腾讯版 Sora 的“图生视频”能力,我们就直接从这些难题开始着手。

图片

难题1:是否符合现实物理规律

大家都知道,从视频 AI 出现到现在,生成那种符合现实物理规律的视频是行业里的难题。

一不小心就各种手脚满天飞,让人直呼恐怖:

所以在这第一关,我们直接使出一个厉害的招数,那就是让腾讯混元视频 AI 去还原运动员跳水。

而且为了搞些特别的,所选取的原本的图像就带有“炸鱼”这种倾向啦。

(右侧为AI生成的原图和提示词,选取2K视频)

图片

最终效果be like:

首先,为了确保画质,我们一开始就特意挑选了“2K 视频”,且默认其为高品质。同时,我们还选择了更通用的混元图生 1.0,它是另一个专门针对人像进行优化的工具。

图片

从结果来看,整体画面较为高清。随手截一下,都有点像是体育频道的报道。

质量方面,与早期的“手脚乱飞”相比,有了显著的进步,一眼望去不存在明显的错误。

然鹅,如果要拿放大镜来看,一些细节还是经不起推敲。

运动员左手的大小比例在该瞬间存在问题,其手掌明显过宽;并且手势在变换时,抠图感较为明显,从这里可以看出该视频是由 AI 生成的。

所以,要想实现100%还原真实物理规律,大噶还得加油啊~

不过,目前生成的视频时长仅有 5 秒。但不难想象,这位小哥落水的时候,原本是准备炸鱼的。

图片

难题2:能否“无中生有”

Okk,难题继续。

我们来看这样一张原图,目的是考验视频生成 AI 的可控性,这张原图上草原上没有一只动物。

图片

输入prompt,“图中出现了一匹马”,最终结果如下:

可以看到,视频中确实出现了一匹白色骏马在草原上慢慢行走。

除此之外,我们接着搬出大家一直惦记着的一个功能来进行挑战。这个功能是在画面中生成文字,既可以是中文,也可以是英文。

个人经过多次实际测试后得知,当下暂时不能够在视频里毫无根据就生成文字。(如果大家有成功的案例,可以在评论区进行补充。)

有一种间接方法可以实现这一目标。首先在图片中生成文字,这里可以使用腾讯豆包 AI 的画图功能。然后将生成文字的图片转换成动态视频。

图片

嗯,也是给量子位打上了赛博广告(doge)~

图片

所以,在让视频产生原本没有的内容方面,除了添加文字这件事难以控制外,其他的元素已经能够很容易地掌控了。

难题3:能否准确遵循指令

接下来,图片搭配文字提示词,就可以用来考察视频生成 AI 是否能理解用户意图了。

腾讯混元视频 AI,在上传图片之后,能够利用正面的提示词(即想要的那些画面)以及反面的提示词(即不想要的那些)来设计整个画面。

图片

这里我们拿腾讯混元视频的“独家艺能”进行测试。文字生成视频的功能发布之后,他们就重点推出了在画面主角保持不变时自动切镜头的功能,当时宣称这是业界大部分模型所没有的能力。

所以,我们这次的prompt如下:

一位外国美女身着汉服,她的头发随风飘扬,背景呈现出长城的景象,接着镜头便切换到了正面特写。

图片

最终生成结果如下:

图片

镜头从侧脸切换到正脸,乍一看衔接挺自然,并且发丝始终在空中飘扬。

但是仔细抠细节的话,后来出现的黄色发夹显得有点突兀。因此,在整体的一致性方面,仍然存在需要完善的地方。

难题4:能否保证连贯一致性

当然,仅仅准确还原指令是不够的。更为重要的是,要让所有元素能够自然地展开和铺开。

也就是说,要考察图片转化为视频后,动作是否自然流畅,场景过渡是否自然流畅,有无明显的卡顿情况,有无明显的跳跃情况,有无明显的不连贯情况。

嗯,依旧上难度——镜子题材下的运动一致性考验。

充满电影氛围,有着电影打光。

图片

最终效果如下:

图片

镜子题材通常可以用于考验模型对光影的理解,同时也能检验镜子内外主体运动是否能够保持一致。

上面这个生成效果很是令人惊艳。当幽灵身披白床单“手舞足蹈”时,镜子里的动作与之极为一致,同时地上的光影变换也十分符合物理规律。

整体看起来相当丝滑~

几个测试堪称最难,到这里就告一段落了。经过实际测试,腾讯混元的“图生视频”新功能在这些最难的挑战方面有了很大的进步,不过距离 100%符合物理规律以及完全保持一致性,还有一段距离。

最后附上来自官方的写prompt小tips:

用法1:提示词 = 主体+动作 (相对简短的表述效果更优)

视频的主要表现对象需与输入图片一致,其可以是人物,如一个女孩;可以是动物,如一个熊猫;可以是植物;也可以是物品等,只需简单描述即可。

描述主体动作或状态的动作,用词应简单且清晰具体,最好带有动态感,例如:将眼镜戴在脸上(用手戴上眼镜),拿起杯子喝水(用手举起杯子喝水)。

用法2:提示词 = 主体+动作 +运镜方式

运镜方式指的是镜头的运动方式,例如有静止镜头,还有镜头平移向右以及镜头缩放等情况。

图片

网友疯狂试玩ing

与此同时,网友们的第一波鲜测也出炉了:

图片

感兴趣的童鞋可以玩起来了~

在线免费体验:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274812.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息