腾讯混元AI视频新功能上线：图生视频免费体验，画质与一致性大幅提升-模具钢网

就在刚刚，腾讯版Sora补齐了又一重要拼图——图生视频。

它有着熟悉的配方，如同去年 12 月发布的文生视频模型 HunyuanVideo 那样，是发布即开源的。

那么，此次上新的「图生视频」到底有多强呢？

有网友直接用它制作了一部电影：

可以看到，新功能在画质、物体一致性等方面有了很大提升。

目前该功能已在腾讯混元 AI 视频中上线，人人都能够免费体验，不过存在次数限制。

话不多说，量子位一手实测走起~

实测腾讯混元「图生视频」

图生视频这项功能本身在视频 AI 领域并非新奇，这是可以确定的。然而，其难点在于能够生成效果良好的视频。

各位玩家在狂卷生成效果的时候，一些老大难问题逐渐显现出来，并且这些问题成为了检验和驱动视频 AI 进化的重要因素。

所以，要直观地展示腾讯版 Sora 的“图生视频”能力，我们就直接从这些难题开始着手。

难题1：是否符合现实物理规律

大家都知道，从视频 AI 出现到现在，生成那种符合现实物理规律的视频是行业里的难题。

一不小心就各种手脚满天飞，让人直呼恐怖：

所以在这第一关，我们直接使出一个厉害的招数，那就是让腾讯混元视频 AI 去还原运动员跳水。

而且为了搞些特别的，所选取的原本的图像就带有“炸鱼”这种倾向啦。

（右侧为AI生成的原图和提示词，选取2K视频）

最终效果be like：

首先，为了确保画质，我们一开始就特意挑选了“2K 视频”，且默认其为高品质。同时，我们还选择了更通用的混元图生 1.0，它是另一个专门针对人像进行优化的工具。

从结果来看，整体画面较为高清。随手截一下，都有点像是体育频道的报道。

质量方面，与早期的“手脚乱飞”相比，有了显著的进步，一眼望去不存在明显的错误。

然鹅，如果要拿放大镜来看，一些细节还是经不起推敲。

运动员左手的大小比例在该瞬间存在问题，其手掌明显过宽；并且手势在变换时，抠图感较为明显，从这里可以看出该视频是由 AI 生成的。

所以，要想实现100%还原真实物理规律，大噶还得加油啊~

不过，目前生成的视频时长仅有 5 秒。但不难想象，这位小哥落水的时候，原本是准备炸鱼的。

难题2：能否“无中生有”

Okk，难题继续。

我们来看这样一张原图，目的是考验视频生成 AI 的可控性，这张原图上草原上没有一只动物。

输入prompt，“图中出现了一匹马”，最终结果如下：

可以看到，视频中确实出现了一匹白色骏马在草原上慢慢行走。

除此之外，我们接着搬出大家一直惦记着的一个功能来进行挑战。这个功能是在画面中生成文字，既可以是中文，也可以是英文。

个人经过多次实际测试后得知，当下暂时不能够在视频里毫无根据就生成文字。（如果大家有成功的案例，可以在评论区进行补充。）

有一种间接方法可以实现这一目标。首先在图片中生成文字，这里可以使用腾讯豆包 AI 的画图功能。然后将生成文字的图片转换成动态视频。

嗯，也是给量子位打上了赛博广告（doge）~

所以，在让视频产生原本没有的内容方面，除了添加文字这件事难以控制外，其他的元素已经能够很容易地掌控了。

难题3：能否准确遵循指令

接下来，图片搭配文字提示词，就可以用来考察视频生成 AI 是否能理解用户意图了。

腾讯混元视频 AI，在上传图片之后，能够利用正面的提示词（即想要的那些画面）以及反面的提示词（即不想要的那些）来设计整个画面。

这里我们拿腾讯混元视频的“独家艺能”进行测试。文字生成视频的功能发布之后，他们就重点推出了在画面主角保持不变时自动切镜头的功能，当时宣称这是业界大部分模型所没有的能力。

所以，我们这次的prompt如下：

一位外国美女身着汉服，她的头发随风飘扬，背景呈现出长城的景象，接着镜头便切换到了正面特写。

最终生成结果如下：

镜头从侧脸切换到正脸，乍一看衔接挺自然，并且发丝始终在空中飘扬。

但是仔细抠细节的话，后来出现的黄色发夹显得有点突兀。因此，在整体的一致性方面，仍然存在需要完善的地方。

难题4：能否保证连贯一致性

当然，仅仅准确还原指令是不够的。更为重要的是，要让所有元素能够自然地展开和铺开。

也就是说，要考察图片转化为视频后，动作是否自然流畅，场景过渡是否自然流畅，有无明显的卡顿情况，有无明显的跳跃情况，有无明显的不连贯情况。

嗯，依旧上难度——镜子题材下的运动一致性考验。

充满电影氛围，有着电影打光。

最终效果如下：

镜子题材通常可以用于考验模型对光影的理解，同时也能检验镜子内外主体运动是否能够保持一致。

上面这个生成效果很是令人惊艳。当幽灵身披白床单“手舞足蹈”时，镜子里的动作与之极为一致，同时地上的光影变换也十分符合物理规律。

整体看起来相当丝滑~

几个测试堪称最难，到这里就告一段落了。经过实际测试，腾讯混元的“图生视频”新功能在这些最难的挑战方面有了很大的进步，不过距离 100%符合物理规律以及完全保持一致性，还有一段距离。

最后附上来自官方的写prompt小tips：

用法1：提示词 = 主体+动作（相对简短的表述效果更优）

视频的主要表现对象需与输入图片一致，其可以是人物，如一个女孩；可以是动物，如一个熊猫；可以是植物；也可以是物品等，只需简单描述即可。

描述主体动作或状态的动作，用词应简单且清晰具体，最好带有动态感，例如：将眼镜戴在脸上（用手戴上眼镜），拿起杯子喝水（用手举起杯子喝水）。

用法2：提示词 = 主体+动作 +运镜方式

运镜方式指的是镜头的运动方式，例如有静止镜头，还有镜头平移向右以及镜头缩放等情况。

网友疯狂试玩ing

与此同时，网友们的第一波鲜测也出炉了：

感兴趣的童鞋可以玩起来了~

在线免费体验：

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274812.html

腾讯混元AI视频新功能上线：图生视频免费体验，画质与一致性大幅提升

相关推荐

联系我们