Google发布最先进AI视频模型Veo 2与绘图模型Imagen 3改进版，震撼效果引发热议-模具钢网

半夜OpenAI的垃圾直播没意思，就发了个性化的AI搜索。

然而，Google 在没有任何通知或营销的情况下，在 X 上悄然发布了两款重磅产品。

Veo 2是当今最先进的AI视频模型，也是AI绘图模型Imagen 3的改进版本。

我们一群人看着效果，不断惊呼“F*ck”。

我几乎从来不用爆炸这个词，但 AI 视频 Veo 2 的效果确实让我有点想欢呼，甚至有点像 2 月 16 日那个命运之夜看 Sora 的感觉。

我们一一说吧。

1.人工智能视频Veo 2

话不多说，我们先来看视频吧。

说实话，我并不想把这些视频转成gif，而是直接上传给大家看。

这种美感，这种稳定性，这种真实的质感，这种物理定律，无愧于当今最强者的称号。

真的，物理之神，尤其是切西红柿的视频，我一度真怀疑是真枪实弹，太吓人了。

而且，我环视了Prompt，发现对拍摄风格、角度、动作等的语义理解非常出色。

例如，在这段超速行驶的汽车视频中，提示说：

“低角度跟踪拍摄，18 毫米镜头。汽车漂移，留下一道光线和轮胎烟雾的痕迹，创造出视觉上引人注目的抽象构图。摄像机低跟踪，捕捉流线型橄榄绿肌肉车戏剧性的漂移。,旋转的车轮和滚滚的轮胎烟雾围绕着城市，镜头变得更加风格化，在黑色的沥青上创造出光线和色彩的条纹，城市景观——黄色的出租车、霓虹灯和行人——变成了模糊的抽象背景，体积照明增加了深度和氛围，将场景转变为运动、光线和城市能量的视觉冲击力组合。”

有很多人工智能驾驶视频，这是我见过的最好的之一。

另外，您还可以直接使用Prompt对移动物体进行超稳定的多轮材质变化。

稳定到起飞，这也是我第一次在AI视频中看到如此稳定的特效变换。

Google本身也做了人类观察者的评测，使用Meta发布的基准数据集MovieGenBench，做了1003个数据让大家盲目测试哪个更好。

最终的结果是这样的。

让我解释一下。有两个表，分为Overall Preference（总体偏好）和Prompt Adherence（提示匹配度）。

每个图表的横轴代表正在比较的不同模型，即 Meta、Keling v1.5、Minimax 和 Sora Turbo。

谷歌所做的就是在 Veo 2 和这些模型之间进行点对点盲测。真的，国产车型其实可以作为比较的标杆，心里顿时涌起一股热情。。。

每个条形由三部分组成，颜色代表结果分类：

绿色部分（Veo）：审稿人在比较中更喜欢Veo输出的比例。

白色部分（并列）：审阅者认为两者之间没有明显偏好的比率。

粉色部分（其他首选）：审阅者更喜欢另一个模型（非 Veo）的比例。

以Google DeepMind一贯的浓眉大眼的风格，基本上是不可能造假的，所以可以看出Google的Veo 2在大多数情况下都取得了最好的效果。

在谷歌的评测中，除了Veo 2之外，其他四款机型中，最强的是Keling v1.5。这个结果也颇为有趣。

而且，需要注意的一点是，Veo 2可以直接输出4K视频。

他们上传到Youtube上的视频也是原生4K，非常恐怖。

他们自己表示，目前最大的困难和限制还是在体育方面。

原话是：“创建逼真、动态或复杂的视频并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一个挑战。”

让我们来看看他们的Badcase。

它的名字叫Badcase，但我觉得他们发帖时脸上可能带着微笑，这意味着：

让我告诉你我的动作有多么强大。

虽然有缺陷，但与空这样的东西相比，动作质量却是惊人的。

Veo 2 网址在这里：

需要排队，填个表格就可以了。

按照Google的性格，排队时间肯定不会太长。它不是像OpenAI那样纯粹的猴子游戏。绝对不可能等半年。它应该很快就会上市。

OpenAI这12天的直播感觉彻底毁掉了路人的热度。谷歌之前一直被OpenAI搞得头疼不已，但这一次，它直接彻底反击了。

你喜欢狙击我，是吗？来来来，这次我把Gemini 2、Veo 2、Imagen 3一一放出来。你不喜欢成为众人瞩目的焦点吗？来来来，这次来抢，看谁抢谁，小混蛋。

老虎不发威，你还认为谷歌是病猫吗？

2.AI绘图Imagen 3

除了Veo 2之外，谷歌还直接发布了他们的改进版AI绘图Imagen 3模型。其实严格来说，它是Imagen 3-002型号，Imagen 3的第二代。

第一代 Imagen 3 于 2024 年 5 月 14 日在谷歌 I/O 开发者大会上发布。

半年后，谷歌对Imagen 3进行了重大进化，推出了改进的第二代。在他们自己的评价中，直接位居榜首。

网址在这里：

目前不需要排队，可以直接玩，而且是免费的。

直接在输入框中写Prompt即可开始播放。

他们的Prompt设计也很有趣。你可以输入一堆奇怪的Prompt，它会自动为你分解分词。有点像老罗时代的太空舱爆炸。分解一些单词后，它会变成一个下拉框，并自动关联其他几个选项。

比如我的提示是：

穿着巴斯光年服装、长着翅膀的太空游侠服的小黄人站在色彩缤纷的玩具店里，指着天空，仿佛准备起飞，背景是摆满玩具的架子，风格生动活泼，中景。

一个非常简单的提示，我们将其翻译成英文并将其扔到 Imagen 3 中。

你会发现运行后，会帮你选中一些单词，变成下拉菜单。

例如，它单独拉出机翼，然后您单击下拉按钮。

可以自动更换喷气背包、火箭助推器、踏板车等，非常有趣。

根据其联想，我们将背部装饰改为喷气背包，背景改为电子游戏室，挥手告别的姿势，又看了一眼。

这种互动真的很人性化。我非常喜欢它。

这是我跑步的更多照片。

整体来看，我有一种下限很低的感觉，而且我对提示很上瘾。如果提示写得不好，其实会出现很多难看的图片。

但语义理解确实很好。上限还没有测出来，所以可能还不错。

但不适合新手玩。

写在最后

OpenAI这段时间的直播，彻底毁了它的人气。

环顾四周，几乎所有人都在咒骂。

无论是国内还是国外。

回想今年2月16日，谷歌的Gemini1.5 Pro被OpenAI的Sora彻底沉默。现在，整个局势似乎发生了逆转。

甚至很多人都没有意识到，Sora 之前的伟大贡献者已经跳槽到了 Google DeepMind。。。

营销确实是一把双刃剑。

OpenAI 目前的状况确实是它自己造成的。

万物皆有轮回。

不要让自己冒险。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273354.html

Google发布最先进AI视频模型Veo 2与绘图模型Imagen 3改进版，震撼效果引发热议

相关推荐

联系我们