在OpenAI大会还在“产品雕刻”的同时,谷歌继续努力更新基础模型。半个月前是基础的3D场景生成模型,一周前是秒杀所有人的Gemini 2,今天是视频生成模型。
北京时间12月17日,谷歌发布了Veo2,这是其Vincent视频模型Veo的下一个版本。此次升级是在今年 5 月 Google 在 I/O 大会上首次发布 Veo 七个月后进行的。
不过,Veo 才在十几天前的 12 月 3 日在 Axtrix 上上线。在此之前,用户只能使用 VideoFX 中的实验工具小规模试用这款视频生成软件。
该版本主要带来了三大核心升级。首先是真实感和保真度大大提高。支持输出4K分辨率的8s视频,在细节、真实性、伪影减少等方面都有巨大的提升。
其次,由于 Veo 对物理学的理解以及遵循详细指令的能力,它能够高精度地捕捉运动。这也正是空这几天反复翻车的点。
第三,Veo 2还提供了更多的摄像头控制选项,你可以输入诸如“摄像头慢慢推进到她的脸”、“追赶车辆过程中摄像头稳定下来”、“极近特写镜头”等来来去去的描述您需要的镜头模式。
当然,从目前谷歌提供的例子来看,Veo 2对物理世界的理解确实达到了相当的水平,尤其是人类甚至昆虫的运动表现。这些动作在与世界互动时具有强烈的自然感。例如,这只火烈鸟用喙捕猎。它所激起的水花并不像空两天前所展示的火山喷发那么夸张。
在实际测试中,Veo也达到了SOTA水平。谷歌选择了包括Sora在内的其他顶级模型,并在Meta发布的基准数据集MovieGenBench上比较了1003个提示及其对应的视频。
从整体表现来看,Veo占优的情况接近或超过50%,Veo不处于劣势的情况可以达到70%左右。
有趣的是,在 Google 测试的所有机型中,Sora Turbo 的表现实际上是最差的,而表现最好的是 Keling 1.5。
在指令合规性方面,Veo 的性能也达到了 SOTA,其他模型与整体性能排名相差不大。
谷歌在报告中承认其模式也存在缺陷。在复杂的场景或复杂的动作中保持完全的一致性仍然是牢不可破的。他们自己举的例子中,人物依然凭空出现。在锻炼过程中,人们仍然可能会经历不自然的“人工智能扭曲”。
在推特上,已经有网友进行了测试。说明Veo2的镜头控制和移动能力是真实的。在提示为“一个人坐在咖啡馆喝咖啡的视频。过了一会儿,镜头切换到另一个视角,显示邻桌的人给他们写信”。 Veo 2 工作得很好。完成导演叙事的镜头切换和写作动作也非常自然。
当给Sora同样的提示词时,它首先无法切换摄像机。它并没有跟随提示词中相对而坐的两个人,画面中也只有一个人。而且书写动作有点像挂毛笔。
然后我们测试了其他顶级型号。例如,海螺无法实现镜头切换,但它使用变焦来实现部分镜头切换的逻辑。空格与两个字符的关系也符合提示词。
浑源的影视气息立刻就满了,剪辑完成了。但视频中两人的关系并不那么明确。
柯灵确实是表现最好的一个,两人的关系把握得很好。除了美观和细节方面不如Veo 2外,其他部分近乎完美。
在另一个测试中,使用相同的提示词
这是 Veo 2 的结果
这就是索拉的结果
即使Veo2的输出有缺陷,Sora的迟缓、空旷的场景也已经损失太多了。
至于其他模型,科灵输出的场景不错,但弄臣的现实从空间关系上看是很刻意的、不可能的,里面有很多残影。
而海螺则在提示词遵从性上仅次于Veo2,但不符合“镜头从女王背后拍摄”的点。但细节还原比Veo2差很多。
看了这么久,说Sora是Google评测中最差的也不是没有道理的。
2025年还没开始,OpenAI的桂冠看上去就有些不稳定了。难怪连微软CEO在最近接受采访时都表示“没有OpenAI,我们也能开发出最一流的模型”。
看来这场AI大战,还是有不错的逆转的。
然而,谷歌这次仍然没有纠正自己的问题。 Veo2 仍处于内测阶段,只能在 VideoFX 上排队申请。我希望它能在25年内提高其总量和新品推出的速度。把煎饼大师的位置让给了OpenAI。毕竟,Sora 花了 9 个月才发布,这与过去的 Google 相当。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273363.html