聪明的东西
作者程潜
编辑莫莹
视频生成的竞争越来越激烈,但细腻准确地传达人物面部表情的细节仍然是一大难点。
一般影视作品或者日常交流中,伴随人们言语的面部表情变化也是准确传达信息的关键。在视频生成中,如果想让角色的整体表现更加流畅自然,就需要更加细腻地呈现角色的动作、皮肤纹理、肌肉动作等细节。
这对人工智能来说并不容易。最近肖像生成方面的研究突破为上述问题提供了解决方案。
这就是字节跳动智造团队最近提出的X-Portrait 2单图视频驱动技术。只需一张静态图片和一段驾驶员视频,用户就可以获得高质量的电影级视频片段。
如果我同时上传《银色帝国》中演员金士杰的视频片段和AI生成的紫发外国女孩的静态图片,我可以让女孩直接复制电影片段的动作。
可以看到下图中静态图像和驾驶员视频中的人物形象有很大不同,即使人物表情变化包括大笑、张嘴等,X-Portrait 2生成的最终效果完全不受影响,只是集中在面部表情和头部动作的变化上。
//oss.zhidx.com/uploads/2024/11/672b32fd57516_672b32fd53f22_672b32fd53eff_zhidx补充2.mp4
生动丰富的表情是塑造人物性格的关键。可见,当前的人像生成技术正朝着更加精准模拟人体微表情的方向前进。
1、经典镜头秒级重现,大笑或转头时脸部不会变形。
细致的表情往往是演员传达情感的关键,现在这项工作也可以被人工智能接手。
在我开始体验这项技术时,我将初始难度设置为调用较少的感官表情,例如眨眼、大笑等。这个测试是如何让静止图像中的角色在X-的生成过程中出现。肖像2.人物准确地唤起正确的感官并准确地传达情感。
相信很多人都还记得《西游记》中紫霞仙子眨眼睛的场景。这也被认为是难以超越的眨眼形象。如果这个表情移到著名表情符号“Kin Curator”的脸上会怎么样?
可以看到,在最终生成的视频中,金馆长的眼睛放大了,从抿嘴到眨眼,面部完全没有变形,直接复制了这一经典场景。
//oss.zhidx.com/uploads/2024/11/672b26052c241_672b2605286e7_672b2605286c1_单表达金紫霞Curator.mp4
如果把金导经典的笑表情放到别人脸上又如何呢?我用豆袋生成了一个具有明显科幻属性的人物图像,然后上传了金馆长从笑到说话的视频片段。
静态图中的角色不仅模仿了金导演笑的表情,还传达了他笑时脸上的皱纹和头部轻微的上下运动。
//oss.zhidx.com/uploads/2024/11/672b28e71b0de_672b28e715852_672b28e715826_单表情金馆长少女-1.mp4
测试完单个表情后,我们再来看看高级难度。
该关卡原视频中的人物说话时情绪会发生变化。例如,在下一个视频中,将会出现张译表演的幕后片段,从刚开始说话到转身大笑。
然后我上传了一张美国著名演员本·阿弗莱克的剧照,在生成的视频中,本·阿弗莱克和张译笑起来的嘴角一模一样。而且从侧面转向正面时的动作也非常流畅。
//oss.zhidx.com/uploads/2024/11/672b25ffe84d5_672b25ffe48ac_672b25ffe4888_表达式修改张毅.mp4
2.阿凡达和灭霸在梦中连在一起,人人都可以做出迪士尼公主表情
除了让图片按照你想要的风格移动之外,X-Portrait 2还可以将相同的表情直接转移到各种风格的角色上。
基于此,我直接打造了经典科幻电影《阿凡达》中的阿凡达与漫威系列中的灭霸之间的梦幻合作。
我上传了电影中女主角奈蒂莉与他人激烈争吵的视频,以及灭霸的剧照。视频中,奈蒂莉倒退时表情悲伤。
灭霸也表现出了同样的深情,额头上的皱纹也会随着情绪的变化而逐渐加深。
//oss.zhidx.com/uploads/2024/11/672b28b2d306e_672b28b2cf22e_672b28b2cf1f4_科幻电影阿凡达-1.mp4
动画电影中迪士尼公主的表情和动作已经自成体系,让人一看到就仿佛置身于“迪士尼宇宙”。与此同时,网络上的一些博主也开始了模仿迪士尼公主的挑战。他们的表情栩栩如生。现在X-Portrait 2可以让任何人快速掌握这项技能。
这里我选择上传一张AI生成的动画人物图片和一段博主在短视频平台上传的恶搞视频。可以看到原视频中博主的眼睛、嘴巴以及整个表情都非常夸张,X-Portrait 2在这个难度级别的生成效果并没有被颠覆。
//oss.zhidx.com/uploads/2024/11/672b27fc95f83_672b27fc8fdf6_672b27fc8fdcb_真人-动漫女孩2-1.mp4
我还上传了其他博主的模仿视频,效果是原本只是静态图片的公主直接置身于童话世界中,表情非常可爱,栩栩如生,充满了好奇和幸福。
//oss.zhidx.com/uploads/2024/11/672b286583be4_672b28657ab19_672b28657aae9_真人动漫女孩1-1.mp4
现在很多动画电影都会被改编成真人电影,但是这样的电影在演员选择、剧情改编、演员表演等方面都会让原著动画读者感到不安,因为很多情节是真实演员很难表演的,而一些表情和动作的剧情甚至都会进行改编。
现在基于X-Portrait 2,您可以直接“复制”动漫角色的表情并将其“粘贴”到其他角色上。我上传了《美女与野兽》中“野兽”的视频。视频中,“野兽”有着类似人类的面部特征,并伴有咆哮的动作。
这个表演被准确地复制到了我用AI生成的图片中。 X-Portrait 2 的表情识别没有受到干扰。眼睛和嘴巴的动作变化流畅,复制了“野兽”的愤怒情绪。
//oss.zhidx.com/uploads/2024/11/672b2b8c8a3e6_672b2b8c8444b_672b2b8c8442a_美女与野兽.mp4
可以看出,X-Portrait 2在表情生成方面的真实效果可以体现在眼睛和嘴巴的动作、表情切换、动作协同等多个方面,让静态图像的表情生成能够与其他动作配合。 。
3、表情编码器模型+生成扩散模型,实现表情“再现”效果的转变
上述人像产生的令人惊叹的效果均由 X-Portrait 2 制作。
今年3月,字节跳动推出第一代人像动画模型X-Portrait,可用于生成富有表现力且时间连贯的人像动画。 X-Portrait 2是这种肖像动画模型的迭代版本,可以忠实地表现快速的头部运动、微妙的表情变化和强烈的个人情感。
为了让最终生成视频的表情更加流畅、真实,X-Portrait 2结合了表情编码器模型和生成扩散模型,可以捕捉到驾驶视频中演员的细微表情,甚至撅嘴、吐舌头外出等需要调动多个面部器官的表情也能准确传达。
该表情编码器模型基于大数据集进行训练,并对输入中的每一个微小表情进行隐式编码,以实现准确的表情通信。
对于驾驶员视频,该编码器还可以实现人物外观和面部表情的强分离,使其更关注视频中与表情相关的信息,从而实现面部表情的精确传递。
通过为模型设计过滤层,编码器可以有效过滤运动表示中与ID相关的信号,这样即使ID图片和驾驶视频中的图像和风格有很大不同,模型仍然可以实现跨ID以及跨风格的动作转移,涵盖写实肖像和卡通形象。
目前,除了 X-Portrait 2 之外,视频生成初创公司 Runyway 上个月也推出了类似的功能 Act-One,该功能允许用户自己录制视频,然后将其传输到 AI 生成的角色。
相比之下,《X-Portrait 2》能够更准确地传达人物头部的动作、笑容表情的变化以及个人的情绪表达;第一幕生成的最终视频也可以传达表情,但要在角色情绪和快速头部运动的背景下进行。该动作可能无法准确“再现”。
从下面的对比视频中可以看出,原始视频中的角色非常悲伤,说话时头部微微转动,但基于 X-Portrait 和 Act-One 生成的视频并没有反映出这一点。 X-Portrait视频中再现了人物头部的摆动幅度,但两个视频中人物的表情都微微微笑,与原视频的情绪完全不同。
//oss.zhidx.com/uploads/2024/11/672c619f9fcdb_672c619f9ac09_672c619f9a625_1196_0-300_comp.mp4
面部细节的还原、头部动作和姿势的协调等是准确生成表情的关键,这也是X-Portrait 2目前的优势。
结论:让视频生成突破面部表情细节问题
在视频生成的众多方面中,表情生成是一个非常具有挑战性的部分,因为与整体角色动作的生成相比,细致入微的表情的生成要困难得多。面部肌肉的细微变化可能会传达出完全不同的表情。不同的情绪。
尽管这项技术还处于学术研究阶段,但字节跳动在这方面的积极探索具有深远意义。通过不断优化算法和模型结构,X-Portrait 2展现了捕捉和再现人类表情细微变化的能力。能力。这一进步将进一步扩大视频生成的应用边界。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/270867.html