仅需一张图和一段视频，字节跳动 X-Portrait 2 技术让视频生成更自然流畅-模具钢网

字节跳动的表情包__字节跳动表情图片

聪明的东西

作者程潜

编辑莫莹

视频生成的竞争越来越激烈，但细腻准确地传达人物面部表情的细节仍然是一大难点。

一般影视作品或者日常交流中，伴随人们言语的面部表情变化也是准确传达信息的关键。在视频生成中，如果想让角色的整体表现更加流畅自然，就需要更加细腻地呈现角色的动作、皮肤纹理、肌肉动作等细节。

这对人工智能来说并不容易。最近肖像生成方面的研究突破为上述问题提供了解决方案。

这就是字节跳动智造团队最近提出的X-Portrait 2单图视频驱动技术。只需一张静态图片和一段驾驶员视频，用户就可以获得高质量的电影级视频片段。

如果我同时上传《银色帝国》中演员金士杰的视频片段和AI生成的紫发外国女孩的静态图片，我可以让女孩直接复制电影片段的动作。

可以看到下图中静态图像和驾驶员视频中的人物形象有很大不同，即使人物表情变化包括大笑、张嘴等，X-Portrait 2生成的最终效果完全不受影响，只是集中在面部表情和头部动作的变化上。

//oss.zhidx.com/uploads/2024/11/672b32fd57516_672b32fd53f22_672b32fd53eff_zhidx补充2.mp4

生动丰富的表情是塑造人物性格的关键。可见，当前的人像生成技术正朝着更加精准模拟人体微表情的方向前进。

1、经典镜头秒级重现，大笑或转头时脸部不会变形。

细致的表情往往是演员传达情感的关键，现在这项工作也可以被人工智能接手。

在我开始体验这项技术时，我将初始难度设置为调用较少的感官表情，例如眨眼、大笑等。这个测试是如何让静止图像中的角色在X-的生成过程中出现。肖像2.人物准确地唤起正确的感官并准确地传达情感。

相信很多人都还记得《西游记》中紫霞仙子眨眼睛的场景。这也被认为是难以超越的眨眼形象。如果这个表情移到著名表情符号“Kin Curator”的脸上会怎么样？

可以看到，在最终生成的视频中，金馆长的眼睛放大了，从抿嘴到眨眼，面部完全没有变形，直接复制了这一经典场景。

//oss.zhidx.com/uploads/2024/11/672b26052c241_672b2605286e7_672b2605286c1_单表达金紫霞Curator.mp4

如果把金导经典的笑表情放到别人脸上又如何呢？我用豆袋生成了一个具有明显科幻属性的人物图像，然后上传了金馆长从笑到说话的视频片段。

静态图中的角色不仅模仿了金导演笑的表情，还传达了他笑时脸上的皱纹和头部轻微的上下运动。

//oss.zhidx.com/uploads/2024/11/672b28e71b0de_672b28e715852_672b28e715826_单表情金馆长少女-1.mp4

测试完单个表情后，我们再来看看高级难度。

该关卡原视频中的人物说话时情绪会发生变化。例如，在下一个视频中，将会出现张译表演的幕后片段，从刚开始说话到转身大笑。

然后我上传了一张美国著名演员本·阿弗莱克的剧照，在生成的视频中，本·阿弗莱克和张译笑起来的嘴角一模一样。而且从侧面转向正面时的动作也非常流畅。

//oss.zhidx.com/uploads/2024/11/672b25ffe84d5_672b25ffe48ac_672b25ffe4888_表达式修改张毅.mp4

2.阿凡达和灭霸在梦中连在一起，人人都可以做出迪士尼公主表情

除了让图片按照你想要的风格移动之外，X-Portrait 2还可以将相同的表情直接转移到各种风格的角色上。

基于此，我直接打造了经典科幻电影《阿凡达》中的阿凡达与漫威系列中的灭霸之间的梦幻合作。

我上传了电影中女主角奈蒂莉与他人激烈争吵的视频，以及灭霸的剧照。视频中，奈蒂莉倒退时表情悲伤。

灭霸也表现出了同样的深情，额头上的皱纹也会随着情绪的变化而逐渐加深。

//oss.zhidx.com/uploads/2024/11/672b28b2d306e_672b28b2cf22e_672b28b2cf1f4_科幻电影阿凡达-1.mp4

动画电影中迪士尼公主的表情和动作已经自成体系，让人一看到就仿佛置身于“迪士尼宇宙”。与此同时，网络上的一些博主也开始了模仿迪士尼公主的挑战。他们的表情栩栩如生。现在X-Portrait 2可以让任何人快速掌握这项技能。

这里我选择上传一张AI生成的动画人物图片和一段博主在短视频平台上传的恶搞视频。可以看到原视频中博主的眼睛、嘴巴以及整个表情都非常夸张，X-Portrait 2在这个难度级别的生成效果并没有被颠覆。

//oss.zhidx.com/uploads/2024/11/672b27fc95f83_672b27fc8fdf6_672b27fc8fdcb_真人-动漫女孩2-1.mp4

我还上传了其他博主的模仿视频，效果是原本只是静态图片的公主直接置身于童话世界中，表情非常可爱，栩栩如生，充满了好奇和幸福。

//oss.zhidx.com/uploads/2024/11/672b286583be4_672b28657ab19_672b28657aae9_真人动漫女孩1-1.mp4

现在很多动画电影都会被改编成真人电影，但是这样的电影在演员选择、剧情改编、演员表演等方面都会让原著动画读者感到不安，因为很多情节是真实演员很难表演的，而一些表情和动作的剧情甚至都会进行改编。

现在基于X-Portrait 2，您可以直接“复制”动漫角色的表情并将其“粘贴”到其他角色上。我上传了《美女与野兽》中“野兽”的视频。视频中，“野兽”有着类似人类的面部特征，并伴有咆哮的动作。

这个表演被准确地复制到了我用AI生成的图片中。 X-Portrait 2 的表情识别没有受到干扰。眼睛和嘴巴的动作变化流畅，复制了“野兽”的愤怒情绪。

//oss.zhidx.com/uploads/2024/11/672b2b8c8a3e6_672b2b8c8444b_672b2b8c8442a_美女与野兽.mp4

可以看出，X-Portrait 2在表情生成方面的真实效果可以体现在眼睛和嘴巴的动作、表情切换、动作协同等多个方面，让静态图像的表情生成能够与其他动作配合。。

3、表情编码器模型+生成扩散模型，实现表情“再现”效果的转变

上述人像产生的令人惊叹的效果均由 X-Portrait 2 制作。

今年3月，字节跳动推出第一代人像动画模型X-Portrait，可用于生成富有表现力且时间连贯的人像动画。 X-Portrait 2是这种肖像动画模型的迭代版本，可以忠实地表现快速的头部运动、微妙的表情变化和强烈的个人情感。

为了让最终生成视频的表情更加流畅、真实，X-Portrait 2结合了表情编码器模型和生成扩散模型，可以捕捉到驾驶视频中演员的细微表情，甚至撅嘴、吐舌头外出等需要调动多个面部器官的表情也能准确传达。

该表情编码器模型基于大数据集进行训练，并对输入中的每一个微小表情进行隐式编码，以实现准确的表情通信。

对于驾驶员视频，该编码器还可以实现人物外观和面部表情的强分离，使其更关注视频中与表情相关的信息，从而实现面部表情的精确传递。

通过为模型设计过滤层，编码器可以有效过滤运动表示中与ID相关的信号，这样即使ID图片和驾驶视频中的图像和风格有很大不同，模型仍然可以实现跨ID以及跨风格的动作转移，涵盖写实肖像和卡通形象。

目前，除了 X-Portrait 2 之外，视频生成初创公司 Runyway 上个月也推出了类似的功能 Act-One，该功能允许用户自己录制视频，然后将其传输到 AI 生成的角色。

相比之下，《X-Portrait 2》能够更准确地传达人物头部的动作、笑容表情的变化以及个人的情绪表达；第一幕生成的最终视频也可以传达表情，但要在角色情绪和快速头部运动的背景下进行。该动作可能无法准确“再现”。

从下面的对比视频中可以看出，原始视频中的角色非常悲伤，说话时头部微微转动，但基于 X-Portrait 和 Act-One 生成的视频并没有反映出这一点。 X-Portrait视频中再现了人物头部的摆动幅度，但两个视频中人物的表情都微微微笑，与原视频的情绪完全不同。

//oss.zhidx.com/uploads/2024/11/672c619f9fcdb_672c619f9ac09_672c619f9a625_1196_0-300_comp.mp4

面部细节的还原、头部动作和姿势的协调等是准确生成表情的关键，这也是X-Portrait 2目前的优势。

结论：让视频生成突破面部表情细节问题

在视频生成的众多方面中，表情生成是一个非常具有挑战性的部分，因为与整体角色动作的生成相比，细致入微的表情的生成要困难得多。面部肌肉的细微变化可能会传达出完全不同的表情。不同的情绪。

尽管这项技术还处于学术研究阶段，但字节跳动在这方面的积极探索具有深远意义。通过不断优化算法和模型结构，X-Portrait 2展现了捕捉和再现人类表情细微变化的能力。能力。这一进步将进一步扩大视频生成的应用边界。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/270867.html

仅需一张图和一段视频，字节跳动 X-Portrait 2 技术让视频生成更自然流畅

相关推荐

联系我们