斯坦福李飞飞团队推出首个空间智能模型，智源研究院发布See3D视频生成3D技术-模具钢网

近日，著名人工智能学者、斯坦福大学教授李飞飞的团队World Labs推出了首个“空间智能”模型，只需输入单个图像即可生成逼真的3D世界。这被认为是迈向空间智能的第一步。

_智能视频解析源码_视频识别开发软件

几乎同一时间，国内智能源研究院推出了首个3D生成模型See3D——See Video, Get 3D，该模型采用大规模无标签互联网视频学习。

与依赖相机参数（位姿条件）的传统3D生成模型不同，See3D采用了一种新的视觉条件技术，仅依赖视频中的视觉线索来生成具有可控相机方向和一致几何形状的多视图图像。

该方法不依赖于昂贵的 3D 或相机注释，并且可以从各种且易于访问的互联网视频中有效地学习 3D 先验。

See3D不仅支持零样本和开放世界的3D生成，而且无需微调即可执行3D编辑和曲面重建等任务，展示了其在各种3D创建应用中的广泛适用性。

智能视频解析源码__视频识别开发软件

See3D支持从文本、单视图和稀疏视图生成3D，还支持3D编辑和高斯渲染。

相关模型、代码、demo均开源。更多技术细节请参考See3D论文。

论文地址：

项目地址：

效果展示

1.解锁3D交互世界：输入图片，生成沉浸式交互3D场景，实时探索真实空间结构。

实时3D交互（注：为了实现实时交互渲染，目前简化了3D模型和渲染流程，离线渲染有更好的真实效果）

2、基于稀疏图片的3D重建：输入稀疏（3-6）张图片，模型可以生成精细的3D场景。

基于 6 个视图的 3D 重建

基于 3 个视图的 3D 重建

3.开放世界3D生成：根据文字提示，生成艺术画面。基于这张图片，模型可以生成虚拟的 3D 场景。

开放世界3D生成

4.基于单视图的3D生成：输入真实的场景图片，模型可以生成逼真的3D场景。

基于单个图像的 3D 生成

研究动机

3D数据具有完整的几何结构和相机信息，可以提供丰富的多视图信息，是训练3D模型最直接的选择。然而，现有方法通常依赖于设计艺术家、立体匹配或运动结构 (SfM) 等技术来收集这些数据。

尽管经过多年的发展，目前3D数据的积累规模仍然有限，例如DLV3D（0.01M）、RealEstate10K（0.08M）、MVImgNet（0.22M）和Objaverse（0.8M）。这些数据的收集过程不仅耗时、成本高昂，而且可能难以实施，难以扩大数据规模，无法满足大规模应用的需求。

与此不同的是，人类视觉系统不需要依赖于特定的3D表示，只需通过连续的多视角观察就可以建立对3D世界的理解。单帧图像很难实现这一点，但视频具有揭示 3D 结构的潜力，因为它自然包含多视图相关性和摄像机运动信息。

此外，视频源广泛可用且易于访问，使其具有高度可扩展性。基于此，See3D提出了“See Video, Get 3D”的概念，旨在利用视频中的多视角信息，让模型像人类一样学习和推理物理世界的三维结构，而不是直接对其几何形式进行建模。

方法介绍

为了实现可扩展的3D生成，See3D提供了一套系统的解决方案，包括：

1.数据集

该团队提出了一种视频数据筛选流程，自动去除源视频中多视角不一致或观察角度不足的视频，并构建了高质量、多样化、大规模的多视角图像数据集WebVi3D。该数据集涵盖 1600 万个视频剪辑中的 3.2 亿帧，并且可以通过自动化流程随着互联网视频量的增长而扩展。

WebVi3D数据集示例展示

2.型号

注释大规模视频数据的相机信息成本极高，并且在缺乏显式 3D 几何或相机注释的情况下，从视频中学习通用 3D 先验是一项更具挑战性的任务。

为了解决这个问题，See3D引入了一种新的视觉条件——通过向屏蔽视频数据添加与时间相关的噪声，生成纯2D感应视觉信号。

该视觉信号支持可扩展的多视图扩散模型（MVD）训练，避免对相机条件的依赖，实现“仅通过视觉获得3D”的目标并绕过昂贵的3D注释。

智能视频解析源码__视频识别开发软件

查看3D方法展示

3.3D生成框架

See3D学习到的3D先验可以使一系列3D创建应用成为可能，包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等，支持对象级别的复杂相机轨迹和场景级别。生成长序列视图。

_智能视频解析源码_视频识别开发软件

基于See3D的多视图生成

优点

1. 数据可扩展性

模型的训练数据来源于海量网络视频。与传统3D数据集相比，构建的多视图数据集（16M）在规模上实现了数量级的提升。随着互联网的不断发展，这个数据集将会不断扩大，进一步增强模型能力的覆盖范围。

2. 相机可控性

该模型可以支持任何复杂相机轨迹下的场景生成。不仅可以实现场景级漫游，还可以聚焦场景中的特定物体细节，提供灵活多样的视角控制能力。

3. 几何一致性

该模型可以支持生成新视角的长序列，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。即使视角轨迹发生变化，返回时场景仍保持高度真实和一致。

总结

通过扩大数据集的规模，See3D为突破3D生成的技术瓶颈提供了新的思路，学习到的3D先验为一系列3D创作应用提供了支持。

希望这项工作能够引发3D研究界对大规模无相机标注数据的关注，避免3D数据采集的高成本，并缩小与现有强大的闭源3D解决方案的差距。

参考：

本文来自微信公众号“新智元”，编辑：HYZ编辑部，36氪授权发布。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273156.html

斯坦福李飞飞团队推出首个空间智能模型，智源研究院发布See3D视频生成3D技术

相关推荐

联系我们