1. 首页>>分享

Cube 3D技术:从文本到功能性3D模型的革命性突破

Cube 3D 能够直接依据文本以及未来的图像输入来生成 3D 模型与环境。现今,最为先进的 3D 生成是借助图像和重建的方法去构建 3D 对象。若没有足够的 3D 训练数据,这会是一个较好的选择。

然而,该公司是因为 Roblox 平台的性质,所以在原生 3D 数据上进行训练。生成的对象能够与当今的游戏引擎完全兼容,并且还可以进行扩展,让对象具备功能性,这里的区别就如同跑道电影布景一样。

电视上可能会呈现出一个具备各种功能的赛马场,其中有看台,有车库,还有胜利车道。然而,倘若你在那个场景中四处走动,便会迅速察觉到这些结构实际上是平坦的。要构建一个真正能让人有身临其境之感的 3D 世界,就需要有完整的功能性结构,比如可以开车驶入的车库,能够让人坐在上面的看台,以及带有功能性领奖台的胜利车道。

为实现这一目标,Roblox从基于文本标记(或字符集)训练的先进模型中获取灵感,以便能够预测下一个标记来构成一个句子。这项创新是以相同的核心思想为基础的。Roblox具备了标记 3D 对象以及将形状理解为标记的能力,并且训练 Cube 3D 去预测下一个形状标记,从而构建完整的 3D 对象。

Roblox 将其扩展到全场景生成后,Cube 3D 会进行布局预测,并且会递归地预测形状来完成该布局。

任何人都可以依据自身的数据来进行微调,也可以开发插件,还可以训练 Cube 3D,以此来满足他们自身的需求。Roblox 觉得 AI 工具应当以开放和透明作为基础,正因如此,该公司表明它是开源 AI 社区的坚定合作伙伴。

Roblox 发布了它的其中一个 AI 安全模型。它认为分享 AI 安全的进步能够促使整个行业加快创新以及技术进步。基于这个原因,该公司还协助创建了 ROOST,这是一个新的非营利性组织,致力于运用开源安全工具来处理数字安全的重要领域。开源 Cube 3D 的目标是,能够让研究人员在全行业范围内学习 3D 生成;能够让开发者在全行业范围内增强 3D 生成;能够让更广泛的 AI 社区在全行业范围内推进 3D 生成。

用于创作的Cube 3D

图片

Roblox 之前提及了 AI 促使 3D 资产、配件以及体验创作加速的方式。该公司宣称,最终 AI 能够达成更为身临其境且个性化的游戏以及连接。

帖子提及,我们对基础设施进行投资,在创造周期的各个阶段都对 AI 予以支持,既面向这些体验的开发者,也面向在其中耗费时间的用户。我们构想了一个未来,开发者会通过在他们的体验中启用 AI,给他们的用户提供新的创造途径。这样就能将 AI 的力量交到 8500 万日常活跃用户手中,使其成为他们游戏玩法的一部分。

在过去一年中,Roblox 通过其在 Roblox Studio 中的 AI 助手推出了若干新功能,这些功能能为开发者提供创作所需的工具和功能,还能减少数小时的手动工作。借助 Cube,我们的目标是让 3D 创作更高效。通过 3D 网格生成,开发者能够快速探索新的创作方向,并且能通过快速决定是否继续前进来提升他们的生产力。

构建一个赛道游戏。如今,你能在助手中运用 Mesh Generation API,输入一个快速的指令,像“/生成摩托车”或者“/生成橙色安全锥”。在几秒钟的时间里,API 会生成这些对象的网格形式。接着它们可以借助纹理、颜色等进行充实。

这个 API 使得开发者能够更快速地为道具建模或者设计他们的空间,无需再花费数小时去为简单的对象建模。它让开发者能够把精力集中在有趣的事情上,例如设计轨道布局以及微调汽车操作。此 API 节省了创作每个对象所花费的时间,并且让开发者有时间去尝试新的想法,无需担忧会花费过多的时间或精力。Roblox 计划从长远角度启用更为复杂的对象,并且会启用功能更强大的对象,甚至包括场景。

这项技术将拓展到每天在 Roblox 上玩的数千万人以及每天与 Roblox 连接的数千万人身上。Roblox 预见到了一个未来,即开发者能够让他们的用户成为使用 AI 的创造者。当网格生成 API 被启用后,玩家就可以将他们所能想象到的任何东西变为现实。如果玩家期望拥有一辆未来的汽车,他们能够输入“带有侧翼的未来红色汽车”或者“黑色皮革材质的摩托护套”,并且能够看到其生成的样子。在这种游戏中,AI 生成将会开启一个全新的创造力层级。玩家可以用开发者从未设想过的方式来使他们的体验个性化,这会让他们的游戏更具吸引力。

引擎盖下:3D和文本/图像标记之间的交叉聚焦

关键的技术挑战在于将文本和图像与 3D 形状进行关联。核心技术的突破是 3D 标记化,此技术能让我们把 3D 对象表示成标记,如同文本可被表示为标记那样。这使得我们能够对下一个形状进行预测,就如同语言模型能预测句子中的下一个单词一样。

Roblox 设计了一个统一的架构,目的是实现 3D 生成,该架构可用于自回归生成单个对象、进行形状完成以及生成多对象/场景布局。自回归 transformers 是一种神经网络,它利用先前的输入来预测下一个组件。这种架构具备可扩展性与多模态兼容性,当 Roblox 对模型进行扩展时,它能够与多种不同类型的输入(如文本、视觉、音频以及 3D 等)协同工作。Roblox 正在将这个模型开源。在当前的初始阶段,创作者能够依据文本提示来生成 3D 对象。在未来,Roblox 计划让创作者能够基于多模态输入来生成整个场景。

Roblox 为了训练生成预训练转换器(GPT)来进行形状生成,采用了离散的 3D 形状标记,并且把这些标记与文本提示进行了对齐。这种方法很新颖,为我们踏入可玩的 3D 场景生成的世界做好了准备。

Cube发展的方向

图片

今天,世界上的很多地方都运用 AI 去处理文本,对句子中的单词进行预测。很多人也把它用在图像方面,对像素进行预测。在创建场景的时候,情况会变得更加复杂,所有这些元素会聚集到一起,并且需要在上下文中相互产生作用。比如,设想一个简单场景的体验,这个体验可以被描述为“一个骑在摩托车上的化身,站在有着树的跑道前面”。

构建这种体验需要诸多元素。树木由两个 3D 网格组合而成,摩托车是一个有着诸多细节和三角形的密集网格,建筑物是由 Roblox 部件构成的。摩托车上的化身,其身体、四肢和头部具有更为复杂的几何特征。最后,Roblox 需要一种办法,通过布局将它们组合在一起。为此,该公司需要勾勒出对象以定义其大小和位置的边界框(bounding boxes),以便知晓如何排列这种几何形状。这一过程较为艰苦,然而 AI 能够助力每一个步骤。借助 AI,创作者能够更快速地到达第一个版本,并且拥有更多时间去测试新想法或者改进他们的场景。

Roblox 达到这种程度后,希望创建的 3D 对象和场景具备齐全的功能。它将其称为 4D 创造,这里的第四个维度是对象、环境与人间的交互。要实现这一目标,不但需要具备构建沉浸式 3D 对象和场景的能力,还需要理解这些对象之间的上下文以及关系。这便是 Roblox 与 Cube 的发展方向。

Roblox 计划除了第一个网格生成用例之外,还扩展到场景生成和理解。该公司能为用户提供他们最感兴趣的体验,通过在上下文中添加对象来增强场景。比如在体验森林场景时,开发者可以让 Assistant 把树上所有郁郁葱葱的绿叶替换为秋叶,以表明季节的变化。

AI 助手工具会对开发者的请求作出反应,能帮助开发者快速地进行创建、调整以及扩展体验。Roblox 会在持续改进和扩展基础模型的同时,把更新和新功能分享出来。Cube 3D 模型将在本周的后半段推出。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275005.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息