原生并行生成：LLM推理思考方式的根本转变，CMU有新框架-模具钢网

原生并行生成不仅提升了效率，更标志着我们对大型语言模型推理与思考模式的根本性革新。

众所周知，随着大语言模型的参数量持续增加，对计算能力的需求也日益攀升，但受限于传统的处理方式，推理过程必须逐个token按顺序进行。

针对这一问题，来自卡耐基梅隆大学（CMU）的Infini-Al-Lab研究团队推出了“多元宇宙”这一创新性的生成式建模框架，该框架具备原生并行生成的功能。

投身于该领域研究的机器学习领域的权威人士，卡内基梅隆大学的助理教授陈天奇指出，这无疑是一条充满希望的发展道路。

该研究的首位作者Xinyu Yang指出，Multiverse的原生并行生成技术不仅提升了效率——它更是我们对大型语言模型推理与思考方式的根本性革新。此外，令人振奋的是，在优化现有模型的基础上，他们还通过系统级的深入洞察，发现了更为优越的模型架构。

目前广泛使用的重大语言模型，例如GPT系列，普遍运用了自回归的生成策略。该策略通过逐个构建后续的token，并依赖于之前生成的全部内容，以此确保输出的文本在连贯性和逻辑性方面表现良好。然而，这种顺序生成方法存在显著的不足之处，例如，它无法有效利用现代硬件设备（如GPU）的并行处理能力，这直接导致了生成速度的降低。

与自回归生成方法不同，并行生成技术能够同步执行多个子任务，这一特性显著提升了生成过程的效率和速度。以扩散模型和一致性模型等为代表的非自回归架构，能够并行生成多个词汇，进而大幅缩短了生成所需的时间。

然而，目前通用的并行生成模型，例如扩散模型，普遍运用了强制并行的策略，却未能充分考虑生成过程中的内在逻辑联系，这往往使得生成的结果在连贯性和逻辑性上存在不足。这一现象的部分原因，是由于缺少实际训练数据来指导何时以及如何有效地实施并行生成。

这便引发了一个关键性的议题：我们应如何构建一个建模框架，它不仅能够实现1）对任务进行自适应的拆分与合并、2）确保内部状态的无损保存、3）还能普遍适应各种并行处理模式？

自回归大语言模型（AR-LLMs）目前处于主导地位，同时，在顺序生成过程中，AR-LLMs常常显现出内在的并行特性。

因此，来自卡内基梅隆大学和英伟达的研究团队着手研究，他们通过揭露这些模型序列化输出所包含的众多内在并行特性，以此为基础进行深入探索。

本研究提出了一种名为Multiverse的生成模型，该模型具备原生并行生成的功能。

随后，本研究通过整合数据、算法以及系统设计的协同作用，成功搭建了一个立足于现实世界的多元宇宙推理模型。此模型得以实现从前沿的增强现实语言模型（AR-LLMs）到转换的快速且无障碍过渡。

预算控制实验结果显示，与AR-LLMs相比，在保持相同上下文长度的条件下，Multiverse-32B的平均性能提升了1.87%，并显现出更强的扩展能力。这种扩展能力进一步促进了实际效率的提升，使得在不同批次大小设置下，速度可达到原来的两倍。

此外，作者公开发布了 Multiverse 整个生态系统，内容涵盖数据集、模型参数、运行引擎、辅助工具，并且提供了详尽的训练过程与评估方法。

长 CoT 生成：逻辑上是顺序的还是并行的？

本研究以s1K-1.1数据集为基础，对Deepseek R1以及Gemini 2.0 Flash Thinking等自回归大型语言模型进行了长文本输出（CoT）的深入剖析。

结果发现可并行分支的存在。

这些分支展现了AR-LLM的并行本质。如图2所示，它们可被细分为集体型和选择型两大类，并且能够以连续或递归的形式，展现出极大的灵活性。

更进一步地，根据表1中的统计数据：在由AR-LLM生成的长CoT轨迹里，通常可以看到并行分支现象普遍存在。

Multiverse 框架

基于上述研究成果，本研究提出了一种名为 Multiverse 的新型生成建模框架，该框架采用 MapReduce 范式进行构建。它能自适应地实现并行处理，同时无损地合并生成结果，从而在性能上超越了现有的 AR 模型。

如图4所示，此架构采纳了MapReduce的架构模式，其内部结构分为三个主要阶段：，，，。

多元宇宙中内置了MapReduce模型，并能够通过三个连续步骤自动进行构建。

（i）Map 阶段，用于自适应的任务分解；

（ii）Process 阶段，用于并行的子任务执行；

（iii）Reduce 阶段，用于无损的结果合成。

为了实现生成流的自动化管理，Multiverse 引入了一套结构化的特定控制标识，用以明确界定每一个MapReduce模块。具体可参考图5。

构建一个真实世界 Multiverse 模型

为了实现 Multiverse 在现实环境中的应用，本研究推出了一套全面的解决方案，该方案囊括了数据生成器 Multiverse Curator、核心算法 Multiverse Attention 以及优化系统 Multiverse Engine。本套件支持从先进的增强现实模型向多元宇宙模型的无缝且迅速转换。

本文研制了名为 Multiverse Curator 的工具，该工具能够实现 LLM 辅助流程的自动化。它通过五个具体步骤，将原本的顺序推理链转化为并行处理结构。

本文提出了Multiverse Attention算法，旨在实现并行生成并确保训练的高效性。这一目标是通过调整注意力掩码和位置嵌入来达成的，这样做可以在注意力计算过程中明确区分各个独立的推理路径，这些路径能够进行并行训练，与因果注意力机制有相似之处。

本文成功构建了 Multiverse Engine，该系统集成了一个专属的解析器，旨在辅助 MapReduce 的运行。该解析器能够解读由 Multiverse 模型输出的控制指令，使得 Multiverse Engine 能够在顺序执行与并行执行之间进行灵活切换，且这一过程不会带来额外的成本，确保了工作流程的灵活性。

实验

真实世界推理性能

如表二所示，本研究展示了 Multiverse-32B 模型在处理32K语境长度复杂推理任务时的表现。经过细致的调整优化，该模型在多个基准测试中均取得了显著进步，与 Qwen2.5-32B-Instruct 模型相比，分别提高了38%、35%、11%以及14%。值得注意的是，通过将 Multiverse-32B 与 Autoregressive-32B 进行对比实验，我们发现 Multiverse-32B 的性能不仅达到了，甚至超过了自回归模型。

本篇文章对Multiverse-32B-Zero的成果进行了分析，该成果版本在生成过程中并未采用并行思维指令提示技术。对比这两个版本，我们可以观察到它们在性能表现上存在显著差异：Multiverse-32B 在处理 AIME 任务时展现了更强的并行处理能力，这使其性能略有提升；相对地，Multiverse-32B-Zero 在生成较短序列的任务中展现出更出色的表现。

扩展性能

为了彰显并行生成技术的优势，本研究在 GPQA-Diamond 和 MATH500 两个平台上实施了预算限制的实验。如图 7 所示，尽管较长的上下文信息有助于提升这两个模型的性能，然而，在相同的上下文长度条件下，Multiverse-32B 生成的 Token 数量却更为庞大。这种并行扩展显著增强了GPQA-Diamond的表现，使其性能提高了2.23个百分点（采用并行数量为1.17），同时，MATH500的性能也有所提升，增幅达到1.51个百分点（采用并行数量为1.15）。

效率分析

图8a的研究结果显示，Multiverse通过显著提高并行处理能力，有效提升了生成过程的效率。

图8b的实验结果显示，当批次大小从1增至128时，生成过程依旧受到内存带宽的限制。鉴于此，Multiverse的加速性能随着并行度的提高呈现出线性上升的趋势，在各种配置中均表现出卓越的扩展能力。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/276023.html

原生并行生成：LLM推理思考方式的根本转变，CMU有新框架

相关推荐

联系我们