李飞飞团队16张H100训练26分钟超越o1-preview，DeepSeek-R1引领AI推理新时代-模具钢网

Li Feifei的团队在16 h100时只花了26分钟的培训，而训练有素的模型超过了O1-preview，并震惊了该行业。

可以说，DeepSeek-R1已将全球AI模型带入了推理的新时代。

即使使用其培训方法GRPO，AI开源行业也开始了一场竞争：看看谁可以以最低的成本重现AI的“ Ahha时刻”。

刚才，DeepSeek-R1的推理成本被完全消除了！

开源项目Unsploth AI带来了好消息。您可以在没有云服务的情况下在本地体验“啊哈”。时刻：

DeepSeek-R1的推理现在可以在本地设备上复制！只需使用7GB的VRAM，您就可以体验“啊哈”的时刻。不足以将GRPO培训所需的内存降低80％。 15GB的VRAM可以将Llama-3.1（8b）和Phi-4（14b）转化为推理模型。

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星__DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

正确阅读：只有7GB VRAM GPU可以在本地体验“ aha时刻”。

AI的“ AHA时刻”是什么？它的功能是什么？

任何熟悉人工智能的人都知道，对于人类而言，这很简单，对于人工智能来说可能很困难。例如：

哪一个大于9.11和9.9？

但是，在经历了“ aha”时刻之后，AI模型PHI-4可以完成此类问题：从没有推理能力的模型中，它转变为与DeepSeek-R1相同的推理模型，而原始思维链和原始思维链和显示推理过程的种类。呢

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星__DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

原始链接：

简而言之，如果您现在有输入和输出数据（例如问题和答案），但是如果没有COT或推理过程，则可以见证Grpo-创建的奇迹

它可以为您创建推理过程，甚至可以做更多！

现在，这种方法在AI社区中变得很流行，讨论越来越大。

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星__DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

不舒服启动推理功能

DeepSeek的R1研究揭示了“啊哈”的时刻。通过小组相对策略优化（GRPO），R1-Zero自动学习如何在没有人类反馈的情况下分配更多的思维时间。

Unsploth增强了整个GRPO过程，与拥抱的脸部+FA2相比，VRAM使用率下降了80％。

这意味着只能使用QWEN2.5（1.5B）来重现R1-Zero的“ AHA”力矩的“ AHA”力矩。

_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

项目链接：

对于包含其他模型的GRPO，请参见以下文档。

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星__DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

文档链接：

这次，不舒服的更新主要增强了GRPO对DeepSeek-R1-Zero增强学习训练方法的支持，从而减少了内存使用情况。

主要亮点如下：

15GB VRAM：使用Unsploth，您可以将最多15b参数的任何模型（例如Llama 3.1（8b），Phi-4（14b），Mistral（7b）或Qwen2.5（7b）转换为推理模型。

最低限度仅为7GB VRAM，足以在本地训练自己的推理模型。

Tiny-Zero团队曾经表明，使用QWEN2.5（1.5B）可以实现“ AHA”矩，但需要2个A100 GPU（160GB VRAM）。而现在，只需使用7GB VRAM GPU就可以实现相同的效果。

以前，GRPO仅支持完整的微调，但是现在它可以与Qlora和Lora一起使用。

请注意，这不是对DeepSeek-R1蒸馏模型的微调，也不是使用R1蒸馏数据进行调整（Unsploth已经支持）。实际上，该项目使用GRPO将标准模型转换为“全血”推理模型。

GRPO的应用方案：具有奖励机制的定制推理模型，例如法律和医学；需要显示推理链或思考过程的其他情况。

Grpo带来的“啊哈”时刻

在使用纯强化学习（RL）训练R1-Zero时，DeepSeek观察到了神奇的“ AHA时刻” -

没有任何人类的指导或预定义的说明，该模型实际上开始重新评估其初始方法并学会了延长思维时间。

即使您仅使用GRPO在100个步骤中使用GRPO训练PHI-4，结果也很清楚：没有GRPO的模型没有思想的象征性，并且经过GRPO培训的模型具有思想的象征性，正确的答案是获得！

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_

纸链接：

这个“ AHHA时刻”表明，GRPO不仅有助于模型提高其推理能力，而且还允许模型在没有外部提示的情况下学习反思和调整，从而提高了解决问题的质量。

回到一个问题“哪个更大，9.11或9.9？”，在GRPO培训之前，PHI-4介绍了如何从左到右比较小数

经过GRPO培训后，PHI-4可以正确分析和回答这个问题，而推理过程是明确而严格的 -

在推理过程的第二步中，基于TENS的比较，获得了正确的答案。在第三步中，仍比较了9.11和9.90的百分位数，但是这次AI模型发现比较百分位数不影响步骤2中获得的结果。

_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

PHI-4在GRPO培训之前和之后进行了比较，提示是：“哪个更大？9.11或9.9？”

这是Grpo的“魔力”。

GRPO是一种增强学习（RL）算法。与近端策略优化（PPO）不同，它不依赖价值功能，并且可以更有效地优化模型答案的质量。

在项目的笔记本中，使用GRPO培训模型可以独立发展自我验证和搜索功能，从而创建一个迷你“ aha mist”。

GRPO的一般过程如下：

1该模型生成多个答案组2根据正确性或其他集合奖励功能（与使用LLM作为奖励模型不同）的答案3计算该组4中答案的平均得分分数的组内比较5增强了模型对高分答案的偏好

例如，假设模型需要解决以下问题：

什么是1+1？ >>思想链/锻炼>>答案是2。什么是2+2？ >>思想链/锻炼>>答案是4。

最初，必须收集大量数据以填补工作/思维链。

但是，GRPO（DeepSeek使用的算法）和其他RL算法可以指导模型自动演示推理功能并创建推理轨迹。

RL不需要数据，而是需要精心设计的奖励功能或验证器。例如，如果得到正确的答案，请给出1分。如果某些单词拼写错误，则得分为0.1。等等。

强大的联合：在不舒服中使用grpo

如果您在本地使用GRPO进行培训，请先安装必要的依赖项：PIP安装扩散器。

_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星

培训技巧：耐心等待至少300个步骤，以了解奖励分数的显着提高；为了确保最佳兼容性，请使用最新版本的VLLM。

COLAB示例仅接受了1小时的训练，结果相对平均。为了获得高质量的结果，建议训练至少12小时（但可以随时停止）。

较小的模型可能无法生成思维令牌。建议使用至少1.5b参数模型正确生成“思考令牌”。

如果使用基本模型，请确保加载正确的聊天模板（避免格式化问题）。

Unsploth现在具有内置的GRPO培训损失跟踪，消除了对外部工具的需求（例如WandB）。

DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_DeepSeek-R1推理本地跑，7GB GPU体验啊哈时刻？GRPO内存暴降，GitHub超2万星_

内置的GRPO培训损失跟踪示例

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274064.html

李飞飞团队16张H100训练26分钟超越o1-preview，DeepSeek-R1引领AI推理新时代

相关推荐

联系我们