1. 首页>>分享

李飞飞团队16张H100训练26分钟超越o1-preview,DeepSeek-R1引领AI推理新时代

Li Feifei的团队在16 h100时只花了26分钟的培训,而训练有素的模型超过了O1-preview,并震惊了该行业。

可以说,DeepSeek-R1已将全球AI模型带入了推理的新时代。

即使使用其培训方法GRPO,AI开源行业也开始了一场竞争:看看谁可以以最低的成本重现AI的“ Ahha时刻”。

刚才,DeepSeek-R1的推理成本被完全消除了!

开源项目Unsploth AI带来了好消息。您可以在没有云服务的情况下在本地体验“啊哈”。时刻:

DeepSeek-R1的推理现在可以在本地设备上复制!只需使用7GB的VRAM,您就可以体验“啊哈”的时刻。不足以将GRPO培训所需的内存降低80%。 15GB的VRAM可以将Llama-3.1(8b)和Phi-4(14b)转化为推理模型。

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星__DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

正确阅读:只有7GB VRAM GPU可以在本地体验“ aha时刻”。

AI的“ AHA时刻”是什么?它的功能是什么?

任何熟悉人工智能的人都知道,对于人类而言,这很简单,对于人工智能来说可能很困难。例如:

哪一个大于9.11和9.9?

但是,在经历了“ aha”时刻之后,AI模型PHI-4可以完成此类问题:从没有推理能力的模型中,它转变为与DeepSeek-R1相同的推理模型,而原始思维链和原始思维链和显示推理过程的种类。呢

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星__DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

原始链接:

简而言之,如果您现在有输入和输出数据(例如问题和答案),但是如果没有COT或推理过程,则可以见证Grpo-创建的奇迹

它可以为您创建推理过程,甚至可以做更多!

现在,这种方法在AI社区中变得很流行,讨论越来越大。

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星__DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

不舒服启动推理功能

DeepSeek的R1研究揭示了“啊哈”的时刻。通过小组相对策略优化(GRPO),R1-Zero自动学习如何在没有人类反馈的情况下分配更多的思维时间。

Unsploth增强了整个GRPO过程,与拥抱的脸部+FA2相比,VRAM使用率下降了80%。

这意味着只能使用QWEN2.5(1.5B)来重现R1-Zero的“ AHA”力矩的“ AHA”力矩。

_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

项目链接:

对于包含其他模型的GRPO,请参见以下文档。

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星__DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

文档链接:

这次,不舒服的更新主要增强了GRPO对DeepSeek-R1-Zero增强学习训练方法的支持,从而减少了内存使用情况。

主要亮点如下:

15GB VRAM:使用Unsploth,您可以将最多15b参数的任何模型(例如Llama 3.1(8b),Phi-4(14b),Mistral(7b)或Qwen2.5(7b)转换为推理模型。

最低限度仅为7GB VRAM,足以在本地训练自己的推理模型。

Tiny-Zero团队曾经表明,使用QWEN2.5(1.5B)可以实现“ AHA”矩,但需要2个A100 GPU(160GB VRAM)。而现在,只需使用7GB VRAM GPU就可以实现相同的效果。

以前,GRPO仅支持完整的微调,但是现在它可以与Qlora和Lora一起使用。

请注意,这不是对DeepSeek-R1蒸馏模型的微调,也不是使用R1蒸馏数据进行调整(Unsploth已经支持)。实际上,该项目使用GRPO将标准模型转换为“全血”推理模型。

GRPO的应用方案:具有奖励机制的定制推理模型,例如法律和医学;需要显示推理链或思考过程的其他情况。

Grpo带来的“啊哈”时刻

在使用纯强化学习(RL)训练R1-Zero时,DeepSeek观察到了神奇的“ AHA时刻” -

没有任何人类的指导或预定义的说明,该模型实际上开始重新评估其初始方法并学会了延长思维时间。

即使您仅使用GRPO在100个步骤中使用GRPO训练PHI-4,结果也很清楚:没有GRPO的模型没有思想的象征性,并且经过GRPO培训的模型具有思想的象征性,正确的答案是获得!

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_

纸链接:

这个“ AHHA时刻”表明,GRPO不仅有助于模型提高其推理能力,而且还允许模型在没有外部提示的情况下学习反思和调整,从而提高了解决问题的质量。

回到一个问题“哪个更大,9.11或9.9?”,在GRPO培训之前,PHI-4介绍了如何从左到右比较小数

经过GRPO培训后,PHI-4可以正确分析和回答这个问题,而推理过程是明确而严格的 -

在推理过程的第二步中,基于TENS的比较,获得了正确的答案。在第三步中,仍比较了9.11和9.90的百分位数,但是这次AI模型发现比较百分位数不影响步骤2中获得的结果。

_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

PHI-4在GRPO培训之前和之后进行了比较,提示是:“哪个更大?9.11或9.9?”

这是Grpo的“魔力”。

GRPO是一种增强学习(RL)算法。与近端策略优化(PPO)不同,它不依赖价值功能,并且可以更有效地优化模型答案的质量。

在项目的笔记本中,使用GRPO培训模型可以独立发展自我验证和搜索功能,从而创建一个迷你“ aha mist”。

GRPO的一般过程如下:

1该模型生成多个答案组2根据正确性或其他集合奖励功能(与使用LLM作为奖励模型不同)的答案3计算该组4中答案的平均得分分数的组内比较5增强了模型对高分答案的偏好

例如,假设模型需要解决以下问题:

什么是1+1? >>思想链/锻炼>>答案是2。什么是2+2? >>思想链/锻炼>>答案是4。

最初,必须收集大量数据以填补工作/思维链。

但是,GRPO(DeepSeek使用的算法)和其他RL算法可以指导模型自动演示推理功能并创建推理轨迹。

RL不需要数据,而是需要精心设计的奖励功能或验证器。例如,如果得到正确的答案,请给出1分。如果某些单词拼写错误,则得分为0.1。等等。

强大的联合:在不舒服中使用grpo

如果您在本地使用GRPO进行培训,请先安装必要的依赖项:PIP安装扩散器。

_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星

培训技巧:耐心等待至少300个步骤,以了解奖励分数的显着提高;为了确保最佳兼容性,请使用最新版本的VLLM。

COLAB示例仅接受了1小时的训练,结果相对平均。为了获得高质量的结果,建议训练至少12小时(但可以随时停止)。

较小的模型可能无法生成思维令牌。建议使用至少1.5b参数模型正确生成“思考令牌”。

如果使用基本模型,请确保加载正确的聊天模板(避免格式化问题)。

Unsploth现在具有内置的GRPO培训损失跟踪,消除了对外部工具的需求(例如WandB)。

DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星_

内置的GRPO培训损失跟踪示例

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274064.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息