DeepSeek小扣发大鸣：从V2到V3再到R1模型的AI大模型演化之路-模具钢网

[文本/观察者网络专栏作家Pan Gongyu]

DeepSeek具有“小按钮和大声音”。在半年多的时间里，它不仅从LLM通用模型的V2迭代到V3，而且还进一步启动了R1模型，重点是推理能力。从培训成本，建筑调整和开源模型中，技术震惊了世界，并引发了海啸的赞誉。在春季音乐节期间，大海的资本市场上的急剧波动以及一年初后的国内“ DeepSeek概念股票”的急剧上升使这一现象继续成为公众中热门讨论的重点。

DeepSeek的成功遵循了推理AI模型预训练的不可避免的演变过程。为什么DeepSeek的崛起是随后的举动？让我们先看看两个段落。

NVIDIA首席执行官詹森·黄（Jensen Huang）在去年2月下旬在接受《美国技术媒体连线》采访时说：“今天的Nvidia的业务可能是推理的40％和60％的培训，这是一件好事，因为它使您意识到AI已经意识到AI已有AI已有终于成功了。

去年12月，OpenAI的首席财务官Sarah Friar在接受技术媒体采访时说：“ Openai的Chatgpt Pro每月可向C-End用户使用200美元，这确实很便宜，这是合理的，价格应为每月2,000美元“进一步加上她的上下文采访的含义，她主要说Openai是“善良的”，并坚持AI的道德意识，以服务于公众的平等权利，因此她没有使价格如此高。如今，他们的虚伪皮肤在DeepSeek R1开源模型面前被完全撕裂了。

这两个段落是相当代表性的，一个点是AI技术应用的演变，另一个与AI培训模型实施的商业化有关。这两个级别的问题是交织和人际关系的。

就像Openai领先开发“星门”，将计算能力的规模定律扩展到私人资本市场和国家投资领域，试图将人工智能行业绑定到美国国家命运，DeepSeek做出了叙事解决方案从火底部切断。。

在人群的喧嚣中，海洋另一侧的怀疑，甚至具有恶意性质的诽谤也值得关注。

分析美国AI大型模型行业的某些顶级人物的评论可以进一步加深我们对DeepSeek真正击中另一方的痛苦点的理解。众所周知的半导体咨询机构Semiarsis和Anthropic首席执行官Dario Amodei的总裁Dylan Patel代表了整个海洋的详细分析数据和质疑声音。在中国互联网世界中翻译后，这两家公司的文章已被大量翻译和重印。

美国质疑_美国媒体质疑_

人道首席执行官达里奥·阿莫迪（Dario Amodei）

他们主要试图告诉公众DeepSeek的突破并不是从四个角度来看：GPU库存，成本计算，非技术营销以及在模型数据蒸馏中不合规。

1。“灵敏度”高端GPU的DeepSeek库存

根据SemianAylsis的计算，“ DeepSeek大约有10,000 H800 GPU芯片，10,000 H100 GPU芯片和大量H20 GPU芯片。”

达里奥·阿莫迪（Dario Amodei）在一篇长文章中叙述了半耶尔斯（Semianaylsis）的计算，他们认为DeepSeek拥有NVIDIA GPU卡（cast割和非堆积版本），并使用用于培训和推理的料斗结构（约50,000）。美国大型AI模型培训机构（例如OpenAI和DeepMind）之间的差距大约是两到三次。结合基于合成数据生成和增强学习以提高推理能力的训练后方法，他认为DeepSeek最初站在巨人的肩膀上，并使用大量的GPU来实现当今的成绩。

为什么达里奥·阿莫迪（Dario Amodei）使用semianaylsis数据将自己吸引到大横幅上？

由于达里奥·阿莫迪（Dario Amodei）在他看来，他对AI培训费用有一个所谓的“摩尔定律” - 每年可以减少大约三到四次。如果使用加强学习方法调整了推理体系结构，则可以将成本降低到六到八次。，但这是降低成本的极限。基于此成本估算假设，DeepSeek拥有50,000张料斗卡。

_美国媒体质疑_美国质疑

因此，如果我们进一步询问，Semianaylsis认为DeepSeek手上有许多高端GPU卡，他们如何计算它？他们使用了类似于荒谬方法的推理：拟人化的训练成本仅是Claude 3.5十四行诗将高达数千万美元。如果DeepSeek采取了如此神奇的举动，为什么人类会竭尽全力在亚马逊筹集数亿美元？？

关于关于人类如何消费投资者的钱的问题，也许马斯克的道路（政府效率部）对回答它更感兴趣。与代表云服务提供商亚马逊的拟人首席执行官Microsoft和Google相比，不禁会写长篇文章。正是他深刻意识到，基于GPU级别至100,000至数百万美元的生态系统正在促进培训。，他们的克劳德（Claude）系列的总价最高，总体成本效益最低。

美国媒体质疑_美国质疑_

与H100合法拥有的H100相比，H800主要是castates nvlink的通信带宽；尽管H20也是cast割版本，单一卡计算能力仅为H100的20％，但H20可以通过多卡堆叠模式及其HBM容量（96GB）。）甚至高于A100/H100（80GB）。换句话说，H20的内存带宽可以使DeepSeek Decode阶段生成的每个令牌所需的时间小于A100和H100。

DeepSeek使用cast割版来实现禁运版本没有的影响，允许Dario Amodei发表恶意言论，以进一步加强对中国大陆的GPU控制。这可能是他对DeepSeek的批评的目的。

从话语的角度来看，半溶方法利用拟人化的缺乏公平性来训练成本，并反复推论DeepSeek绕开控制和非法持有高端GPU的潜力，而人类使用的是在沙堆上构建的推理来讨论DeepSeek的推理，没有任何非凡的问题。成本问题，这实际上是一个阴谋和循环论证。

2。DeepSeek隐藏总成本（TCO）参数？

半透析和人类对DeepSeek总成本的推断还涉及GPU采购以外的其他因素，例如优化建筑，处理数据，付费员工薪水等，这正是我们最不需要花费时间来驳斥的。

通常，H100的云租赁成本不包括电源成本，并且实际托管在数据中心的IT设备的成本与足迹，公园环境和政策支持密切相关。

从未在中国进行实地研究的半透析法官认为，根据美国市场，DeepSeek的API服务成本也不合适。

在美国，在云服务和大规模部署方面的合作也很复杂。与OpenAI自己的API相比，越来越多的客户选择了Microsoft来推理公共和私人实例。微软非常聪明，可以用云服务点代替Openai的“天使循环投资”。亚马逊喜欢使用他们的萨格人。据说该平台是客户在云上创建，训练和部署模型的好工具，但他们使用NVIDIA的Nemo Nemo云原始框架来开发自己的模型。

与半透析对DeepSeek R1模型的分析相比，通过MLA（多头潜在注意力）优化了KV缓存机制，他们对DeepSeek托管，操作和维护的分析和员工薪金更像是一种猜测。

3。DeepSeek在营销方面赢了吗？

与缺乏坚实的第一手研究和推理基础的成本估计相比，Semiansis和Dario Amodei都花了很多时间来解释DeepSeek的“营销”方法，包括但不限于实际的R1模型，这是更令人难以置信的。战斗。中国协会将首先向用户展示推理框架，DeepSeek R1故意设定了发布时间来检查特朗普就职典礼仪式，等等。在最近的视频节目中，Semiansiansis总裁迪伦·帕特尔（Dylan Patel）指出，DeepSeek的营销是比“快速”更好。例如，半年多以前，他渴望推出一个较不成熟水平的V2模型，旨在炒作。

没有利润且无法提早起床的海外制造商已经对实际行动进行了反击：从1月25日至2月1日，AMD的MI300X GPU，NVIDIA NIM MICRESERVICES和INTEL GAUDI 2D AL ACPELERATOR都表达了他们的支持和访问权限DeepSeek V3/Ri/Janus模型。如果DeepSeek没有表现出足够的技术实力，为什么这些主要制造商应该与DeepSeek的“营销”合作？

半透析可能已经忽略了一个事实：Openai渴望在2022年底发射的Chatgpt，首先占据了坑，然后调试。 Google的吟游诗人（现已更名为Gemini）首先由Openai延迟一步，因为其创始团队我们担心这种聊天机器人会抓住搜索引擎市场并影响Google的收入。毕竟，对于Google来说，搜索引擎进口的广告收入是多数人的。

这次，OpenAI在压力下推出了全新的免费O3米尼（有趣的是，O3也模仿R1以显示推理思维链），这表明“创新者的困境”的诅咒与营销和营销无关，并且这是一种激增，指责DeepSeek迅速获胜是没有意义的。

从另一个角度来看，为什么Openai和Anthropic的同义推理模型不显示特定的推论思想？展示链接真的是营销吗？

OpenAI和Anthropic高音的原因是要优化用户体验界面并避免信息过载。但是这个问题实际上触及了这些公司的深切关注。一方面，模型的内部工作机制（例如微调策略和特定于任务的优化方法）可能会使竞争对手能够逆转工程和维护黑盒推理过程，它还避免了这些工具的黑暗历史过度膨胀。从一开始，Chatgpt引起了争议引起的公共媒体和数据资源，例如《纽约时报》和《华尔街培训杂志》，其合规性一再受到质疑，并曾经达到法律诉讼的水平。

_美国媒体质疑_美国质疑

可以看出，最初通过营销开始的AI模型公司，例如OpenAI，Google和Anthropic，无法遵循DeepSeek所谓的“营销方法”，并且必须在不做任何事情的情况下完成。

结论：模型蒸馏是从DeepSeek到全人类的美丽礼物

Semiansis总裁Dylan Patel和Anthropic首席执行官Dario Amodei在有关DeepSeek的评论中也有一个共同点，即R1比V3远不及V3，其主要论点是R1可能会用模型蒸馏而来。

在确保模型性能和效率的同时，促进AI技术的普遍化，并将其变成水和电力等公共产品。模型数据蒸馏和用户知识蒸馏是不可避免的路径。它不仅优化了资源利用，加速了模型到本地部署的迁移，并且终端推理对于建立可持续和有效的AI生态系统具有重要意义。

OpenAI团队的建立是对Google AI商业化路线的逆转。奥特曼（Altman）和马斯克（Musk）坚持寻找全人类的AGI频道的愿景，因此他们以“ Openai”的名字命名。现在，Openai已成为“关闭”。 “实际上，它偏离了最初的意图。

达里奥·阿莫迪（Dario Amodei）批评DeepSeek通过进行蒸馏来侵犯知识产权。但是如前所述，这些主要的美国制造商都获得了数据时代的股息。在《纽约时报》对法律诉讼做出反应之前，他们“偷走了”语料库数据。他们吃后如何再次吐出它？

曾几何时，困难而晦涩的人工智能技术是学者禁止的机构。 NVIDIA的CUDA软件开发人员系统平台为先驱者提供了在商业市场中尝试技能的机会。很快，AI的重点从斯坦福大学，多伦多大学和加州大学转变为初创企业。

Hinton和Li Feifei加入Google，NG去了在宫殿中战斗的Baidu，Altman和Sutskevi，创立了Openai，他们将AI带到了公众的眼中。

所有AI生产因素的流量实际上是人才，软件和硬件技术以及资本市场的伪装的“蒸馏”。拟人化最初来自OpenAI，也是用户知识蒸馏的最大受益者。

一段时间以前，Li Feifei的团队用“ $ 50”复制了DeepSeek -R1，此举只包含Liang Wenfeng和其他人的美丽愿景 - 以促进知识和信息之间的平等权利，而AI应该成为一种受益于全人类的公共产品。

_美国媒体质疑_美国质疑

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274141.html

DeepSeek小扣发大鸣：从V2到V3再到R1模型的AI大模型演化之路

相关推荐

联系我们