1. 首页>>分享

DeepSeek如何通过颠覆性训练策略重构大型参数模型的成本公式?心智观察所与SemiAnalysis深度对话

_独家对话|谁真正低估了Deepseek?_独家对话|谁真正低估了Deepseek?

文 观察者网心智观察所

1 月底,美国知名半导体咨询机构 SemiAnalysis 发布了一篇文章,其主题围绕“给 Deepseek 算经济账”。这篇文章一时间成为全球爆款,它探讨了 DeepSeek 以何种颠覆性训练策略来重构大型参数模型的成本公式。心智观察所针对全球 LLM 模型的竞争生态这一情况,要去穿透算力军备竞赛所呈现出的表象,对大模型博弈中数据、算法、资本这三重角力等问题进行剖析,为此连线了 SemiAnalysis。

本次对话是由心智观察所以及 SemiAnalysis 的总裁 Dylan Patel、资深分析师 AJ Kourabi 和 David Wolfson 一起完成的。

SemiAnalysis 在去年五月就已发现 DeepSeek 在 MoE、RoPE、Attention 等领域有创新贡献。贵司是怎样敏锐地察觉到 DeepSeek 给 AI 模型带来的突破性的?当时行业是否低估了 DeepSeek 从 V2 到 V3 迭代的能力?

我们一直对 AI 领域的创新与进展保持密切关注,对 DeepSeek 所取得的进步深感印象深刻。绝大多数领先的 AI 实验室都没有忽视 DeepSeek,Anthropic 的 CEO 公开表明,他们从 V2 甚至更早的时候就开始对 DeepSeek 的发展进行跟踪。我们认为,大多数实验室都预见到了从 V2 到 V3 会有这样的改进。而 Meta 是一个明显的例外。

独家对话|谁真正低估了Deepseek?__独家对话|谁真正低估了Deepseek?

2024 年 5 月之时,SemiAnalysis 就察觉到了 DeepSeek V2 相较于同行所具备的性价比优势。

心智观察所认为,搭建 TCO 模型(总计算成本)是一个极为复杂的项目,其中包含了服务器资本支出(CapEx)以及员工工资等方面。那么,SemiAnalysis 是否拥有特定的计算参数模型呢?它是否收到了相关企业关于计算 TCO 方法的反馈呢?

我们开发出了独属于自己的解决方案,并且与多家公司展开合作,为他们提供咨询服务,以此来支持他们的集群建设。(注:可参见)

)。

心智观察所称,依据贵司的分析,相较于 OpenAI,Meta 和 Google 能够更便捷地与 C 端消费者相接触。那么 Meta AI 有没有可能给 Google 搜索带来较大的冲击呢?而“中国的 Google”即百度搜索,是否也会面临类似的状况呢?

Meta 拥有能够直接接触数十亿日活跃用户的能力,凭借这一能力,他们可以即刻将大量用户群体调配到他们引入的任何 AI 功能中。

心智观察所称,未来 DeepSeek 会持续提升其多模态能力。你怎样去评估它与 OpenAI(GPT)、Google(Gemini)、Meta(Llama)以及 Anthropic(Claude)之间的竞争态势呢?

我们预计在可预见的未来,OpenAI 凭借其在人才、基础设施和资本方面的卓越资源,会保持对 DeepSeek 的领先地位。DeepSeek 正在运用一种新范式,通过瞄准容易获取的成果来实现快速且成本效益高的进展。然而,随着形势的发展变化,要保持这种良好的势头将会变得越来越困难。同样,我们也预计Google将保持领先地位。

在竞争格局之中,Anthropic 所拥有的模型明显比 DeepSeek 的要好。我们认为,他们在不久的将来会将这些模型公开发布。另外,Meta 处在一个更具挑战的位置,因为它是唯一致力于将其模型开源的主要实验室。我们了解到他们在开发一个新模型,这个新模型预计性能会超过 DeepSeek。然而,目前不确定改进的程度是否足以证明推迟发布是合理的。我们在下面这个链接中对 DeepSeek 的进展进行了更详细的探讨。

心智观察所指出,DeepSeek 的崛起使得行业开始重新审视 Scale Law 以及“算力”的概念。那么,你觉得这会对英伟达 H200 的销售预期带来怎样的影响呢?

DeepSeek 推动了 AI 扩展的创新,这证明了战略性优化能够带来有竞争力的结果。他们的进展使得对 AI 基础设施和计算资源的需求增加了,同时也加剧了顶级实验室之间的竞争,进而进一步加速了该领域的进展。

心智观察所指出,AI 进步的一个标志是推理成本的下降。从训练到推理这一过程来看,像 GPT、Gemini 和 Claude 这样的产品,它们在应对持续降低推理成本的挑战方面是怎样的呢?它们又如何调整其 API 定价策略呢?同时,“杰文斯悖论”是否被过度炒作呢?

许多顶级 AI 实验室正积极开展针对降低成本的创新工作,这些实验室往往能从这些创新中获得最大益处。竞争对手提供更低价格时,供应商需通过调整定价来应对。通常,API 定价策略会依据市场压力以及推动成本下降的内部进展而进行调整。然而,在一些情况下,供应商没有降低价格,而是增加了对替代性模型的访问。例如,OpenAI 在 DeepSeek 取得突破后不久就发布了 o3-mini。我们认为“杰文斯悖论”没有被低估,并且我们之前的研究已经广泛涉及了这个话题。

_独家对话|谁真正低估了Deepseek?_独家对话|谁真正低估了Deepseek?

心智观察所询问,对于由 OpenAI 领导的“Stargate”计划,应当如何进行评估?此计划需要调动大量的人力和物力资源。同时,想了解这个计划能否与“芯片法案”这类计划产生相互配合的作用?

OpenAI 的“Stargate”计划与芯片法案没有关联,因为它主要致力于拓展 AI 基础设施,并非对半导体制造端进行激励。尽管两者都需要调动大量资源,然而 Stargate 是私有部门的行动,目的是构建先进的 AI 系统,而芯片法案是政府的计划,旨在提高国内芯片产量。两者之间没有直接联系。

_独家对话|谁真正低估了Deepseek?_独家对话|谁真正低估了Deepseek?

DeepSeek-V3竞争性分析

心智观察所:SemiAnalysis 正吸引着越来越多中国产业部门的关注,近来它几乎每篇文章都能引发广泛讨论。你们能否谈谈 SemiAnalysis 在市场研究和行业观察方面是否有独特的方法论?能否介绍一下你们团队的规模和盈利模式?

我们的方法并非“秘密配方”,它是对制造业、供应链、技术部署以及 AI 基础设施战略进行严格研究的成果。这项工作需要一个高度敬业的团队,且该团队对技术和分析满怀热情。我们的服务在不断扩展,这使得我们的团队也在不断壮大。最初我们只有几个人,如今已经发展到全球约 25 名分析师,这些分析师目前分布在北美、欧洲和亚洲等区域。

SemiAnalysis 不存在“中央办公室”。我们的盈利模式是以销售行业以及金融研究为基础的。我们的客户范围涵盖了从初创公司到位列全球财富 100 强的公司,其中技术公司和投资公司各占一半。我们的业务范围包含从简单的新闻通讯订阅,到与专门分析师进行为期数月的咨询服务等。

来源|心智观察所

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274617.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息