DeepSeek-v3大模型发布：东方力量震撼世界，671B参数量仅用2048块GPU训练-模具钢网

AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_

概括：

与月之暗面、智浦AI、Minimax、百川智能等获得各大厂商投资的AI初创公司不同，DeepSeek与科技巨头并无直接关系。不过，DeepSeek自身的算力储备与各大厂商相当。

凤凰科技出品

作者｜丹尼

编辑｜董玉清

AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_

热议的东方动力

神秘的东方力量再次震惊世界，这次是用大型模型。

12月26日，国内私募机构魔方量化旗下DeepSeek（DeepSeek）发布了新一代开源大模型DeepSeek-v3。 DeepSeek在技术报告中提到，作为参数量高达671B的大型语言模型，DeepSeek-V3在预训练阶段仅使用2048个GPU训练了不到2个月，总共266.4万GPU小时，仅花费了5.576亿美元（约合人民币4070.1万元）。

AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_

这意味着DeepSeek-V3的训练成本约为GPT-4o的二十分之一。 Anthropic首席执行官Dario Amodei不久前透露，像GPT-4o这样的模型的训练成本约为1亿美元，而目前正在开发的大型AI模型的训练成本可能高达10亿美元。未来三年，训练大型AI模型的成本将升至100亿美元甚至1000亿美元。

性能方面，根据DeepSeek-V3技术报告显示，基础模型DeepSeek-V3 Base在英语、编码、数学、中文以及多语言任务上表现非常出色，在AGIEval、CMath等部分任务上表现也非常出色、MMMLU-非英语等等。甚至远远超过其他大型开源模型。即使与GPT-4o和Claude 3.5 Sonnet这两个领先的闭源模型相比，DeepSeek-V3也不逊色，并且在MATH 500、AIME 2024和Codeforces中具有明显优势。

广发证券分析，DeepSeek-V3算力成本降低的原因有两个：一是DeepSeek-V3采用的DeepSeekMoE参考各种训练方法进行优化，避免了大型AI模型训练过程。行业。各种问题；其次，DeepSeek-V3采用的MLA架构可以减少推理过程中的kv缓存开销，并且其特定方向训练方法的选择也降低了其算力成本。

_AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了_AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了

很少有业内外人知道的是，DeepSeek也是大机型价格战的最早发起者，被誉为“AI行业的拼多多”。 2024年5月，DeepSeek发布的DeepSeek V2开源模型提供了前所未有的成本效益：推理成本降至每百万代币仅1元，约为Llama3 70B、GPT-4 Turbo的七分之一——第七十.

DeepSeek-V3的定价方面，API定价为输入每百万代币0.5元（缓存命中）/2元（缓存未命中），输出每百万代币8元，与输入价格相同每字节Doubao-pro-256k。每百万代币成本为 5 元，产出相当于每百万代币 9 元。在国产车型中性价比较高。

“今天，中国一家人工智能公司轻松发布了前沿的大语言模型。”著名人工智能科学家、前特斯拉人工智能和自动驾驶视觉总监、OpenAI 早期成员 Andrej Karpathy 在评价 DeepSeek-V3 的性能时表示，“如果这个模型仍然能够通过各种评估，那么这将是成为资源有限条件下研究和工程能力的令人印象深刻的展示。”

“我一直在关注DeepSeek，他们去年拥有最好的开源编码模型之一。优秀的开源模型给尖端大型语言模型商业公司带来了巨大压力，迫使他们加快速度。” NVIDIA高级科学家Jim Fan Fan认为，在竞争激烈的人工智能领域，生存本能是突破的主要驱动力。

AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了__AI领域“神秘东方力量”震惊世界，英伟达的最大空头出现了

千亿量化私募的AI创业

在众多中国大模创业公司中，Deepseek的路线最为与众不同。其中文名称为“深探”，是知名私募巨头欢放量化创立的子公司。

2023年4月，Magic Square宣布成立新组织，集中资源和力量探索AGI本质，一年多时间取得快速进展。当时，焕芳表示，多年来，公司坚持将大部分收入投入人工智能领域，打造领先的AI硬件基础设施，进行大规模研究，探索人类未知的奥秘。

有云计算专家提出，1万颗NVIDIA A100芯片是大规模AI模型的算力门槛。在中国云厂商受到GPU芯片短缺的限制时，欢放早早押注进军大模型赛道。据介绍，除了商汤、百度、腾讯、字节、阿里巴巴等科技巨头外，欢放还拥有超过10000块GPU。

Magic Square量化和Deepseek创始人梁文峰曾在接受媒体采访时表示，Magic Square的算力储备并不是突然的。 2019年，欢放投资2亿元自主研发深度学习训练平台“萤火一号”，配备1100颗GPU。到2021年，《萤火2》的投资已增至10亿元，配备约1万张Nvidia A100显卡。一年后，OpenAI发布了ChatGPT公测版，掀起了全球新一轮AI热潮。

事实上，在量化投资领域，欢芳也是一位特立独行的人。欢放量化曾是国内第一家私募规模突破千亿的大型量化公司。准确来说，也是迄今为止行业内唯一一家规模突破千亿大关的量化私募公司。

“我们做大模型，和量化、金融没有直接关系。”梁文峰在被媒体问及为何量化基金选择进入大模型行业时解释道。 “当时我们尝试了很多场景，最终进入了一个足够复杂的金融环境。，而通用人工智能可能是下一个最难的事情之一，所以对我们来说，这是一个如何做的问题，而不是为什么的问题。”

公开资料显示，梁文峰是一位20世纪80年代出生的极端技术理想主义者。他从魔方时代就开始研究幕后技术。在DeepSeek时代，他依然延续着低调的风格。和所有研究人员一样，他“每天看论文、写代码、参加小组讨论”。值得一提的是，这家公司还对外招聘文科人才，职位定位为“数据达人”，提供人类历史、文化、科学等相关知识来源，与数据工程师共同构建。完整的世界语言知识库。

“我们相信，几乎所有的创新都是从大胆的尝试和点点滴滴的积累中诞生的。我们会充分、持续地投入，不做温和的事情，用最长远的眼光来回答最大的问题。”梁文峰曾经说过。

梁文峰在接受媒体《暗流》采访时表示，降价一方面是因为在探索下一代车型结构的同时，成本先降了下来。另一方面，他也觉得API和AI都应该具有包容性。每个人都买得起的东西。

“过去很多年，中国企业已经习惯了别人进行技术创新，我们用它们来将应用变现，但这并不是理所当然的事情。在这一波浪潮中，我们的出发点不是顺势而为。”赚钱，而是要更上一个台阶，推动整个生态系统的发展。”梁文峰说。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273778.html

DeepSeek-v3大模型发布：东方力量震撼世界，671B参数量仅用2048块GPU训练

相关推荐

联系我们