1. 首页>>分享

DeepSeek优化算法与系统效率,国产算力或超越英伟达GPU性能

·DeepSeek考虑了算法的准确性和系统效率。除了最终的潜在优化外,协作优化还可以使大型模型在利用国内计算能力时达到甚至超过NVIDIA GPU的性能。从顶级产品应用程序到基础基础架构,大型模型的每个级别都形成了一个非常好的生态系统,并且每个级别都有优化的空间。

·将来,推理计算能力可能会增加2-3个数量级。对训练计算能力的需求仍会增加。总体而言,对计算能力的需求将增加,成本将会更高,但是仍然有巨大的计算能力余地,并且单元计算能力的成本将降低,并提高效率。

“事实证明,每个人都认为培训模型只需要招募一组算法工程师,筹集了很多钱,并购买了大量卡片,这是可能的。但是现在不是。现在仍然需要招募一群了解该系统的人。 DeepSeek使用的服务与型号大小不符。增长是两倍的两倍,而不是释放软件和硬件的基本硬件性能和协作创新,而是“完善”计算能力以及大型模型的“完善”已经开始追求最终的成本效益。

使用2048 H800 GPU,估计DeepSeek V3将在不到两个月的时间内接受培训。每小时每张卡的H800租金成本为2美元,培训成本约为550万美元,其中不包括早期探索模型建筑,消融实验等的费用。DaiGuohao说DeepSeek表示,DeepSeek开了第一枪生态闭环,并提出了一个更清晰的途径,以优化国内计算能力。总体而言,对计算能力的需求将在激增,推理计算能力可能会增加2-3个数量级,并且计算功率成本将更高,但是计算功率成本仍然具有巨大的压缩空间,并且单元计算电源成本将减少,并将获得效率。推动。

DeepSeek指路算力优化路径,国产AI有望实现生态闭环_DeepSeek指路算力优化路径,国产AI有望实现生态闭环_

上海北港大学聘请了教育副教授兼首席科学家Dai Guohao。

低级优化以释放基础硬件性能

DeepSeek的技术报告已分解。与模型体系结构,训练方法和训练后方法相比,DeepSeek专注于引入系统体系结构。相比之下,外国开源模型的公共技术报告中引入了系统体系结构。

Dai Guohao说,DeepSeek的最终成本效益来自两个主要的优化类别。一种是了解硬件细节并实现最终的潜在优化;另一个是连接软件和硬件以实现联合协作优化。前者基于确定性算法模型和基础硬件,以进行通信优化和内存优化,这不会改变任何程序执行结果。后者,例如混合精度的量化和基础硬件的修改,扩大了系统的优化空间。

例如,在沟通优化中,DeepSeek采用了双向管道机制,该机制允许计算和通信重叠近100%,实现了更大的专家并行性,以便模型可以像管道一样“计算和通过”,这被认为是被认为的。使用有限的资源进行培训。大型模型的有效手段。在基本优化方面,PTX优化允许系统和模型更好地释放潜在的硬件性能,这也是DeepSeek可以更精细控制基础硬件并实现“计算同时计算和传输”的重要原因。

要训​​练大型模型,您必须首先拥有GPU。但是,开发人员不需要注意基础硬件的外观。他们只需要通过高级语言进行编程,例如Python或Hardware接口(例如Nvidia Cuda),最后调用基础GPU。 PTX通常可以直接与基础硬件进行交互,通常隐藏在CUDA驱动程序中,CUDA驱动程序是一种比CUDA更基础的硬件界面编程语言。语言越接近基础级别,硬件利用率的效率就越高。它在相同的硬件功能下实现了更精致的通信任务管理,这将使最耗时的跨境点通信效率提高60%,并产生更好的模型。

PTX编程不是行业的秘密,但是几乎所有大型模型算法工程师以前都不会接触到这种语言层。因此,如果可以对PTX进行编程和调用,则可以将基础硬件称为更好。但是,Dai Guohao解释说,这并不意味着绕过Nvidia Cuda的垄断。从编程范式的角度来看,DeepSeek在某些代码中绕过CUDA编程,但并没有完全绕过CUDA生态系统。

软件和硬件“按”计算能力的协作创新

“从顶级产品应用程序到基础基础架构,大型模型的每个级别都形成了一个非常好的生态系统,并且每个级别都有优化的余地。” Dai Guohao说,除了最终的潜在优化外,协同优化还可以使大型模型在利用国内计算能力时达到甚至超过NVIDIA GPU的性能。 “原始算法体系结构仅考虑算法的准确性。每个人都认为,只要算法足够好,但是DeepSeek考虑了算法的准确性和系统效率。”

例如,NVIDIA H800集成了FP8计算单元。 Dai Guohao说,从理论上讲,使用较低的精度训练可以带来2倍的计算加速度和50%的视频记忆减少。但是,由于低精度培训中模型效应的损失极为容易,并且大型模型的高反复试验和错误成本,因此开源社区中没有任何项目实现了大规模的FP8预训练。 DeepSeek实现了FP8低位训练,以创建高质量的模型,牢固地“挤压”了所有硬件的潜力。

DeepSeek采用MLA(隐藏空间注意计算机系统)体系结构和MOE(混合专家模型)体系结构,可以进一步减少推理消耗的记忆。在模型培训过程中,MOE架构采用1位共享专家和256位路由专家,每个令牌都激活了8位路由专家。

据报道,培训MOE架构中培训超大模型的最大挑战是负载平衡。 DeepSeek引入了专家偏见,以确保专家负荷平衡并提高集群效率。专家偏见只会影响专家路由,并且没有任何梯度影响。专家偏见动态调整。如果专家被超载,它将减少偏见,如果专家被负载不足,它将增加偏见。 DeepSeek采用了MOE架构,并解决了由算法和软件级别的专家的并行性引起的通信间接费用问题,并充分探讨了算法,软件和硬件的协作创新。

开火国内AI生态系统的闭环的第一张照片

“无论是基本的优化还是协作优化,您都必须对基础硬件和系统有非常深刻的了解,并且必须了解算法和硬件。” Dai Guohao说,以PTX编程为例,这要求开发人员清楚地了解Nvidia的硬件是如何制造的,因此阈值很高,大型模型公司很少编程PTX。具有系统优化功能的行业团队了解PTX编程,但是模型培训本身非常投入,并且很难不断优化。

DeepSeek发射了第一枪,并提出了更清晰的国内计算能力的途径。降低计算功率成本是大型模型国内开发的核心之一。软件和硬件协作路径包括模型,系统和芯片等关键因素。在国外,这三个形成了一个完整的闭环生态系统。 Dai Guohao说,在以前的理解中,使用外国培训和使用外国模型进行微调,与外国封闭式或开源模型相比,获得的模型总是具有一定的差距,而国内系统和芯片也很困难。形成闭环生态学。但是,DeepSeek的出现使国内模型能够超越外国模型,软件和硬件协作降低了计算能力的成本。这种方法可以打破当前的闭环生态瓶颈。

Dai Guohao说,DeepSeek使用2页文本提出了未来的硬件设计开发建议,进一步支持模型,系统和硬件的闭环途径。外国闭环AI生态系统一直是同构AI系统,其核心竞争力在于CUDA-X的垂直整合能力。因此,他认为,将来,应该动员国内AI开发,以跨越软件,硬件以及上游和下游的生态,并增加模型,芯片和系统的协调优化和垂直连接,例如定义基础的实施基于新一代模型体系结构的未来芯片电路,并基于国内生产设计,一种有效的混合专家模型体系结构,用于AI系统的互连通信方法。

“如何在国内模型,系统和芯片中形成独立且可控的闭环,这肯定会在将来发生。” Dai Guohao说,DeepSeek的兴起对于发展国内计算能力的发展是个好消息。将来,推理计算能力可能会增加2-3个数量级。对训练计算能力的需求仍会增加。总体而言,对计算能力的需求将增加,成本将会更高,但是仍然有巨大的计算能力压缩空间,单元计算能力的成本将降低,效率将得到提高。

Dai Guohao认为,大型模型的未来发展趋势将继续进行驯化,其次是软件和硬件的最终协调优化将带来降低成本,从而提高模型培训和应用的最终成本效益。成本效益越高,对计算能力的需求越大,计算能力的更紧。目前,中国的计算能力生态系统在供应和供过于求之间存在双重矛盾。中国独特的AI基础设施模式是多模型和多芯片,并且具有大量的异质计算能力。它们需要变得有用且易于使用,并在使用的封闭环中形成。硬件和算法的前循环。 Dai Guohao说,通过软的和硬协调以及计算能力的多元化异质压缩,我们必须降低获得强大的基本模型的成本,解决计算功率差距,并实现国内模型赶上有限的计算能力的能力。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274139.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息