智能计算中心是本轮科技革命中算力的“心脏”,也是国际科技博弈的长期焦点。智能计算中心的建设规划一直牵动着国人的神经。
近期,OXC光交换技术在智能计算场景的应用进入了公众的视野。该技术及其解决方案能否支持智能计算中心网络?
深入探究技术本质、实现实践和产业流程,恐怕不得不说,“OXC技术在智能计算场景中其实没有未来”。
从技术角度来看,OXC光交换技术将面临智能计算场景下光电协同、无法支持AI任务多对多传输等技术挑战,难以有效解决。
在实践中,谷歌是目前业界唯一商用的MEMS-OXC器件,谷歌TPU集群使用OXC的核心目的是解决Torus拓扑的可用性问题。但网络可用性的短板其实是接入端口,这是OXC没有解决的。存在网络可用性的问题,所以实际上和自动配线架没有本质区别。
从产业角度来看,谷歌是全球唯一将 OXC 商业化的公司。据LightCounting预测,到2029年,OXC的全球市场空间约为5亿美元,其中大部分为谷歌所有。产业规模仅为电气开关的二十分之一。
综合以上维度,我们不难得出结论,OXC技术只是智能计算场景中的一个配线架,无法大规模落地,也无法支持超万卡集群智能计算中心网络。
接下来,我们将从技术起点到产业终点,全面揭开MEMS-OXC在智能计算场景中的面纱。
简单来说,OXC光交换技术就是在不同光路之间交换光信号。技术路径包括 MEMS、DLC 和 DLBS。其中,MEMS技术是目前最主流的解决方案,MEMS-OXC设备是目前谷歌唯一商用的设备。
但在超万卡集群的智能计算中心网络中,MEMS-OXC的作用实际上是一个配线架。
我们先来看看智能计算中心网络是如何实现的。 ODCC(开放数据中心委员会)发布的《AI数据中心网络建设》报告提到,AI参数平面网络有两层Spine-Leaf和三层CLOS架构组网。在AI集群组网的实践中,通过三层组网,网络规模可以达到10万张卡以上。
目前,Meta、OpenAI、微软等AI巨头通过从两层扩展到三层的组网模型构建超大规模集群,即在Leaf层和Spine层的基础上增加Core层。其中,二层网络采用电气交换机。例如,业界唯一对 OXC 进行商业实践的 Google 也采用了光电混合架构。
可见,如果智能计算中心网络采用二层网络,则不需要OXC;如果是三层网络,Core层MEMS-OXC设备的主要作用是灵活布线,与自动配线架没有本质区别。 。
MEMS-OXC的引入不但不能给网络带来收益,还可能产生额外的问题:
首先是光电协同问题。
如果在第三层引入OXC光交换机,但数据中心网络底层仍然采用电交换机,这就需要光和电之间的协调、通信、配合,这会对整个数据产生比较大的影响中心网络。
例如OXC技术具有切换灵活的特点,但对于整个网络来说,光交换机时而接通,时而断开,这就需要整个接入层和骨干层做出相应的策略调整。
试想,智能计算场景中的大模型训练大多采用并行训练,业务流程随时发生变化。如果数据中心网络随时随地进行秒级调整,将很难保证训练的可靠性。任何大型模型开发团队都可能无法容忍训练中的高频中断。
其次,OXC与AI业务的适配问题。
OXC光交换技术不支持多对多通信,只能进行纯物理转发。在智能计算场景中,AI任务有很多算法和算子。不同算法的通信方式不同,可能需要一对多、多对一、多对多等多种转发方式。 OXC技术很难满足这些算法的高效通信,导致无法开展相关的智能计算服务。
第三大问题是OXC的能耗。
OXC光开关的插入损耗非常大,这意味着信号在光的折射过程中衰减。为了补偿OXC的插入损耗,必须使用更高功率或更长距离的光模块,这反过来又会导致能耗增加。另外,插损问题也会导致光模块速率无法演进。
由于上述问题的存在,智能计算中心从插入损耗、功耗等多方面进行考虑。综合算账后会发现,MEMS-OXC设备不如自动配线架。
MEMS-OXC不如自动配线架的另一个关键因素是其商业前景。
我们知道,一项新技术必须在商业市场上完成一个闭环,并能够通过使用收回投资,这样才能吸引进一步的基础设施投资,形成良性循环。至于OXC技术的产业化,很难实现健康的商业闭环。
最重要的限制是成本。
OXC技术的实施需要大量使用光开关,并且光模块等所有相关设备都需要升级,这将导致初期投资巨大,综合成本较高。
ODCC(开放数据中心委员会)在《AI网络光交换机技术报告》中提出,考虑到网络系统和OCS(光交换机)本身的挑战,从端口数要求、切换时间要求,低成本、高从可靠性、拓扑结构、易于管理等维度来看,光开关还需要进行优化,以降低插入损耗和回波损耗,需要探索采用电开关的组网方案以降低成本。
上述投资需要工业用户的商业回报。但如前所述,由于光交换技术本身的瓶颈,很多AI任务和场景在短期内难以落地,这给OXC带来了较强的业务不确定性。
考虑到这一点,业界实施OXC的步伐明显平静,基本处于观望状态。
技术并不是存在于真空中,而是寄生于人才、资本、产业、实体经济等多重因素的现实之中。
我国智能计算产业仍处于追赶阶段,资源和人才相对不足。既要把握发展前景和机遇,又要面对当前生存和经营的现实挑战,有的甚至要处理历史遗留问题。
在这种情况下,如果国内智能计算产业将宝贵的资源投入到不适合组网的OXC上,可能会引发一系列的连锁反应。
例如,产业资源分散,智能计算中心建设成本高昂,OXC设备在网络规模、插损、功耗、成本等方面不具备优势,意味着投资效率低下,降低了科技企业的风险抵御能力。
MEMS-OXC设备在智能计算集群中的实施效果并不显着,无法解决网络可用性问题。 OXC的引入将影响AI算力的传输和供给,从而阻碍AI训练、AI推理等业务的弹性发展。
更需要警惕的是,OXC路线上的炒作可能会导致国内智能计算错过其他技术路线的探索,而由此造成的机会成本是不可估量的。
因此,OXC只能作为自动配线架,不适合作为智能计算中心的组网选择,在智能计算场景中没有未来。当前,中国智能计算产业真正应该做的是,进一步发挥成熟交换技术、现有宝贵资源、产业智能机遇等核心优势。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/271520.html