阿里给CPO泼了盆冷水，还顺手“鄙视”了整个产业链

Yanfang Li
5月1日
讀畢需時 6 分鐘

这是解读OFC2026系列，今天解读的是阿里云：

1. 十万卡AI集群，需要两张网，而Scale-up这张网要开始光化了

2. CPO确实更理想、更高级，但NPO更现实、更开放、更容易量产、更适合今天就开始积累系统经验

3. 阿里已经在把scale-up光化往前推了，可整个光产业链准备好了吗？

OFC2026上，大部分公司都在讲CPO、讲单波400G、讲下一代带宽密度，关注的是器件、封装和产品形态，是一种供给视角。

阿里这次讲的主题，叫 The Optical Interconnects of Scale-up Network。整个报告坐下来，是需求视角、标准定义视角。

过去几年，光互连还是被叫做光通讯，主战场还是scale-out，也就是机架到机架、数据中心内部横向扩展的网络。但AI集群继续变大之后，真正更难、也更值得重构的部分，正在从scale-out继续移向scale-up。

而当AI集群从一万卡走向十万卡，Scale-up网络到底该怎么建。

这正是阿里这套PPT真正的主题，而阿里的回答是：

AI网络会走向双网架构；Scale-up会成为独立问题；这张网要开始光化；近中期更现实的落地路径是NPO。

一、十万卡时代，需要两张网

从阿里的角度看，AI网络要分层、分域、分语义地设计。这一页PPT把过去和未来并列放在一起。

过去是HPN 7.0，用51.2T高radix交换机、多rail拓扑和每GPU双链路连接，支持10K GPU规模。未来则是 HPN 8.0 + UPN 512 dual-network architecture，目标是支持512-GPU super node和100K-GPU cluster，用来训练trillion-parameter模型。

HPN仍然服务大规模集群的scale-out。UPN则单独承担scale-up，这和阿里此前在SIGCOMM 2024发表的HPN工作是一脉相承的。

这篇论文讨论的是面向大模型训练的数据中心网络，核心目标是提升大规模训练集群的可扩展性和容错能力，并已在实际生产环境中运行。论文对流量模式的判断也很明确，LLM训练流量具有低熵、周期性突发和对故障极其敏感的特征，传统云网络范式并不适合直接照搬。

阿里在这个基础上又往前推了一步：原来主要服务scale-out的一代HPN，不再承担全部任务，scale-up被单独抽出来，形成UPN（阿里还为此发了篇白皮书，写这篇文章的时候偶然找到，囫囵吞枣的了解了一下）。

也就是说，十万卡时代的AI基础设施，会越来越多地走向双网络架构。虽然行业里大家都有这个认知，但是这次阿里用技术细节把原因描述了出来。

另外，从阿里的视角来区分两张网络的主要特征，是直接从带宽密度、语义和时延等级这三个最底层的系统指标切入。它更接近系统总线、内存域外延、加速器内聚域。去年华为发布的UBMesh

通俗一点、但也绕口一点的讲，Scale-Up是要做一张更像系统内部网络的外部网络。

二、阿里不走专有封闭那条路，押注ETH+

阿里还是会走以太网这条路线，

看这一页，红框圈出来的比较重要阿里并没有把scale-up网络理解为必须走专有、封闭、强绑定的体系，而是在尝试用以太网框架承载更高性能、更低时延、更高带宽密度的scale-up能力。

我稍微猜度一下，业内看来，这基本上还是Follow Broadcom（割舍不下UALink）的路，哈哈！

当然，也可以理解，阿里想要的是一张可规模部署、可持续演进、可被自己掌控的scale-up网络，而不是一张性能很高但生态封闭、被别人（Nvidia？）路线牵着走的网络。

不过，站在Nvidia投资了Marvell的当下来看，还是有点意思的！

三、阿里对铜和光的判断很克制，系统视角

在“Copper vs. Optics”这一页里，阿里认为，可靠性、成本、功耗，铜更好；时延差不多。光更好的地方，是距离、带宽密度、拓扑灵活性和可维护性。

阿里没有逢光必吹，它承认铜在短距离场景下依然有现实优势，并没有说光在所有维度都更优。阿里可能的意思是，当scale-up域做大之后，系统约束就变了。需要更高带宽密度，需要更灵活的拓扑，需要更好的维护性，需要把GPU服务器和交换机从物理组织上进一步解耦，这时光的综合优势才开始显现。

这是一种很成熟的系统视角。不算单点器件账，算整个系统账。

也正因为如此，阿里选择光，不是因为光在某个指标上压倒性领先，而是因为它更适合十万卡时代的系统组织方式。

四、可插拔的三种路线LPO、LRO、FRO比较：阿里没有迷信低功耗，而是在做场景匹配

这一页的意思是，FRO和LRO互操作性更好，适用范围更广，更适合scale-out；LPO延迟更低、功耗更低，更适合scale-up。

这说明阿里并没有把LPO当成下一代通用答案。LPO有其自身的代价：和host SerDes耦合更紧、制造测试更定制化、互操作性更弱，不能像FRO那样在大规模开放网络里自由混插。

LPO应该放到更适合它的地方，也就是系统边界更可控、对低时延和低功耗要求更高的scale-up网络。

这是一种很典型的最终用户（也就是云厂商）的判断方式。它不迷信某条技术路线，也不把标签当结论，而是看技术和场景的匹配度。

顺着这个逻辑，scale-out优先考虑开放互操作和大规模兼容，也就是用FRO和LRO；scale-up则更愿意接受更强绑定，以换取更低时延和更低功耗，那就是LPO的适合场景。

五、真正的问题是带宽密度，不是模块形态

这页PPT核心围绕一个词：bandwidth density。

基于 OIF 标准的 3.2T NPO，在带宽密度上可以达到当前可插拔模块的4倍以上。PPT里的front-panel和inside-system两组数据对比，核心意思还是系统思维：同样的1U、同样的系统内部空间，都能塞进多少有效带宽。

这说明，在阿里眼里，可插拔（光模块）路线已经更像一个过渡阶段，scale-up网络迟早会撞上的密度天花板。

也就是说，LPO虽然是低功耗可插拔模块，但它更像是系统往更高密度、更靠近芯片的光互连形态演进时的一个过渡站。

而NPO/CPO，则是下一站。

六、阿里鲜明的立场：近中期选NPO，不等CPO成熟

我这个解读OFC2026系列，之前都是器件厂商，铺天盖地的CPO，感觉未来已来。但对于每天在股市里关注CPO概念的各位来说，阿里在这一页PPT中所持有的立场，很可能给大家浇了一瓢冷水！

必要声明：作为从业者来说，我不持有主观立场，在这里仅仅是基于这页PPT进行意思解读！因此，也不应该作为任何投资的方向性建议！

阿里认为：CPO信号完整性虽然更好，但需要更早的协同设计；生态更封闭；制造体系尚未准备好大规模量产。

而聚焦于当下，NPO信号完整性已经足够好，更容易集成；生态更开放；还能利用现有光产业链。

这也下面的结论写得就更直接了：对于近中期高密度光学部署，NPO目前比CPO更可行；NPO还能让系统方今天就开始积累关键设计经验；再然后NPO和CPO都可能会并行。

阿里的判断逻辑，考虑的优先级并不是理论最优，而是量产可行、生态开放、经验可积累。

一个真正要把东西部署起来的云厂商关心的是：这条路线供应链、制造体系能不能接住，生态是不是过于封闭，系统经验能不能尽快开始积累。

也就是说，阿里认为，在大规模AI scale-up部署真正到来前，云厂商更可能先把NPO做成，CPO可以继续完善产业链于生态。

这和很多研究报告从理论最优出发得出的结论有明显不同。阿里给出的答案更现实，毕竟是真金白银的大甲方。

七、阿里直接自己定义了新形态新标准

从Roadmap上来看，3.2T NPO，符合OIF 3.2T标准，2025年底sample，2026年中量产。6.4T UPO，也就是Ultra-NPO，标准化仍在进行中，支持多模和单模，支持内置和外置激光器，预计2026年Q2给出draft release。

阿里还把6.4T UPO拆成三种类型：

UPO-XD，对应高密度场景，面向3D封装和HDI PCB。

UPO-HD，对应常规密度，面向2.5D或3D封装。

UPO-SD，对应低密度场景，支持内部CW laser。

这个UPO我之前没有听过，网上搜索了一些信息，估计真的是阿里自己提出的概念和定义。如果真是这样，也就意味着阿里云深化定义了NPO不同阶段的具体产品形态。

也就是说，阿里正在成为下一代光互连产品形态和标准方向的（共同）定义者。

最后，阿里给CPO泼了盆冷水，还顺手“鄙视”了整个产业链

PPT总结页里，阿里引用了LightCounting的数据：2024到2029年全球光收发器市场22%的 CAGR，到2029年达到370亿美元，scale-up网络也会进一步推动2026到2030年的光市场增长。

这些数字当然重要，但整页里更值得读的一句话，是最后那句：

We hope the optical industry will be ready for the mass deployment of AI data center scale-up networks.

翻译一下，阿里这边已经准备把scale-up光化往前推了，问题是你们整个光产业链准备好了没有。

也就是说，阿里借着讨论市场对光的需求增长，向供应链、器件厂、模块厂、交换机厂、连接器厂、封装厂一起发喊话：

我这个大买家已经开始选路线了，你们再准备不好就别怪我亲自下场做了！

阿里给CPO泼了盆冷水，还顺手“鄙视”了整个产业链

最新文章

留言

淼一科技 MUL-E TECH

电话：400 6644 400

邮箱：service@mul-e.com

地址：北京市海淀区大牛坊路23号6栋一单元

上海虹口区虬江支路181号1501

广州市天河区石牌西路115号二楼C238

深圳市宝安区福海工业园中京大厦F4-3A18

京ICP备09062518

留言

​淼一科技 MUL-E TECH

​电话：400 6644 400