阿里给CPO泼了盆冷水,还顺手“鄙视”了整个产业链
- Yanfang Li
- 5月1日
- 讀畢需時 6 分鐘
这是解读OFC2026系列,今天解读的是阿里云:
1. 十万卡AI集群,需要两张网,而Scale-up这张网要开始光化了
2. CPO确实更理想、更高级,但NPO更现实、更开放、更容易量产、更适合今天就开始积累系统经验
3. 阿里已经在把scale-up光化往前推了,可整个光产业链准备好了吗?

OFC2026上,大部分公司都在讲CPO、讲单波400G、讲下一代带宽密度,关注的是器件、封装和产品形态,是一种供给视角。
阿里这次讲的主题,叫 The Optical Interconnects of Scale-up Network。整个报告坐下来,是需求视角、标准定义视角。

过去几年,光互连还是被叫做光通讯,主战场还是scale-out,也就是机架到机架、数据中心内部横向扩展的网络。但AI集群继续变大之后,真正更难、也更值得重构的部分,正在从scale-out继续移向scale-up。
而当AI集群从一万卡走向十万卡,Scale-up网络到底该怎么建。
这正是阿里这套PPT真正的主题,而阿里的回答是:
AI网络会走向双网架构;Scale-up会成为独立问题;这张网要开始光化;近中期更现实的落地路径是NPO。
一、十万卡时代,需要两张网
从阿里的角度看,AI网络要分层、分域、分语义地设计。这一页PPT把过去和未来并列放在一起。

过去是HPN 7.0,用51.2T高radix交换机、多rail拓扑和每GPU双链路连接,支持10K GPU规模。未来则是 HPN 8.0 + UPN 512 dual-network architecture,目标是支持512-GPU super node和100K-GPU cluster,用来训练trillion-parameter模型。
HPN仍然服务大规模集群的scale-out。UPN则单独承担scale-up,这和阿里此前在SIGCOMM 2024发表的HPN工作是一脉相承的。

这篇论文讨论的是面向大模型训练的数据中心网络,核心目标是提升大规模训练集群的可扩展性和容错能力,并已在实际生产环境中运行。论文对流量模式的判断也很明确,LLM训练流量具有低熵、周期性突发和对故障极其敏感的特征,传统云网络范式并不适合直接照搬。
阿里在这个基础上又往前推了一步:原来主要服务scale-out的一代HPN,不再承担全部任务,scale-up被单独抽出来,形成UPN(阿里还为此发了篇白皮书,写这篇文章的时候偶然找到,囫囵吞枣的了解了一下)。
也就是说,十万卡时代的AI基础设施,会越来越多地走向双网络架构。虽然行业里大家都有这个认知,但是这次阿里用技术细节把原因描述了出来。
另外,从阿里的视角来区分两张网络的主要特征,是直接从带宽密度、语义和时延等级这三个最底层的系统指标切入。它更接近系统总线、内存域外延、加速器内聚域。去年华为发布的UBMesh

通俗一点、但也绕口一点的讲,Scale-Up是要做一张更像系统内部网络的外部网络。
二、阿里不走专有封闭那条路,押注ETH+
阿里还是会走以太网这条路线,

看这一页,红框圈出来的比较重要阿里并没有把scale-up网络理解为必须走专有、封闭、强绑定的体系,而是在尝试用以太网框架承载更高性能、更低时延、更高带宽密度的scale-up能力。
我稍微猜度一下,业内看来,这基本上还是Follow Broadcom(割舍不下UALink)的路,哈哈!
当然,也可以理解,阿里想要的是一张可规模部署、可持续演进、可被自己掌控的scale-up网络,而不是一张性能很高但生态封闭、被别人(Nvidia?)路线牵着走的网络。
不过,站在Nvidia投资了Marvell的当下来看,还是有点意思的!
三、阿里对铜和光的判断很克制,系统视角
在“Copper vs. Optics”这一页里,阿里认为,可靠性、成本、功耗,铜更好;时延差不多。光更好的地方,是距离、带宽密度、拓扑灵活性和可维护性。

阿里没有逢光必吹,它承认铜在短距离场景下依然有现实优势,并没有说光在所有维度都更优。阿里可能的意思是,当scale-up域做大之后,系统约束就变了。需要更高带宽密度,需要更灵活的拓扑,需要更好的维护性,需要把GPU服务器和交换机从物理组织上进一步解耦,这时光的综合优势才开始显现。

这是一种很成熟的系统视角。不算单点器件账,算整个系统账。
也正因为如此,阿里选择光,不是因为光在某个指标上压倒性领先,而是因为它更适合十万卡时代的系统组织方式。
四、可插拔的三种路线LPO、LRO、FRO比较:阿里没有迷信低功耗,而是在做场景匹配

这一页的意思是,FRO和LRO互操作性更好,适用范围更广,更适合scale-out;LPO延迟更低、功耗更低,更适合scale-up。
这说明阿里并没有把LPO当成下一代通用答案。LPO有其自身的代价:和host SerDes耦合更紧、制造测试更定制化、互操作性更弱,不能像FRO那样在大规模开放网络里自由混插。
LPO应该放到更适合它的地方,也就是系统边界更可控、对低时延和低功耗要求更高的scale-up网络。
这是一种很典型的最终用户(也就是云厂商)的判断方式。它不迷信某条技术路线,也不把标签当结论,而是看技术和场景的匹配度。
顺着这个逻辑,scale-out优先考虑开放互操作和大规模兼容,也就是用FRO和LRO;scale-up则更愿意接受更强绑定,以换取更低时延和更低功耗,那就是LPO的适合场景。
五、真正的问题是带宽密度,不是模块形态
这页PPT核心围绕一个词:bandwidth density。

基于 OIF 标准的 3.2T NPO,在带宽密度上可以达到当前可插拔模块的4倍以上。PPT里的front-panel和inside-system两组数据对比,核心意思还是系统思维:同样的1U、同样的系统内部空间,都能塞进多少有效带宽。
这说明,在阿里眼里,可插拔(光模块)路线已经更像一个过渡阶段,scale-up网络迟早会撞上的密度天花板。
也就是说,LPO虽然是低功耗可插拔模块,但它更像是系统往更高密度、更靠近芯片的光互连形态演进时的一个过渡站。
而NPO/CPO,则是下一站。
六、阿里鲜明的立场:近中期选NPO,不等CPO成熟
我这个解读OFC2026系列,之前都是器件厂商,铺天盖地的CPO,感觉未来已来。但对于每天在股市里关注CPO概念的各位来说,阿里在这一页PPT中所持有的立场,很可能给大家浇了一瓢冷水!

必要声明:作为从业者来说,我不持有主观立场,在这里仅仅是基于这页PPT进行意思解读!因此,也不应该作为任何投资的方向性建议!
阿里认为:CPO信号完整性虽然更好,但需要更早的协同设计;生态更封闭;制造体系尚未准备好大规模量产。
而聚焦于当下,NPO信号完整性已经足够好,更容易集成;生态更开放;还能利用现有光产业链。
这也下面的结论写得就更直接了:对于近中期高密度光学部署,NPO目前比CPO更可行;NPO还能让系统方今天就开始积累关键设计经验;再然后NPO和CPO都可能会并行。
阿里的判断逻辑,考虑的优先级并不是理论最优,而是量产可行、生态开放、经验可积累。
一个真正要把东西部署起来的云厂商关心的是:这条路线供应链、制造体系能不能接住,生态是不是过于封闭,系统经验能不能尽快开始积累。
也就是说,阿里认为,在大规模AI scale-up部署真正到来前,云厂商更可能先把NPO做成,CPO可以继续完善产业链于生态。
这和很多研究报告从理论最优出发得出的结论有明显不同。阿里给出的答案更现实,毕竟是真金白银的大甲方。
七、阿里直接自己定义了新形态新标准

从Roadmap上来看,3.2T NPO,符合OIF 3.2T标准,2025年底sample,2026年中量产。6.4T UPO,也就是Ultra-NPO,标准化仍在进行中,支持多模和单模,支持内置和外置激光器,预计2026年Q2给出draft release。
阿里还把6.4T UPO拆成三种类型:
UPO-XD,对应高密度场景,面向3D封装和HDI PCB。
UPO-HD,对应常规密度,面向2.5D或3D封装。
UPO-SD,对应低密度场景,支持内部CW laser。
这个UPO我之前没有听过,网上搜索了一些信息,估计真的是阿里自己提出的概念和定义。如果真是这样,也就意味着阿里云深化定义了NPO不同阶段的具体产品形态。

也就是说,阿里正在成为下一代光互连产品形态和标准方向的(共同)定义者。
最后,阿里给CPO泼了盆冷水,还顺手“鄙视”了整个产业链

PPT总结页里,阿里引用了LightCounting的数据:2024到2029年全球光收发器市场22%的 CAGR,到2029年达到370亿美元,scale-up网络也会进一步推动2026到2030年的光市场增长。
这些数字当然重要,但整页里更值得读的一句话,是最后那句:
We hope the optical industry will be ready for the mass deployment of AI data center scale-up networks.
翻译一下,阿里这边已经准备把scale-up光化往前推了,问题是你们整个光产业链准备好了没有。
也就是说,阿里借着讨论市场对光的需求增长,向供应链、器件厂、模块厂、交换机厂、连接器厂、封装厂一起发喊话:
我这个大买家已经开始选路线了,你们再准备不好就别怪我亲自下场做了!





留言