昇腾AI云服务,中国AI的翼翼长城


过去几天,中美经贸关系发生着极速变化。而变化的主基调是,美国希望从贸易战的短期冲撞,重新回到长期进行,同时也更加残酷的科技绞杀上。
5 月 12 日中美双方发布联合声明,决定大幅下降关税。紧随其后的 5 月 14 日,美国政府亮出了瞄准中国 AI 的 " 獠牙 ",美国商务部工业与安全局(BIS)突然宣布,即日起在全球范围内禁用中国先进集成电路。
美国出招绝非无的放矢,就在一个月前,华为发布了 CloudMatrix384 超节点,该技术通过 384 张卡构建超节点集群,超级云服务器,最高提供 300Pflops 的算力规模。这意味着,美国通过 N 卡禁售来限制中国 AI 算力发展的技术围堵,或将被彻底打破。
从 DeepSeek 的算法层突破,到 CloudMatrix384 的算力层突围,中国 AI 正以系统性创新,弥补单芯片制程差距,美国发现其 " 卡脖子 " 逻辑正在失效。
接下来,美国必然会进一步打压中国 AI 的任何生存空间,更证明了模型自主与算力自强的重要性。昇腾云算力就是出路,就是防线。

5 月 16 日,华为云 AI 峰会中,华为云副总裁黄瑾又进一步披露了更多 CloudMatrix 384 超节点的创新技术细节。CloudMatrix 384 超节点持续壮大,把 " 杀不死你的必会让你更强大 " 写进现实。

过去的 8 年里,单卡硬件的算力增长了 40 倍,但是节点内的总线带宽只增长了 9 倍,跨节点的网络带宽只增长了 4 倍。集群网络通信成为当前大模型训练和推理的最大挑战,也是科技竞逐的焦点之一。
514 美国禁令的恐惧根源,或许就在于昇腾的架构创新,破解了网络带宽拓展比单卡算力增长更滞后的技术难题,使 CloudMatrix384 实现了集群稳定性,中国 AI 的算力长城,正在 CloudMatrix384 的基石上崛起。
具体来说,CloudMatrix 384 超节点实现了 MatrixLink 超节点网络服务。这项技术能够通过扩展训练集群实现大模型的训推性能提升 20%,从而在网络侧满足最为苛刻的模型推训需求。
突破了内外部通信瓶颈的 CloudMatrix 384,实现了 AI 算力资源的集约式高效利用,以及超大规模 AI 训练集群可云上获取,支撑昇腾 AI 云服务以更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的成本,为千行百业智能化提供充沛且普惠的云上 AI 算力服务,从而为中国 AI 算力争取到了长足的领先空间与发展窗口。
更值得一提的是,当产业从万卡向十万卡集群演进,超节点修筑 AI 算力长城的脚步也并未停下。华为云 AI 峰会上,华为云公布了 CloudMatrix 384 超节点的创新技术优势。

昇腾云和 CloudMatrix 384 超节点,实现了 MoE 亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大科技创新,这些创新如同 " 技术砖石 ",稳固支撑 AI 产业发展更进一步,成为 AI 时代理想的基础设施。
为什么这么说?这就要提到各行各业的 AI 训推需求,要求云上算力,竖起三道重要的防线:
一是算力充沛的性能防线。
正如杰文斯悖论所说的,Deepseek 虽然降低了单个模型对算力的需求,但随着应用 AI 的用户越来越多,算力资源的总需求量非但没有减少,反而进一步增加了。这一背景下,国产 AI 算力面临双重困境,一是单卡性能落后英伟达最新产品,二是多卡集群会 " 打群架 ",堆卡但不增效。而提升算力集群的资源利用率,需要存储(存力)、网络(运力)的共同做功,来适配最新的计算架构。
简单来说,在 DeepSeek 的推动下,MoE 已经成为主流大模型共同追求的实践路径,所谓 MoE 架构,就是从 GPT4 这样的少量大专家的超大规模参数模型,变成了大量小专家的模式,在每张卡上都部署多个小专家。但传统架构下,MoE 模型容易因为专家负载不均、AllToAll 通信延迟等,导致算力浪费,降低资源利用率。
CloudMatrix 384 超节点的分布式推理平台可以说是专为 MoE 大模型而生,具有 MoE 亲和的技术特性。对比一卡多专家的 " 小作坊模式 ",超节点通过高速互联总线,降低跨机通信损耗,从而实现一卡一专家高效分布式推理,单卡的 MoE 计算和通信效率都大幅提升。通过联接力打破单点算力的性能制约,最大限度地释放算力共振的能力,也体现了超节点以网强算的技术优势。
除了网络通讯,显存容量不高也会制约 MoE 模型的开发。大模型推理的不同阶段,对计算 / 访存的资源需求其实并不一致,比如 prefill 阶段需要高算力,而 decode 阶段需要高防存,但传统 " 存算绑定 " 的模式不够灵活,就限制了资源利用和性能吞吐。

解决 MoE 模型的 " 存力 " 难题,华为云首创了 EMS 弹性内存存储,通过内存池化技术,实现显存和算力解绑。一方面,用 EMS 替代 NPU 中的显存,可使得首 Token 时延降低,最高降幅可达 80%;另一方面,当 NPU 的显存不足时,EMS 独立扩容,不必再通过堆 NPU 以获得更多内存。同时,EMS 还支持算力卸载,这也使得系统吞吐量提升 100%。
提高运力以网强算、提高存力以存强算,合力提高综合计算性能,从而为各行各业应用 Deepseek 等 MoE 模型,提供澎湃算力,正是 CloudMatrix 384 所筑起的性能防线。
二是算力可靠的稳定防线。
解决了性能问题,接下来还解决多卡集群 " 打群架 " 的可靠性问题。千卡乃至万卡级算力集群的运维挑战,已经成为算力的关键瓶颈。集群规模增大,故障频发,导致训练中断,模型开发团队不得不频繁执行检查点 checkpoint 保存操作,这不仅延长了大模型训练周期,还会导致计算资源浪费,开发成本增高。
构建高可靠性的智能运维体系,已成为云上算力长城的必要职责。对此,华为开发了昇腾云脑运维 "1-3-10" 标准,即 1 分钟感知、3 分钟定界、10 分钟内恢复,从而具备了保障长稳大模型训练的能力。
也意味着,中国 AI 有了更具韧性的算力基础设施。

三是算力普惠的成本防线。
DeepSeek 到来之后,AI 推理侧的任务激增,而训练侧的算力需求则在下降。对于云服务商来说,针对用户访问的潮汐特征(日间推理峰值远远大于夜间),做好算力资源的动态平衡,可以进一步优化资源利用效率,避免算力闲置,这样能够实现综合成本最优,最终让成本优势变成价格优势、普惠能力,为行业和用户提供像 " 水电 " 一样实时、普惠、灵活的算力。
目前,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百 TB 级的带宽互联,10 毫秒时延圈覆盖全国 19 个城市群,让行业用户不需要自建数据中心,可以像水电气一样,第一时间享受到即开即用的 AI 算力资源。
同时,华为云通过" 训推共池 "" 灵活调度 "两大技术,实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,实现了全国超节点算力资源的 " 错峰用电 ",算力资源利用率可提升 30% 以上。
通过性能、稳定、普惠的三道防线,华为云 CloudMatrix 384 超节点可以更好地守护各行各业的智能化需求,成为中国 AI 巍然挺立的坚实基础设施。
正如长城的出现,守护了古代中国的国土安全。超节点通过多项技术特征的加持,让以卡为单位的分散式 AI 算力,走向了集中式 AI 计算底座,成为真正意义上的下一代 AI 基础设施,一座坚固的云上算力长城。

更宏观的角度来看,超节点技术不仅仅是一项工程性创新,它还彻底改变了芯片制造领域的技术对垒格局。
英伟达最新推出了基于第五代 NVLink 技术的 NVL72,并且将其局限在自身生态当中,客观上构成了对中国 AI 算力的发展制约。但实际上,我们真正需要的不是芯片本身,而是算力。通过重新定义 AI 基础设施,超节点技术为 AI 算力的供给提供了前所未有的澎湃动力,进而突破了被芯片制程锁死的 AI 进程。
在当前国际博弈的大背景下,超节点的出现,正是中国应对挑战、把握 AI 机遇的有力证明。

除了超节点之外,华为云还在大模型、AI 生态等领域进行了持续升级,持续迭代的盘古大模型,已经在 30 多个行业、400 多个场景中应用,在制造、金融、政务、医疗、制药、汽车、气象等七个行业保持市场规模领先。
在算力底座、资源调度、推理服务及集群可靠四个方面,华为云全面升级昇腾 AI 云服务,协助客户进行模型的开发、训练、托管和应用。目前,昇腾 AI 云服务已适配包含 DeepSeek 在内的 160 多个第三方大模型,并面向政府、金融、互联网、零售等行业服务 600 多家创新先锋企业。
就像美国的贸易冲击,掀不翻中国经济的汪洋大海,美国的一纸禁令,也禁不了昇腾这座云上 AI 算力长城。
当山姆 · 奥特曼在国会参议院建议要加大 AI 基础设施投入的时候,昇腾 AI 云服务已经通过超节点的建设,以及更多技术、产品、资源的汇集,为接下来的中国 AI 应用大爆发做好了准备——下一代 AI 基础设施,就是中国 AI 走向强大的内因。

2025 年 5 月 16 日,被制裁整整六年的华为依旧在茁壮生长,并且在这些年里拿出了 MetaERP、数据库、软硬件工具链等等核心技术突破。如今超节点的加入,让这六年中所有的故事都更加熠熠生辉。
华为的故事在反复提醒着一件事:我们除了强大,无路可走。
曾几何时,先进 AI 算力必然来自西方,被认为是一个 " 铁律 "。但 CloudMatrix 384 超节点的突破,不仅证明了中国可以有自主化的可靠 AI 算力基础设施,更证明了中国 AI 算力可以实现系统性领先,甚至可以改变企业用户的 AI 算力获取方式,给全球 AI 一个更好的算力选择。
近几个月,所有国际新闻都在提醒我们,只有当自身足够强大,能够给自己和他人提供选择,我们才有话语权,才有交流和谈判的空间,才能为多元、开放与平等添加一份保障。

从这个意义来说,CloudMatrix 384 超节点就如同 AI 世界中的长城。它伫立在那里,确保了全球 AI 的自由勃发与平等成长。
巍巍昆仑,翼翼长城。一些源于中国文化的智慧,一些来自中国科技的态度,此刻正无言流淌在奔腾的 AI 算力中,相信它们很快会被世界读懂。
