华为昇腾NPU集群突破万亿参数大模型训练壁垒,6000+芯片实现718B参数MoE模型稳定训练,算力利用率提升58.7%!纯国产硬件丝滑攻克负载均衡、通信墙等四大技术难关,硬核黑科技让英伟达GPU黯然失色。
华为昇腾已经跑通训练准万亿参数的大模型!
以前要训练接近一万亿参数的模型,大家都得靠英伟达GPU才行。但华为直接在自家的昇腾(Ascend)NPU平台上,实现了对7,180亿参数MoE(稀疏专家模型)稳定的长时间训练。
最新公布的技术报告里披露,华为盘古团队(含诺亚方舟实验室和华为云)在超过6,000块昇腾NPU组成的集群上,靠多项系统级优化,一口气解决了跑大模型的负载均衡、通信开销和效率低下等“拦路虎”。
这些创新的优化一上来,训练速度立马嗖嗖往上涨,直接把顶尖大模型的研发给顶住了!从此,大厂也不用非得买英伟达GPU做训练了 —— “国产”两字,在大模型硬件上砝码越压越重。这一成果不仅刷新国产算力纪录,更标志着我国在AI基础设施领域已具备国际顶尖水平。
下一篇:美限制芯片出口背景下,英伟达推 H20 降级芯片保中国市场