算力网建设下的服务器产业链:挑战与机遇并存
在数字经济潮涌与大模型井喷的时代,算力正如水、电一般,逐日成为现代社会赖以生存的稀缺资源。可以说,谁拥有了算力的主导权,谁就捏住了面向人工智能的头等船票。
这样的时代巨浪下,我国的算力也已步入高速发展新阶段。在此过程中,构建全国一体化算力网,更是应对新一轮科技革命和产业变革的重要举措。而在进行全国 “算力网” 的布局中,存在不同的市场主体角色,包括阿里、华为、电信运营商乃至其他算力服务商,都有自己的主张。
就此,21 世纪经济报道推出 “算力网风云” 系列报道,围绕中国算力一体化体系建设现状、难点与堵点、产业链机会等进行全方位解读。在对国内算力网现状进行 5 篇稿件解读后,接下来的系列稿件将重点关注算力上中下游产业链企业如何参与一体化算力网建设,以及随着全国一体化算力网建设铺开,相关产业链未来的发展空间、投资机会。
算力产业链系列稿的第三篇、亦即专题第八篇稿件重点关注服务器产业链。在全国算力一体化建设的背景下,算力服务器正在扮演着至关重要的角色。传统算力服务器如何更好地迎合当下大模型的海量需求,仍是一个值得产业界思考的命题。
一、算力服务器:全国算力一体化的核心支柱
在全国算力一体化建设的背景下,算力服务器正在扮演着至关重要的角色,既是算力供给的基础载体,也是资源调度的关键节点。
(一)算力供给的核心设备
作为提供计算资源的核心设备,算力服务器是实现全国算力一体化的基础。通过集中或分布式部署,算力服务器为各种应用和服务提供必要的计算能力 —— 从日常的政务处理、企业数据存储,到 AI 大模型训练、科学计算等高端需求,都依赖于算力服务器的稳定输出。
(二)算力调度的中心节点
在全国算力一体化的体系中,算力服务器可以作为算力调度的中心节点,根据需求动态分配和调整计算资源。例如,当东部地区面临算力峰值压力时,服务器可通过跨区域网络将任务分流至西部枢纽节点的闲置算力,实现 “东数西算” 的高效落地,满足不同地区和行业的计算需求。
(三)市场规模快速扩张
在 AI 训练需求快速上升的背景下,服务器市场规模也在快速扩张。IDC 预计,2023 年中国人工智能服务器市场规模将达到 91 亿美元,同比增长 82.5%;2027 年将达到 134 亿美元,年均复合增长率为 21.8%,展现出强劲的增长动能。
二、一体化算力网建设:政策推动与现实挑战
2023 年 12 月,国家发展改革委、国家数据局会同有关部门联合印发《深入实施 “东数西算” 工程 加快构建全国一体化算力网的实施意见》,为算力网建设提供了政策指引。
(一)建设进展与成效
“文件印发以来,我们统筹优化算力资源配置。加快建设全国一体化算力网,推动通用算力、智能算力、超级算力等多源异构算力的协同发展,促进各类新增算力向国家枢纽节点集聚。在构建跨域算力调度体系方面,国家数据局正在推动建立八大枢纽节点和十大数据中心集群算力发展情况一本账,以十大集群为核心,推动算力资源混合部署和统一调度。” 国家发展改革委党组成员、国家数据局局长刘烈宏在近期举办的新闻发布会上总结道。
(二)面临的关键难题
尽管进展显著,刘烈宏也指出,算力网建设仍面临多重挑战,核心在于 “算力网络” 的编织工作尚未完成:
(三)政策加码绿色与能效
为推动算力服务器市场结构升级,工信部、国家发展改革委等六部门联合发布《工业能效提升行动计划》,明确 “东数西算” 工程中,内蒙古、贵州、甘肃、宁夏 4 处枢纽的数据中心集群 PUE 需控制在 1.2 以内;京津冀、长三角等其他枢纽集群 PUE 控制在 1.25 以内。
各地更是采取了更严格的标准:例如北京规定新建和改扩建智算中心 PUE 值一般不超过 1.25,年能耗超过 3 万吨标煤的大规模先进智算中心 PUE 值一般不超过 1.15。这一约束将倒逼数据中心采用液冷、整机柜等高能效技术方案,推动服务器产业向绿色化转型。
三、传统服务器的升级需求:应对波动与技术挑战
在全国一体化算力网建设规划下,传统算力服务器面临着新的升级需求,既要应对算力波动,又要突破技术瓶颈。
(一)算力需求波动的应对
神州数码信创业务集团计算产品线总经理吴艳伟在接受采访时表示,算力需求的波动性(呈现峰值和低谷)要求数据中心能够灵活应对。例如,春节期间某些地区的算力需求会急剧上升,这对数据中心的自动化和智能化运维水平提出了极高要求。
未来,数据中心需要自动化和智能化的运维工具,以实现算力的快速调度和优化,同时保证安全性和实现预测性维护 —— 这意味着服务器不仅要提供算力,还需具备智能感知、动态调整的 “大脑” 功能。
(二)AI 大模型带来的技术挑战
从技术角度来看,AI 大模型对于算力服务器提出了近乎 “无穷尽” 的需求,带来了多维度挑战:
1. 计算资源扩展瓶颈
“如果说千亿参数是大模型智能涌现的门槛,那么万卡则是 AI 系统设计的起点,对目前计算机系统提出了全面的挑战。” 浪潮信息相关负责人表示,AI 系统的性能主要源于 GPU 等加速器,需要强大的异构扩展能力,但传统计算机体系结构限制了异构加速器的扩展性。
“加速计算模块一直被作为 CPU 的配属单元,依靠 PCI-e 总线接入系统,只支持有限数量的异构单元,并且同 CPU 的通信带宽也十分有限,因而 CXL、NVlink 等下一代总线技术发展迅速。”
2. 大规模集群互联压力
当前 AI 训练集群已从千卡、万卡增长到十万卡级别,节点间的并行产生大量通信需求。相关数据显示,当前张量并行频率达 28.4 次 / 秒,需要带宽 194GB / 秒,网络的延迟和带宽不足使得计算单元经常因等待数据而空闲,严重限制了集群效率。例如 GPT-4 的集群有 2.5 万块 GPU,效率仅 32%-36%,在当前技术条件下已接近极限。
3. 算法与硬件匹配问题
由于 AI 训练是超级复杂的计算系统,算法结构与硬件结构匹配不合理、并行化处理不科学等,都会导致整个计算平台的利用率偏低,造成算力浪费。
4. 能效与散热压力
智能算力需求的扩大导致算力服务器面临巨大能效压力:当前单颗 AI 芯片的功耗已突破 2700W,单机柜 AI 服务器的功耗突破 100KW,热功率密度几乎超越风冷的物理极限。在国家 “双碳” 战略背景下,AI 的能效挑战愈发严峻,数据中心的液冷化成为大势所趋。
四、发展趋势与产业链机遇
在上述问题的驱动下,算力服务器呈现出明确的发展趋势,同时为产业链带来了广阔机遇。
(一)技术趋势:体系重构与集成创新
体系结构革新:传统以 CPU 为中心的体系结构难以适应 AI 需求,以数据为中心,基于 CXL、NVlink 等下一代总线技术的新一代体系结构发展迅速,提升异构计算效率。
系统级创新:单颗芯片性能提升受限,AI 计算系统需集成更多芯片来获得大算力,集群设计起点已达万卡级别。互连、算法等关系整体效率的工作愈发重要,推动服务器从 “硬件堆砌” 向 “系统优化” 转型。
高密度与液冷结合:“智算节点内的 P2P 高速互连距离有限,最多能做到 1-2 个机柜之间的高速互连,所以 AI 计算必然走向高密度。同时,GPU 功耗越来越高,比如英伟达最新的 GB200 超级芯片(集成 1 颗 CPU、2 颗 GPU)最大功耗达 2700W,高密度部署与高功耗芯片叠加,使得单机柜功率从当前的 12-16 千瓦提升至 120 千瓦,散热逐渐走向液冷。AI 计算、液冷和整机柜的结合将成为未来趋势。” 浪潮信息负责人说道。
(二)产业链机遇:从技术升级到模式创新
液冷技术加速渗透:严格的 PUE 约束推动液冷技术普及。根据 IDC 数据,2023 年中国液冷服务器市场销售额同比增长 48.0%,预计 2023-2028 年市场年复合增长率将达到 45.8%。其中,浪潮信息表现突出,2023 年市场份额达 36.8%,排名第一,引领行业发展。
智能运维需求爆发:随着技术发展,数据中心的运维正走向智能化,包括预测性维护和故障自愈能力,以提高运营效率和可靠性。这为服务器管理软件、监控设备等细分领域带来增长空间。
商业模式革新:一体化算力网建设颠覆了算力业务的传统模式,从单纯销售服务器硬件向提供算力租赁等新服务转变。这种模式允许高校、研究所和创新企业等不具备大型数据中心建设能力的机构,通过租用算力满足高端需求。“未来,算力租赁有望作为新商业模式,在算力需求高峰期将资源调度到需求高的地区或行业,提高资源利用效率。” 吴艳伟说道。
结语
在全国一体化算力网建设的浪潮中,算力服务器正经历从 “硬件设备” 到 “智能算力节点” 的深刻转型。面对算力波动、技术瓶颈和绿色要求等多重挑战,服务器产业链企业需加快技术创新,推动液冷、异构计算、智能运维等领域的突破。与此同时,商业模式的革新也为行业开辟了新赛道,算力租赁、跨域调度等服务将成为未来竞争的焦点。
对于服务器企业而言,能否抓住这一轮升级机遇,不仅关乎自身的市场地位,更将影响中国在全球算力竞争中的话语权。在政策推动与市场需求的双重驱动下,算力服务器产业链正迎来前所未有的发展空间,为全国一体化算力网的建成提供坚实支撑。
下一篇:AI 驱动下的服务器行业:现状、格局与未来趋势