更新时间:2026-01-15 00:18 来源:牛马见闻
是进入了全栈AI Infra的深水区就能在这场AI竞赛中胜出达在训练级AI芯片
<p style="border:0px;text-align:justify;">昨天发的《云]厂商的AI决战》里,!我们聊到一个关键判断:今天的AI云竞争,早就不是比谁家GPU多、Token跑得快了,而是进入了全栈AI Infra的深水区。</p> <p style="border:0px;text-align:justify;">今天咱们就顺着这个思路再往下探一层:既然胜负手不在表面指标,而在底层效率,那到底该怎么评估一家云厂商是不是真的能打?</p> <p style="border:0px;text-align:justify;">回望2025年,AI Infra的发展已经清晰地走过了一个关键拐点。过去一年,模型能力的跃迁不再只是参数规模的竞赛,而是越来越多地被算力可获得性、成本结构、部署效率所重新定义。头部厂商在GPU云、算力调度、异构集群以及工程化落地能力上的差距逐渐拉大,而这种分化正决定着谁有能力真正承载下一阶段的AI商业化浪潮。</p> <p style="border:0px;text-align:justify;">在这一进程中,一些曾被广泛依赖的评估标准开始显露出其局限性。</p> <p style="border:0px;text-align:justify;">比如,Token这个易于量化、便于传播的指标,一度被部分厂商视为衡量AI云市场的北极星。但现实却给出了不同的答案:国家统计局最新数据显示,2025年中国日均Token消耗量已从年初的约1000亿飙升至30万亿。但据全球权威技术市场研究机构Omdia统计,按Token计费的MaaS服务收入仅占整个AI云市场规模的不到1%。</p> <p style="border:0px;text-align:justify;">究其原因,大量发生在GPU云租赁、私有化部署乃至端侧设备的AI算力消耗根本无法被MaaS平台统计。将Token等同于AI云本身,不仅忽略了中国数字化市场复杂多样的需求,更可能误判了真正的技术护城河。同样具有误导性的还有对硬件数量的迷信,GPU的绝对数量并不等于稳定、高效的可用算力,某头部云厂商的模型市场中曾出现17.7%的GPU算力仅用于处理1.35%的极少量请求,资源浪费严重。</p> <p style="border:0px;text-align:justify;">由此可见,评估一家云厂商的GPU云实力,不能只看Token消耗量或GPU卡数,而应关注其底层系统的整体效率与可控性。而要实现这种效率与可控性,往往离不开对基础设施的深度掌控。</p> <p style="border:0px;text-align:justify;">正是在这一背景下,具备自研GPU云能力的厂商逐渐显现出结构性优势:它们不仅能规避通用硬件的性能瓶颈与供应链风险,还能在软硬协同、调度优化和成本控制上实现更高维度的突破。</p> <p style="border:0px;text-align:justify;">于是,当堆砌硬件的竞赛逐渐失效、大模型进入工程期后,一个更深刻的问题浮出水面:云厂商选择什么样的AI Infra的建设路径才真的可持续?对于志在拥抱AI的企业而言,决定其智能化进程成败的究竟是采购了多少块芯片,还是选择一个具备怎样系统性效率的合作伙伴?</p> <p style="border:0px;text-align:justify;">在模型快速发展的关键时期,打开任何一篇关于AI基础设施的报道,几乎都会看到这样的讨论:谁又拿到了多少H20或B200?哪家云厂商降价了多少?卡型、规格、单价、交付周期……似乎只要拥有更多高端GPU,就能在这场AI竞赛中胜出。</p> <p style="border:0px;text-align:justify;">这种“唯卡论”的叙事在过去一段时间确实主导了市场情绪。毕竟,在大模型训练高度依赖算力的背景下,硬件似乎成了最直观的胜负手。然而,随着行业从狂热扩张走向理性落地,越来越多的实践案例开始揭示一个行业现实:拥有算力,不等于能用好算力。AI算力的价值,最终要通过高效、稳定、可规模化的服务形式释放出来。</p> <p style="border:0px;text-align:justify;">而这其中最关键的板块就是GPU云。GPU云作为AI基础设施的核心,其竞赛逻辑已经发生了根本性变革。</p> <p style="border:0px;text-align:justify;">一方面,高端GPU供应链高度集中且波动剧烈。市场机构IDC统计数据显示,英伟达在训练级AI芯片(如H100、H200、B200)领域占据全球超90%的市场份额,而在中国市场,受出口管制影响,H20、L20等合规型号供应持续紧张,价格波动剧烈,交付周期长达数月,即便企业愿意支付溢价,也未必能及时拿到所需资源。</p> <p style="border:0px;text-align:justify;">但比拿不到更棘手的,是“用不好”。以近期备受关注的英伟达H200为例,尽管已有消息传出春节前可交付数万颗的消息,但即便交易成行,H200也早已不是技术前沿。它的下一代Blackwell系列(如B200/GB200)性能更高。更重要的是,即便企业成功采购到H200,若缺乏底层系统整合能力,依然难以发挥其潜力。</p> <p style="border:0px;text-align:justify;">许多智算中心直接部署整机柜设备,却在上层面临调度系统割裂、通信协议不统一、驱动与框架适配粗糙等问题,导致跨节点任务调度效率低下、故障恢复缓慢、资源碎片化严重。结果往往是显存占满,算力空转。</p> <p style="border:0px;text-align:justify;">这一矛盾在现实中尤为突出。在“2025云网智联大会”上,SNAI推委会荣誉主席韦乐平指出,当前国内智算中心已超280个,看似算力充沛,实则GPU平均利用率不足30%,且分布极不均衡。大量设施长期闲置或低效运行,暴露出典型的“有硬件、无体系”短板。而随着MoE(Mixture of Experts)等新一代大模型架构的普及,对算力调度精度、通信效率和资源弹性的要求更是大幅提升,这也进一步放大了能用与好用之间的鸿沟。</p> <p style="border:0px;text-align:justify;">问题显然不在芯片本身,而在于缺少一套自主可控、软硬协同的全栈技术底座。今天的GPU云竞争早已超越资源囤积阶段,进入系统工程深水区,成为芯片、集群、调度、稳定性与商业化服务有机整合的综合博弈。</p> <p style="border:0px;text-align:justify;">也正是在这样的行业转折点上,百度昆仑芯、华为昇腾等国产AI芯片开始崭露头角,赢得越来越多头部客户的实际认可。国际权威咨询机构弗若斯特沙利文发布的《2025年中国GPU云市场研究报告》清晰捕捉到了这一趋势。报告首次以“自研AI加速芯片 + 万卡级算力集群 + 云服务商业化能力”为三大核心维度,对中国GPU云市场进行系统评估。</p> <p style="border:0px;text-align:justify;">报告指出,2025年上半年的中国自研GPU云市场中,百度智能云以40.4%的市场份额位居第一,华为云以29.5%份额位居第二,其他厂商合计份额为30.1%。值得注意的是,此前百度智能云已经连续六年稳居AI云领域榜首。</p> <p style="border:0px;text-align:justify;">乍看之下,这似乎只是又一份厂商排名,但结合当下GPU云市场的现实,这个第一其实揭示了一个更深层的趋势,AI基础设施的竞争正在从抢卡转向用卡,以及更深层次、更系统性的布局。</p> <p style="border:0px;text-align:justify;">沿着这条路径,我们可以以百度智能云这个领先的案例去看一看,为什么GPU云竞赛的焦点不再是某一个单一指标,而是转变成了一整个系统工程的转型。</p> <p style="border:0px;text-align:justify;">自研AI基础设施从来不是一条容易走的路,投入大、周期长、技术风险高,任何一个环节都可能让前期努力付诸东流,且短期内难以看到商业回报。正因如此,尽管“全栈自研”被广泛视为长期竞争力的关键,真正躬身入局的玩家却寥寥无几。目前,在中国AI云市场中,仅有百度智能云、华为云等少数头部厂商选择坚持这一路径,并形成了从底层算力到上层应用的高效闭环。</p> <p style="border:0px;text-align:justify;">回溯他们脱颖而出的路径,一个关键问题浮现出来:领先,究竟源于什么?</p> <p style="border:0px;text-align:justify;">根据报告来看,答案并非某个单点技术的突破,而是一整套关于自研芯片、集群规模、云服务能力的长期实践。</p> <p style="border:0px;text-align:justify;">以百度智能云为例,从硬件底层开始,其就选择从自研AI芯片昆仑芯切入,为整个算力体系预留了持续演进的空间。算力架构不再被通用硬件锁定,而是能围绕真实模型需求动态优化。值得注意的是,昆仑芯的研发起源于十余年前百度对大规模搜索场景下FPGA加速器的深度探索,其从诞生之初,就带有为AI基础设施服务的强烈基因。目前,昆仑芯已完成数万卡的规模化部署,服务于招商银行、南方电网、中国钢研等上百家行业客户。</p> <p style="border:0px;text-align:justify;">目前昆仑芯不仅能大规模支撑百度内部的推理业务,在训练层面也取得了一定的成绩,而前不久发布的全新一代AI芯片,在面向大规模推理场景进行深度优化的同时,也将推出更适配多模态模型超大规模训推的产品,为后续的算力演进预留空间。</p> <p style="border:0px;text-align:justify;">芯片只是起点,要释放规模算力的真正价值,还需要更高维度的系统整合。为此,在节点层,百度智能云进一步构建了百度天池超节点,通过更高密度的算力组织与更低延迟的互联,为大规模并行计算提供稳定基础。根据百度智能云官方披露,相比上一代产品,天池256超节点的整体性能提升50%,天池512超节点单个超节点即可支撑万亿参数模型训练,大幅降低跨节点通信开销与任务碎片化。</p> <p style="border:0px;text-align:justify;">单节点的强悍能够进一步提升算力使用的性价比,也让集群的建设更加快速。2025年4月,百度智能云就已经点亮了昆仑芯三万卡集群,在去年11月的百度世界大会上,百度智能云表示还将不断扩大集群规模,未来目标推向百万级。</p> <p style="border:0px;text-align:justify;">随着算力规模迈过万卡向更高层次进发,挑战也从"有没有算力"转向"能不能用好算力"。</p> <p style="border:0px;text-align:justify;">面对大规模的模型训推需求,在高并发、高负载的情况下保持可预期的性能表现至关重要。在最上层,上述那些分散在芯片,超节点与集群层面的能力被百度百舸AI计算平台上进一步整合、放大,并以云服务的形式高效输出。</p> <p style="border:0px;text-align:justify;">据悉,百度百舸5.0在深度适配昆仑芯的同时,也支持多款国内外主流芯片,在超大规模集群上的有效训练时长超过95%,从结果来看,其在异构算力调度和集群稳定性方面已相当成熟。不只是稳定性,百度百舸定位面向大模型训推一体化的AI基础设施,能够通过领先的AI工程加速能力,覆盖企业在模型开发、训练、部署及推理的全流程需求,为AI落地提供高效易用的服务。</p> <p style="border:0px;text-align:justify;">这种多维度、全栈式的能力建设,显著提升了对客户多样化、复杂化AI需求的支撑能力。目前,百度智能云已服务超过65%的央企、全部系统重要性银行、95%的主流车企、一半以上的头部游戏公司,以及众多走在前沿的具身智能企业。这些对稳定性、安全性和效率要求极高的客户,用真金白银投出了信任票。</p> <p style="border:0px;text-align:justify;">可以说,百度智能云的全栈优势再次证明了研发为王、底层自研这种长期主义逻辑。在技术深水区,没有捷径可走。唯有坚持底层自研、系统思维与工程落地三者合一,才能构筑真正难以逾越的竞争壁垒。如今市场份额位居第一,本质上就是对这条路线已然跑通的有力验证。</p> <p style="border:0px;text-align:justify;">站在产业演进的高度回望,GPU云的竞争早已超越技术参数与市场份额的表层较量,其真正价值在于,能否成为千行百业智能化转型的可靠底座。</p> <p style="border:0px;text-align:justify;">随着模型智能的进一步提升,大规模推理需求开始对GPU云提出了更高的要求。各行各业正在将AI融入业务流程,具身智能、AI Agent等新兴应用的发展,对AI基础设施提出了更为苛刻的需求。这不仅仅是峰值算力,还包括低延迟响应、高通信效率、确定性调度以及长期可用性。</p> <p style="border:0px;text-align:justify;">过去几年,大模型从实验室走向工厂、电网、银行和汽车生产线。但当 AI 从“试验性能力”进入“业务基础设施”阶段,产业侧提出的要求发生了本质变化。</p> <p style="border:0px;text-align:justify;">产业客户要的从来都不只是最强算力,更是稳定、安全、可预期、可负担的智能服务。他们无法承受因调度抖动导致训练中断,不能接受因芯片断供而业务停摆,更难以承担高昂且不可控的推理成本。在这样的现实需求面前,单纯堆砌英伟达GPU的“快餐式”方案显得力不从心。硬件再强,若缺乏底层协同与长期演进能力,终究难以支撑产业级AI的持续运行。</p> <p style="border:0px;text-align:justify;">也正是在这一现实约束下,国产GPU云的纵深价值开始显现,云厂商需要通过从芯片到超节点,再到集群与云服务的全栈布局,构建高度协同、自主可控的AI基础设施体系。这种系统性能力,不仅降低了大规模AI应用的工程门槛,更让企业在面对快速演进的技术环境时,拥有了更强的适应力与确定性。</p> <p style="border:0px;text-align:justify;">例如,百度天池超节点可将单卡性能提升95%,单实例推理性能提升高达8倍;华为昇腾910B的FP16算力达到256 TFLOPS,寒武纪思元590在边缘端推理能跑出128 TOPS。这些性能优势使得国产芯片在实际应用中展现出强大的竞争力。</p> <p style="border:0px;text-align:justify;">实际业务中,国产AI云已经深度结合进产业之中,百度智能云以昆仑芯P800为核心,结合百度百舸AI计算平台5.0,为招商银行提供高效、稳定的算力支持,推动大模型在金融场景的深度应用;百度智能云与长安汽车共建长安汽车智算中心,为深蓝汽车等在售全系车型提供实时推理算力支持,总算力规模已超1000PFLOPs。</p> <p style="border:0px;text-align:justify;">对企业和开发者而言,选择GPU云,本质上是在选择未来数年AI演进的底座。从自研芯片,到超节点算力组织,再到云平台级的统一调度与服务输出,这种纵向一体化能力,决定了这一底座是否稳定、可控、可持续。它降低的不只是技术门槛,更是产业在使用AI过程中面临的不确定性成本。</p> <p style="border:0px;text-align:justify;">一个经过全栈优化、具备长期演进能力的基础设施,不仅能支撑当前模型训练与推理需求,更能为未来的架构升级、成本优化和业务创新预留空间。底座越牢固,底层加持越显著,在应用层和模型层构建的差异化优势也就越难以被复制。</p> <p style="border:0px;text-align:justify;">更重要的是,这种自研路径为中国产业保留了技术主动权。在全球供应链高度不确定的背景下,一个能同时驾驭国产芯片与国际硬件、并实现高效调度的平台,意味着企业不必在安全与性能之间做痛苦取舍。AI由此真正从可选项变为必选项。</p> <p style="border:0px;text-align:justify;">因此,GPU云的竞争终局,不是资源规模的简单比拼,而是系统效率与长期价值的较量。在这场比耐力、比深度、比工程定力的长跑中,真正能将算力转化为稳定生产力的一方,才有望笑到最后,托起最广阔的产业未来。</p> <p></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901