近期,智能体、各类Skills层出不穷。2026年,已然从生成式AI全面转向智能体AI。而智能体AI的一大特色,便是对Token(词元)需求的大幅攀升。归根结底,推动了推理算力需求指数级跃升。
如今,第一个国产AI推理千卡集群来了。3月12日,根据公开招标信息,云天励⻜中标湛江市AI渗透⽀撑新质⽣产⼒基础设施建设项⽬,中标⾦额4.2亿元。项⽬将基于云天励⻜⾃研的国产AI推理加速卡,建设国产AI推理千卡集群。该集群将搭载DeepSeek等国产⼤模型,为政务、产业及各类应⽤场景提供更加便捷、低成本的AI能⼒,探索打造“国模国芯”的AI⽣态样板。
2023年,人们讨论的是ChatGPT;2024年,Kimi火热一时;2025年,DeepSeek在全网掀起讨论热潮。这些,人们讨论的都是模型能力。如何较好地运营训练算力集群训练出更聪明、效率更高的大模型。
而进入2026年,人们讨论的是养“龙虾”,是SeeDance。而这些,更多是利用大模型的能力去提升生产力。
简而言之,此前业界更多关心大模型能力,即提升人工智能“大脑”的能力。当下,业界关心的,是如何把“大脑”装上四肢,以便真正帮人类干活。无论智能体、Skills还是养“龙虾”,均是基于上述思路。
提升人工智能“大脑”的能力,需要的是训练芯片。而帮人类干活,则需要推理芯片。换言之,训练算⼒决定模型如何完成“从0到1”的能⼒构建,⽽推理算⼒则直接⽀撑AI应⽤落地。
值得注意的是,互联网时代,对硬件的需求是“数人头”,互联网的渗透率越高,对硬件的需求随之升高。而智能体AI时代,对推理算力的需求则是指数型增长。这是因为,智能体AI,任务的复杂度显著提升,需拆解任务、循环调用工具、持久记忆、自我反思等,单任务可消耗数万至百万Token。此外,长上下文的使用,也使得对Token的需求大幅增加。
根据Gartner预测,到2026年,约55%的AI专⽤云基础设施⽀出将⽤于推理⼯作负载。过去,国内许多智算中⼼普遍采⽤“训推⼀体”的建设模式。⽽此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要⾯向各类⾏业应⽤场景,为传统产业的AI化提供直接⽀撑。
湛江也是国产⼤模型DeepSeek创始⼈梁⽂峰的家乡。近年来,当地在“DeepSeek+”应⽤探索⽅⾯动作频频。
2025年初,DeepSeek-R1发布后,湛江即完成本地部署,基于国产技术栈的DeepSeekR1⼤模型率先在湛江政务云上线。该模型在处理通⽤政务事务的同时,还能够持续学习本地产业知识与⽅⾔表达,逐渐形成具有地⽅特⾊的“湛江智慧”。
此次云天励⻜建设的AI推理集群,也将与DeepSeek等国产模型进⾏深度适配,为更多⾏业应⽤提供算⼒⽀撑。
值得注意的是,当下也有不少养“龙虾”的人们,开始纷纷卸载“龙虾”。这在很大程度上是因为,“龙虾”对Token的需求实在比较高。随便进行一些简单的操作,数万甚至十几万Token就已经被消耗。
在生成式AI时代,业界普遍追求的仍是大模型能力,因此不惜成本使用最好的GPGPU(通用图形处理器)建设智算中心,从而通过Scaling Laws(规模法则)来获得更强的大模型。
然而进入智能体AI时代,成本成了第一优先。只有更低成本、更高性价比的推理芯片、推理集群,才能让智能体“飞入寻常百姓家”。
换句话说,未来AI产业竞争的重要维度,不仅在于模型能⼒本⾝,还在于谁能够以更低成本提供稳定的⼤规模推理能⼒。
湛江项⽬的落地,也为这⼀⽬标提供了重要的实践场景。千卡级推理集群不仅能够满⾜当前AI应⽤需求,同时也为更⼤规模算⼒系统提供技术部署平台。
在典型架构下,⼀个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚⾄百卡级超节点,再到跨节点的⼤规模集群。通过这⼀规模系统的实际运⾏,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更⼤规模AI算⼒系统建设积累经验。
事实上,目前已有不少厂商建设了国产AI千卡智算集群。那此次湛江项目的千卡推理集群“新”在哪里呢?
一个大模型良好地运行,需要算力、存储和网络的协同。当下,硬件的瓶颈不仅仅是算力,还有存储和网络。
就推理而言,主要分为两大阶段。Prefill阶段主要负责对⻓上下⽂进⾏理解和计算,计算量⼤、带宽需求⾼;⽽Decode阶段则负责持续⽣成Token,对系统延迟更加敏感。
随着大模型上下文长度的不断增加,不仅需要更多的显存容量,也需要更大的显存带宽。这均对存储提出了更高的要求。
针对存储瓶颈,上述AI推理集群采⽤云天励⻜⾃主研发的AI推理芯⽚,并在系统架构上确⽴了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯⽚设计中对计算资源与存储带宽进⾏针对性配置,使系统在⻓上下⽂推理场景下依然能够保持较⾼的吞吐效率。
在⼤模型应⽤场景中,推理系统通常需要同时满⾜⾼并发、⾼吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采⽤“Prefill‒Decode分离”(PD分离)的推理架构,通过对不同阶段进⾏资源优化,实现系统性能的整体提升。
而PD分离,不仅需要优化配置计算资源和存储资源,还需要在网络领域具有强大的实力。
在⽹络互联⽅⾯,湛江项目在系统层面采⽤统⼀⾼速互联架构,通过400G光⽹络构建集群物理层⽹络,实现节点之间的⾼带宽、低延迟通信。
传统的方案,节点内和节点间分别采⽤不同协议构建⽹络。这就如同火车在中国行驶在标准轨道上,进入东南亚,又需要切换列车,以便行驶在窄轨上。因此,统一的高速互联架构,既减少了协议转换带来的额外开销,也简化了系统部署。
通过芯⽚架构、⽹络互联以及系统调度等多层优化,这⼀推理集群在整体效率与成本控制⽅⾯形成了明显优势,为AI规模化应⽤提供了更加经济的算⼒⽅案。
当算力的重心从训练大模型转向使用大模型,从追求极致性能转向追求极致性价比,AI才能真正打破成本壁垒,成为像水电一样普惠的基础设施。这一集群的出现,恰逢其时地为智能体AI时代补齐了关键短板——它让强大的模型“大脑”拥有了经济、高效的“四肢”,让海量的Token消耗不再是阻碍创新的负担。
以此为起点,国产推理算力将支撑起更丰富的应用场景,推动人工智能从“尝鲜”走向“常用”,真正赋能千行百业的数字化转型。2026年,智能体AI的浪潮已然汹涌而至,而坚实的国产推理底座,正是我们驾驭这股浪潮、迈向新质生产力未来的关键船票。
(本文不构成任何投资建议,投资者据此操作,风险自担。)
文/小七