智能体AI时代算力需求井喷！云天励飞国产推理千卡集群落地，能否把成本“打下来”？

近期，智能体、各类Skills层出不穷。2026年，已然从生成式AI全面转向智能体AI。而智能体AI的一大特色，便是对Token（词元）需求的大幅攀升。归根结底，推动了推理算力需求指数级跃升。

如今，第一个国产AI推理千卡集群来了。3月12日，根据公开招标信息，云天励⻜中标湛江市AI渗透⽀撑新质⽣产⼒基础设施建设项⽬，中标⾦额4.2亿元。项⽬将基于云天励⻜⾃研的国产AI推理加速卡，建设国产AI推理千卡集群。该集群将搭载DeepSeek等国产⼤模型，为政务、产业及各类应⽤场景提供更加便捷、低成本的AI能⼒，探索打造“国模国芯”的AI⽣态样板。

推理算力时代来临

2023年，人们讨论的是ChatGPT；2024年，Kimi火热一时；2025年，DeepSeek在全网掀起讨论热潮。这些，人们讨论的都是模型能力。如何较好地运营训练算力集群训练出更聪明、效率更高的大模型。

而进入2026年，人们讨论的是养“龙虾”，是SeeDance。而这些，更多是利用大模型的能力去提升生产力。

简而言之，此前业界更多关心大模型能力，即提升人工智能“大脑”的能力。当下，业界关心的，是如何把“大脑”装上四肢，以便真正帮人类干活。无论智能体、Skills还是养“龙虾”，均是基于上述思路。

提升人工智能“大脑”的能力，需要的是训练芯片。而帮人类干活，则需要推理芯片。换言之，训练算⼒决定模型如何完成“从0到1”的能⼒构建，⽽推理算⼒则直接⽀撑AI应⽤落地。

值得注意的是，互联网时代，对硬件的需求是“数人头”，互联网的渗透率越高，对硬件的需求随之升高。而智能体AI时代，对推理算力的需求则是指数型增长。这是因为，智能体AI，任务的复杂度显著提升，需拆解任务、循环调用工具、持久记忆、自我反思等，‌单任务可消耗数万至百万Token。此外，长上下文的使用，也使得对Token的需求大幅增加。

‌‌

根据Gartner预测，到2026年，约55%的AI专⽤云基础设施⽀出将⽤于推理⼯作负载。过去，国内许多智算中⼼普遍采⽤“训推⼀体”的建设模式。⽽此次在湛江建设的集群，则定位为专注推理任务的AI推理集群，主要⾯向各类⾏业应⽤场景，为传统产业的AI化提供直接⽀撑。

湛江也是国产⼤模型DeepSeek创始⼈梁⽂峰的家乡。近年来，当地在“DeepSeek+”应⽤探索⽅⾯动作频频。

2025年初，DeepSeek-R1发布后，湛江即完成本地部署，基于国产技术栈的DeepSeekR1⼤模型率先在湛江政务云上线。该模型在处理通⽤政务事务的同时，还能够持续学习本地产业知识与⽅⾔表达，逐渐形成具有地⽅特⾊的“湛江智慧”。

此次云天励⻜建设的AI推理集群，也将与DeepSeek等国产模型进⾏深度适配，为更多⾏业应⽤提供算⼒⽀撑。

从性能第一到性价比第一

值得注意的是，当下也有不少养“龙虾”的人们，开始纷纷卸载“龙虾”。这在很大程度上是因为，“龙虾”对Token的需求实在比较高。随便进行一些简单的操作，数万甚至十几万Token就已经被消耗。

在生成式AI时代，业界普遍追求的仍是大模型能力，因此不惜成本使用最好的GPGPU（通用图形处理器）建设智算中心，从而通过Scaling Laws（规模法则）来获得更强的大模型。

然而进入智能体AI时代，成本成了第一优先。只有更低成本、更高性价比的推理芯片、推理集群，才能让智能体“飞入寻常百姓家”。

换句话说，未来AI产业竞争的重要维度，不仅在于模型能⼒本⾝，还在于谁能够以更低成本提供稳定的⼤规模推理能⼒。

湛江项⽬的落地，也为这⼀⽬标提供了重要的实践场景。千卡级推理集群不仅能够满⾜当前AI应⽤需求，同时也为更⼤规模算⼒系统提供技术部署平台。

在典型架构下，⼀个千卡级集群通常由多级扩展结构组成：从单节点8卡、32卡，到64卡甚⾄百卡级超节点，再到跨节点的⼤规模集群。通过这⼀规模系统的实际运⾏，可以充分验证卡间互联、节点通信和负载均衡等关键技术，为未来更⼤规模AI算⼒系统建设积累经验。

千卡推理集群“新”在哪？

事实上，目前已有不少厂商建设了国产AI千卡智算集群。那此次湛江项目的千卡推理集群“新”在哪里呢？

一个大模型良好地运行，需要算力、存储和网络的协同。当下，硬件的瓶颈不仅仅是算力，还有存储和网络。

就推理而言，主要分为两大阶段。Prefill阶段主要负责对⻓上下⽂进⾏理解和计算，计算量⼤、带宽需求⾼；⽽Decode阶段则负责持续⽣成Token，对系统延迟更加敏感。

随着大模型上下文长度的不断增加，不仅需要更多的显存容量，也需要更大的显存带宽。这均对存储提出了更高的要求。

针对存储瓶颈，上述AI推理集群采⽤云天励⻜⾃主研发的AI推理芯⽚，并在系统架构上确⽴了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯⽚设计中对计算资源与存储带宽进⾏针对性配置，使系统在⻓上下⽂推理场景下依然能够保持较⾼的吞吐效率。

在⼤模型应⽤场景中，推理系统通常需要同时满⾜⾼并发、⾼吞吐与低延迟三项要求。为提升整体效率，当前业界普遍采⽤“Prefill‒Decode分离”（PD分离）的推理架构，通过对不同阶段进⾏资源优化，实现系统性能的整体提升。

而PD分离，不仅需要优化配置计算资源和存储资源，还需要在网络领域具有强大的实力。

在⽹络互联⽅⾯，湛江项目在系统层面采⽤统⼀⾼速互联架构，通过400G光⽹络构建集群物理层⽹络，实现节点之间的⾼带宽、低延迟通信。

传统的方案，节点内和节点间分别采⽤不同协议构建⽹络。这就如同火车在中国行驶在标准轨道上，进入东南亚，又需要切换列车，以便行驶在窄轨上。因此，统一的高速互联架构，既减少了协议转换带来的额外开销，也简化了系统部署。

通过芯⽚架构、⽹络互联以及系统调度等多层优化，这⼀推理集群在整体效率与成本控制⽅⾯形成了明显优势，为AI规模化应⽤提供了更加经济的算⼒⽅案。

当算力的重心从训练大模型转向使用大模型，从追求极致性能转向追求极致性价比，AI才能真正打破成本壁垒，成为像水电一样普惠的基础设施。这一集群的出现，恰逢其时地为智能体AI时代补齐了关键短板——它让强大的模型“大脑”拥有了经济、高效的“四肢”，让海量的Token消耗不再是阻碍创新的负担。

以此为起点，国产推理算力将支撑起更丰富的应用场景，推动人工智能从“尝鲜”走向“常用”，真正赋能千行百业的数字化转型。2026年，智能体AI的浪潮已然汹涌而至，而坚实的国产推理底座，正是我们驾驭这股浪潮、迈向新质生产力未来的关键船票。

（本文不构成任何投资建议，投资者据此操作，风险自担。）

文/小七

智能体AI时代算力需求井喷！云天励飞国产推理千卡集群落地，能否把成本“打下来”？

推理算力时代来临

从性能第一到性价比第一

千卡推理集群“新”在哪？

关联专题