英伟达在GPU领域深耕多年,自1999年发布首款GPU至今,已有约27年时间。其芯片制程从220纳米迭代至4纳米左右,未来还将向1.6纳米推进,这也是我们较为期待的投资价值。
本轮AI浪潮始于2023年,当时市场主流GPU为A100与H100。截至目前,市场主流GPU已更新为Blackwell架构芯片。A100与H100的核心技术特征是什么?其中H100芯片性能强劲,在2023年AI浪潮爆发后,迅速成为市场炙手可热的GPU产品。
H100由中国台湾台积电采用4纳米工艺代工生产,单芯片集成800亿个晶体管,还专门内置了Transformer模型引擎。为什么要专门针对Transformer做硬件适配?当前国内外我们耳熟能详的各类大模型,其底层架构基本都是基于Transformer基础架构针对性优化发展而来。
英伟达极具前瞻性地在Hopper架构中,从硬件层面对Transformer做了专项优化,也就是引入了对应的专用引擎。英伟达也凭借这一核心优势,在短短两年多的时间里,从一家规模中等的企业,成长为全球市值第一的科技巨头,由此也能充分看到AI产业的强劲爆发力。
总结来看,H100的核心优势是极致适配大模型训练场景。其在大模型训练中的能效比与运算速度,相比上一代Ampere架构的A100芯片,均有大幅提升。
英伟达在2023年前后发布的Blackwell芯片,则重点针对AI推理场景做了优化。AI产业发展的后半程,推理场景的重要性愈发凸显,Blackwell在推理场景优化上做了大量技术布局,其中就包括低精度训练技术。什么是低精度运算?GPU的晶体管数量是有限的,采用低精度数据进行计算,能够在单位时间内完成更多次运算,完美契合推理场景降本提效的核心需求。因此Blackwell架构更侧重推理场景优化,同时也保留了极强的训练性能。
展望未来,大家可以重点关注英伟达的产品发布节奏与技术路线图。本届GTC大会上,英伟达正式披露了其未来数年的新品规划,清晰梳理并展望了从Blackwell到Rubin再到Feynman的技术演进路线。其中2027年将推出RubinUltra架构、CPX芯片与CPU交换机,2028年将实现Feynman架构芯片的量产,这些重磅新品均已在本届GTC大会上完成首次亮相。
本届大会的核心重磅发布之一,就是Feynman架构芯片。目前英伟达市场主流GPU仍是Blackwell架构的GB300,该芯片已实现量产,目前仍在持续放量的GPU产品均基于GB300基础架构。按照本次大会披露的规划,英伟达将于今年下半年推出Rubin架构的新一代GPU,2028年实现Feynman架构芯片的量产,整体架构迭代速度非常快。
。本次大会官方披露,Feynman架构芯片将采用台积电A16制程生产,是全球首款1.6nmAI芯片。相较台积电上一代N2P工艺,A16制程在同等电压下速度提升约10%,更关键的是晶体管密度提高1.1倍,实现了翻倍以上的增长。摩尔定律带来的计算密度提升,让Feynman架构芯片的性能表现实现了重大突破,单GPU算力达50PFLOPS,推理性能是Blackwell的5倍。该芯片的核心升级集中在制程层面,同时采用背部供电技术,面向机器人、世界模型场景打造,初期英伟达将独享A16产能,2028年正式量产。
第二个核心重磅发布,是大算力机柜的升级。当前AI机柜的算力规模持续扩大,英伟达目前主流的Blackwell架构GB300机柜,单机柜搭载72张GPU卡。本届大会上,英伟达正式推出了单机柜576卡的Rubin Ultra NVL576卡机柜,完整披露了这款机柜的核心架构设计。本次大会正式展出了Rubin Ultra所采用的Kyber机架与正交背板连接方案,该方案采用正交背板实现前后向连接,将垂直部署的计算刀片与交换刀片直连,在Scale up架构中替代传统铜缆,有效提升单机柜算力集成度,相关光互联技术细节也同步在本届GTC大会上完成披露,成为本次大会的核心亮点之一。
第三个核心发布内容,是英伟达CPO交换机的技术进展与产业规划。CPO是一项新兴技术,也是英伟达重点推进的技术方向。本届GTC大会上,英伟达正式展示了SN6800、SN6810、Q3450三款量产落地的CPO交换机,这是全球首款量产的共封装光学交换机,标志着CPO技术正式从实验室走向规模化商用。同时英伟达对CPO技术做了全面的技术解读与产业规划披露,黄仁勋明确表示“需要更多的铜缆产能,更多的光芯片产能,更多的CPO产能”,确立了铜缆、光学、CPO三条路线并行推进的发展路径,CPO技术的渗透率提升速度与规模化放量进度有望持续超出市场预期。
第四个核心发布内容,是市场高度关注的LPU芯片与配套机柜。英伟达去年已推出CPX系列产品,本届大会正式发布了整合Groq技术的LPU芯片与配套机架,之所以持续布局LPU芯片,核心原因是适配快速增长的AI推理场景需求。AI发展初期,尤其是2023年,绝大部分算力都用于大模型训练;但对于商业化云厂商而言,模型训练完成后,需要通过落地应用实现商业变现,不能只做投入。因此长期来看,AI推理赛道具备极高的产业价值。
AI推理有明确的技术特征,整体分为Prefill(预填充)与Decode(解码)两个阶段。这两个阶段对硬件的需求存在差异,因此要提升推理效率,最优方案是将两个阶段拆分运行。英伟达为此做了大量技术布局,无论是去年发布的CPX芯片,还是本届GTC大会上正式发布的LPU芯片,核心目标都是更好地适配AI推理的发展趋势。该LPU芯片可视为专为推理场景设计的专用集成电路(ASIC),采用三星4nm制程,单芯片带宽达150TB/S,核心目标是实现极致的低延迟与高吞吐量,引入后将由其负责Decode环节,相较于BlackwellNVL72吞吐效率提升35倍,预期2026年下半年出货。英伟达在AI训练领域已建立极高的技术壁垒,其也希望在推理赛道构建起同样坚固的护城河。
以上就是本届GTC大会我们重点梳理的核心发布内容,在此做简要总结:
1.Rubin Ultra576卡机柜及其先进互联方案;
2.Feynman架构芯片的正式亮相与参数披露;
3.CPO交换机的量产落地与技术规划解读;
4.LPU等推理专用芯片的正式发布与落地计划。
长期来看,AI行业发展远未触顶,2026年全球AI资本开支预计超7000亿美元,Agent技术进入规模化商用元年,产业成长空间全面打开。投资层面,核心推荐通信ETF国泰(515880),光模块、服务器等算力核心权重超75%,2025年涨幅居全市场ETF首位;半导体设备ETF国泰(159516)受益于全球存储扩产与国产替代双重逻辑,具备充足业绩弹性。同时短期布局需警惕美联储货币政策不确定性、大宗商品涨价推高运营成本等潜在风险。
风险提示:
投资人应当充分了解基金定期定额投资和零存整取等储蓄方式的区别。定期定额投资是引导投资人进行长期投资、平均投资成本的一种简单易行的投资方式。但是定期定额投资并不能规避基金投资所固有的风险,不能保证投资人获得收益,也不是替代储蓄的等效理财方式。
无论是股票ETF/LOF基金,都是属于较高预期风险和预期收益的证券投资基金品种,其预期收益及预期风险水平高于混合型基金、债券型基金和货币市场基金。
基金资产投资于科创板和创业板股票,会面临因投资标的、市场制度以及交易规则等差异带来的特有风险,提请投资者注意。
板块/基金短期涨跌幅列示仅作为文章分析观点之辅助材料,仅供参考,不构成对基金业绩的保证。
文中提及个股短期业绩仅供参考,不构成股票推荐,也不构成对基金业绩的预测和保证。
以上观点仅供参考,不构成投资建议或承诺。如需购买相关基金产品,请您关注投资者适当性管理相关规定、提前做好风险测评,并根据您自身的风险承受能力购买与之相匹配的风险等级的基金产品。基金有风险,投资需谨慎。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。