刚刚！DeepSeek重大发布！梁文锋参与共创！

2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力）。

据介绍，NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPrynFl1dR0mkG7DLwbZV9pMBxycKciafL0ONp4lwFhKbxBUUfz3L2QxVQ.jpg

在这篇名为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek创始人兼CEO梁文锋也作为共创在列。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPrOibRsm9FiaQJ73k5P6JkH1L4Jg5bcibUBLdfjzDqDSul7HbQ1aTqmQuiag.jpg

其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。

值得一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPraRGGG8So4icn2uCbtb7Y0uDxynOSSNibibZDPjzRYLxsTiarOSbQ61SveQ.png

图片来源：直播截图

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。此前马斯克在X上造势称，Grok 3是“地球上最聪明的人工智能”。

在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。

编辑|金冥羽杜波

校对|陈柯名

封面图片来源：视觉中国

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

每日经济新闻综合自券商中国、财联社、公开资料等

关联专题