每日经济新闻

    刚刚!DeepSeek重大发布!梁文锋参与共创!

    每日经济新闻 2025-02-19 00:53

    每经编辑 金冥羽    

    2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。

    据介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

    CFF20LXzkOySME66m7r8N7ibHjYjAVFPrynFl1dR0mkG7DLwbZV9pMBxycKciafL0ONp4lwFhKbxBUUfz3L2QxVQ.jpg

    在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人兼CEO梁文锋也作为共创在列。

    CFF20LXzkOySME66m7r8N7ibHjYjAVFPrOibRsm9FiaQJ73k5P6JkH1L4Jg5bcibUBLdfjzDqDSul7HbQ1aTqmQuiag.jpg

    其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

    值得一提的是,今日中午12点(太平洋时间17晚8点),马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

    CFF20LXzkOySME66m7r8N7ibHjYjAVFPraRGGG8So4icn2uCbtb7Y0uDxynOSSNibibZDPjzRYLxsTiarOSbQ61SveQ.png

    图片来源:直播截图

    Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。此前马斯克在X上造势称,Grok 3是“地球上最聪明的人工智能”。

    在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

    编辑|金冥羽 杜波

    校对|陈柯名

    封面图片来源:视觉中国

    CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

    每日经济新闻综合自券商中国、财联社、公开资料等

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    拿下“地王”两个半月,华润置地火速把展厅开进山姆超市

    下一篇

    新机场呼之欲出,它要争夺“第四城”?



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验