2月25日,DeepSeek宣布开源其DeepEP代码库,这是首个用于混合专家模型训练和推理的开源专家并行通信库。虽然EP技术能以较低的通信成本完成模型训练,但中金认为,这种通信设计技术的进展并不一定会使高速通信的需求减少。值得注意的是,DeepEP代码库开源后半小时,兆龙互连股价一度拉升7.53%。这背后有无关联?
每经记者 岳楚鹏 每经编辑 兰素英
2月25日,DeepSeek开源周第二波来袭。
DeepSeek宣布开源DeepEP的代码库。DeepEP是首个用于混合专家(MoE)模型训练和推理的开源专家并行 (EP)通信库。
和昨日开源的FlashMLA是核心技术MLA(多头潜在注意力)的改进版本一样,DeepEP也是DeepSeek-V3核心技术EP的改进版本。它提供高吞吐量和低延迟的全对全GPU内核,适用于MoE的分发(dispatch)和合并(combine)操作。
DeepSeek声称,DeepEP的特点包括高效的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。
图片来源:X
DeepSeek的官方解释不免有些技术流,《每日经济新闻》记者邀请了DeepSeek模型来深入浅出地介绍下这一技术。
虽然EP技术能以较低的通信成本完成模型训练,但中金在最新的研报中认为,这种通信设计技术的进展并不一定会使高速通信的需求减少。
中金认为,由于张量并行(TP)和专家并行(EP)的通信开销比较没有绝对的多少之分,受制于多种因素限制,因此在张量或专家并行的选择上,需要具体问题具体分析,本质上都是现有硬件条件下的平衡。通信方面大量使用专家并行而减少张量并行并不能证明高速互联需求在更强基础模型训练中呈下降趋势。
值得注意的是,在DeepSeek宣布开源DeepEP软件库后半个小时,兆龙互连(300913.SZ)的股价直线拉升7.53%,但随后回落,截至收盘,兆龙互联报收于每股60.57元,下跌1.5%。
兆龙互连是一家什么样的公司?和DeepSeek的开源有没有关联?
针对这一问题,每经记者使用了每日经济新闻App的“问投资”功能寻找答案。
记者输入兆龙互连的公司名后,页面就弹出了股票趋势、资金、机构和概念等十大维度。
记者点击“概念”维度后,发现兆龙互连是一家涉足高速通信设备(铜缆高速连接)的公司。不过,DeepSeek认为兆龙互连的盘中快速反弹,是受短期情绪驱动的,并没有直接证据表明兆龙互连的股价和这项技术的开源有联系。
不得不说,在每日经济新闻App里使用DeepSeek非常丝滑,不会碰见“服务器繁忙”的情况。目前使用量已经超14万次了!
咋用呢?超简单!
先下载每日经济新闻App
https://www.nbd.com.cn/corp/2016app/index.html
再往下看
↓
一、 在每日经济新闻App首页,点击“DeepSeek”图标或首页轮播图“自由问+问公司问投资问基金免费使用DeepSeek、Kimi、豆包等六款大模型”。
二、 进入“每经大模型平台”页面,即可使用DeepSeek、Kimi、豆包、智谱清言、文心一言和通义千问6款大模型中任意一款。
最近,每经“136计划”还增加了新功能:
大模型解读投资热榜。
只需点击投资热榜中的任意新闻。
立即就能得到大模型的全面分析。
还能一键生成图片分享给朋友。
告别“服务器繁忙”
快用每日经济新闻App吧!
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。