每日经济新闻

    DeepSeek刷屏,超越ChatGPT!

    每日经济新闻 2025-01-27 09:01

    1月27日,DeepSeek应用登顶美区和中国区应用商店免费榜。其爆火原因主要为性能和成本,成本低且性能卓越,吸引大量用户。该模型代码和训练方法完全开源,成为开源社区下载量最高的大模型。DeepSeek成立于2023年5月,背后是幻方量化,创始人梁文锋是一位80后技术理想主义者。

    每经编辑 毕陆名

    1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

    据广州日报报道,“DeepSeek爆火的原因主要可以归结为两点:性能和成本。”萨摩耶云科技集团首席经济学家郑磊告诉记者。DeepSeek解释称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。这种卓越的性能不仅吸引了科技界的广泛关注,也让投资界看到了其巨大的商业潜力。

    更为关注的是,DeepSeek R1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元,仅是OpenAI GPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一,也因此,DeepSeek被称为AI界的“拼多多”。

    “DeepSeek以较低的成本实现了高性能的AI模型,这使得其在市场竞争中具备了显著的优势,这种成本效益比无疑会吸引大量企业和个人用户选择其产品和服务。”北京社科院副研究员王鹏表示。

    郑磊直言,DeepSeek对硬件市场产生了重大影响,因为它可能会降低人工智能模型的硬件成本,从而推动人工智能技术的发展。

    另据媒体报道,为了训练模型,幻方量化在美国芯片出口限制之前获得了超过1万块英伟达GPU,尽管有说法称DeepSeek大约有5万颗H100芯片,但尚未得到公司官方证实。

    早在去年12月,该公司推出的DeepSeek-V3通过优化模型架构和基础设施等方式,展现了极致性价比。从该团队正式发布的技术报告来看,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788M H800 GPU小时,其训练成本仅为557万美元,但该模型实现了与GPT-4o和Claude Sonnet 3.5(来自美国人工智能企业Anthropic)等顶尖模型相媲美的性能。

    当时著名人工智能科学家卡帕西(Andrej Karpathy)就发文表示,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。

    图片来源:视觉中国

    尽管尚不清楚最新发布的DeepSeek-R1的训练成本,但其在服务价格上,相较性能相当的OpenAI的o1也有明显优势。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),分别是OpenAI o1的2%和3.6%。

    除了极致性价比,让DeepSeek的大模型脱颖而出的是其代码和训练方法的完全开源。

    目前,DeepSeek-R1已经一跃成为开源社区Hugging Face上下载量最高的大模型,下载量达10.9万次,这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的AI开发。DeepSeek的服务器也于26日出现了局部服务波动。这一问题在数分钟内得到解决,或与新模型发布后的访问量激增有关。

    DeepSeek创始人梁文锋在接受媒体采访时也表示:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”

    梁文锋认为:“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”Meta首席人工智能科学家杨立昆(Yann LeCun)也在社交媒体表示,DeepSeek成功的最大收获不是来自中国竞争对手的加剧威胁,而是保持人工智能模型开源的价值,以便任何人都能受益。

    “他们有了新的想法,并在其他人的工作基础上加以实现。由于他们的工作成果已发表并开源,因此每个人都可以从中受益。”杨立昆表示,“这就是开放研究和开源的力量。”

    DeepSeek成立于2023年5月,其背后是国内对冲基金巨头幻方量化。

    2023年11月2日,DeeSeek推出首个模型DeepSeek Coder,该模型免费供商业使用且完全开源。2023年11月29日,DeepSeek LLM上线,其参数规模达到67B,性能接近GPT-4,同时还发布了该模型的聊天版本DeepSeek Chat。

    真正让Deepseek在AI界出圈的,是其在2024年5月开源的第二代MoE大模型DeepSeek-V2。该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,DeepSeek由此被称作“价格屠夫”、“AI界的拼多多”。

    随后的2024年下半年,这家公司还先后发布了DeepSeek R1-lite-preview和DeepSeek-V3。

    到了2025年推出的R1模型,在数学能力测试中,该模型在MATH基准测试上达到了77.5%的准确率,与OpenAI的o1不相上下;在编程领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。

    而这一切,是在不到600万美元的投入和2048块低性能的H800芯片的条件下完成的,训练时间仅用两个月。这种“四两拨千斤”的模式,颠覆了人们对OpenAI“大力出奇迹”式的固有认知,结果令全球侧目。

    幻方量化和DeepSeek创始人梁文锋,毕业于浙江大学信息与通信工程专业。业内口碑称,这是一位极致的80后技术理想主义者。创立幻方,梁文锋就在幕后潜心钻研技术,在DeepSeek时代,其依旧延续着低调作风,和一线研究员一样,每天“看论文,写代码,参与小组讨论”。

    据证券时报报道,一名人工智能行业资深业内人士向记者分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。”该业内人士表示。

    每日经济新闻综合广州日报、第一财经、证券时报

    封面图片来源:每日经济新闻

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    1月27日富时中国A50指数期货现涨0.15%

    下一篇

    注意!天阳科技将于2月14日召开股东大会



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验