每日经济新闻

    蚂蚁集团,AI重大突破!

    每日经济新闻 2025-03-24 15:05

    近日,蚂蚁集团Ling团队发表技术成果论文,推出百灵轻量版与百灵增强版两款MoE大语言模型。该团队设定“不使用高级GPU”的目标,通过创新训练策略,降低训练成本,实现与顶尖模型相当的性能。如该技术成果得到验证及推广,将助力国产大模型降低对英伟达芯片的依赖。此外,蚂蚁集团还在AI医疗产业布局,加码具身智能人形机器人领域。

    每经编辑 毕陆名

    目前,蚂蚁集团Ling团队的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》已发表在预印版Arxiv平台上。

    论文显示,蚂蚁集团推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模型参数规模高达2900亿(激活参数288亿),两者性能均达到行业领先水平。

    据技术成果论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模型在特定任务中展现出卓越性能,但是MoE模型的训练通常依赖高性能计算资源(如英伟达H100/H800等先进GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。

    因此,Ling团队设定的目标是“不使用高级GPU”来扩展模型,并通过提出创新性的训练策略,旨在突破资源与预算限制实现高效大语言模型训练,从而推动AI技术向普惠化方向发展。

    据技术论文,Ling团队在五种不同的硬件配置上对9万亿个token进行Ling-Plus的预训练,其中使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,但利用蚂蚁的优化方法后,使用低规格硬件的训练成本将降至508万元左右,节省了近20%,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。

    此前,DeepSeek通过一系列算法创新及工程优化,使用性能较低的英伟达H800训练出了性能与顶尖模型相当的V3与R1,为大模型的训练开辟了新的道路,让更多的企业和研究机构看到了降低成本、提高效率的可能性。如果蚂蚁集团的技术成果得到验证及推广,意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案,以进一步降低对英伟达芯片的依赖。

    蚂蚁集团正加码AI医疗产业布局,3月21日,其对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医疗大模型一体机”全栈式解决方案;面向好大夫在线29万注册医生,发布AI医生助手系列工具;同时,服务用户的健康应用“AI健康管家”也推出智能思考、健康自测等十余项新功能。

    除了AI以外,蚂蚁近期在人形机器人领域也动作频频。

    今年2月,某招聘平台信息显示,蚂蚁集团开放招聘具身智能人形机器人系统和应用等岗位,年薪高达百万元。而早在去年12月,蚂蚁集团就注册成立了上海蚂蚁灵波科技有限公司,聚焦具身智能技术和产品研发。

    每日经济新闻综合公开信息

    免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

    封面图片来源:每经记者 孔泽思 摄

    版权声明

    1本文为《每日经济新闻》原创作品。

    2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。

    上一篇

    恒生科技指数上涨1%至5,696.99点

    下一篇

    首份公募FOF2024年年报出炉,国信经典组合三个月扭亏为盈,管理人继续卖出持有份额



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验