每经编辑 段炼
3月26日凌晨,腾讯元宝迎来重大升级,同时接入两大模型:深度思考模型“腾讯混元T1”正式版,和DeepSeek V3-0324最新版。
升级后,元宝的能力全面增强,在编程、数学推理和长文本处理等场景中的表现更加出色。
其中,混元T1正式版,基于新一代快思考模型Turbo S底座升级,是一款能秒回、吐字快、擅长超长文处理的强推理模型,创新采用混合Mamba架构,性能保持业界领先,适合处理学术论文、策划方案、长篇内容等各类深度思考任务;
元宝部署的DeepSeek V3最新版,则擅长快速生成,一句话指令就能写代码,更强的前端开发能力,实现网站和App开发。解数学题、文本创作的表现也较前代更快更准,能胜任各类高频使用场景。
值得一提的是,腾讯元宝是最早一批接入 DeepSeek V3-0324版本的AI应用,从模型开源到上线仅用1天。
目前,腾讯元宝的“混元+DeepSeek”双模型均支持深度思考和秒出答案。近期,元宝持续高频更新,35天迭代30个版本,不断上线实用功能。所有能力均免费开放、不限次数,覆盖更多工作、学习和生活场景。
腾讯表示,腾讯元宝将继续坚持双模,始终为用户提供更好的、更先进的模型,并第一时间部署,为大家打造“好用的 AI”。
此前,3月21日深夜,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。
据腾讯介绍,混元T1正式版通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,推理能力得到进一步提升。与此前已上线腾讯元宝的混元T1-preview模型相比,综合效果也有了明显提升。
在一些常见的基准测试上,比如大语言模型评估增强数据集MMLU-PRO中,混元T1的评分仅次于OpenAI-o1,优于DeepSeek-R1。
在评估逻辑推理能力的DROP F1测试中,混元T1的评分也优于DeepSeek-R1和OpenAI-o1。不过在数学和代码能力测试中,混元T1的评分都低于DeepSeek-R1。在中文语言理解能力方面,混元T1与DeepSeek-R1的评分齐平。
整体来看,混元T1正式版的成绩已经达到了业界领先推理模型的水平。但腾讯官方此次并未披露混元T1的参数量级,所以并不清楚其是用多少训练数据实现这一性能。
编辑|段炼 盖源源
校对|刘思琦
封面图片:视觉中国
每日经济新闻综合自每经网、腾讯云、21世纪经济报道、公开资料等
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。