边想边搜、“看懂”世界，豆包深度思考模型能否打开AI Agent进化新维度？

解读上市公司财报、填报高考志愿、为大家庭推荐露营装备、拿着英文菜单给多人点餐——在4月17日的火山引擎AI创新巡展杭州站现场，这些复杂的工作、生活问题被搭载了最新深度思考模型的豆包一一解决。

发布会现场，火山引擎总裁谭待介绍称，豆包1.5·深度思考模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，其中在数学推理AIME 2024测试得分追平了OpenAI o3-mini-high（模型名）。

如同OpenAI o系列最新模型o3和o4-mini（模型名）在多模态理解上的大力探索，豆包最新模型的多模态能力也在发布会现场被频频提及。“模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样，Agent（智能体）才能更好地处理复杂任务。”谭待表示。

从OpenAI首款全功能Agent Operator到“一码难求”的Manus（智能体名），AI（人工智能） Agent正在成为2025年业内的最大焦点。英诺天使基金合伙人王晟在今年年初接受《每日经济新闻》记者专访时表示，“AI这一波新技术的最终应用就是Agent，我们今年比较期待AI Agent能取得突破。”

火山引擎总裁谭待图片来源：火山引擎公众号

为了加速Agent的落地，火山引擎此次还推出了OS Agent解决方案及AI云原生推理套件。“持续优化模型，保持竞争力；不断降低成本、延迟，提高吞吐率；让产品更易落地，（发布）像扣子、HiAgent平台还有云原生组件OS Agent等——未来我们会在这三方面持续发力。”在会后的群访中，谭待向《每日经济新闻》记者表示。

“多模态+深度推理”，豆包上线全新模型

对于一个新模型而言，其性能自然是外界关注的首要方面。发布会上，谭待介绍称，豆包1.5·深度思考模型在数学推理AIME 2024测试的得分追平OpenAI o3-mini-high，编程竞赛和科学推理测试成绩接近o1。同时，在创意写作、人文知识问答等非推理任务上，该模型也展现出了优秀的泛化能力。

技术报告显示，这一新模型采用MoE（专家混合模型）架构，总参数为200B，激活参数仅20B，低于业界同类模型参数规模的50%，具备显著的推理成本优势。并且，基于高效算法，该模型API服务能在保障高并发的同时，实现20毫秒的极低延迟。

在具体的场景应用上，豆包1.5·深度思考模型主要突出了自身具备的边想边搜能力和视觉版的多模态能力。

“计划从北京出发，去日本关西地区进行为期5天的旅游，希望能看到花火大会、泡到特色温泉，请帮我规划一下行程。”《每日经济新闻》记者以上述提示词实测发现，豆包在思考过程中能自主拆解问题，就花火大会日期、温泉旅馆的预订情况和交通券的适用范围等信息确认进行了多轮搜索。

“除了边搜边想，豆包深度思考模型还具备视觉推理能力，让模型像人类一样，不光基于文字思考，更能基于所见画面来思考，更加全面。”谭待在发布会上举例表示，“豆包深度思考模型可以看懂非常复杂的企业项目管理流程图表，能快速定位到关键信息，并以强大的指令遵循能力，严格按照流程图，回答客户的问题。”

北京市社会科学院副研究员王鹏接受《每日经济新闻》记者微信采访时表示，具备多模态能力是未来推理模型的趋势，“多模态能力使模型更全面理解和处理复杂信息，能广泛应用于金融、智能客服和医疗等领域。”

截至目前，豆包大模型家族已有15位“成员”，豆包App也成为了国内AI原生App的头部玩家。据QuestMobile在4月15日发布的数据显示，截至2025年2月底，我国AI原生App用户规模达2.4亿，较1月份增长了1.15亿。2025年3月，豆包的月活用户规模达1.16亿，仅次于DeepSeek的1.94亿。

“Agent是必经之路”，火山引擎如何助力？

发布会上，谭待还照例公布了豆包大模型的最新使用量：截至2025年3月，豆包大模型日均tokens（词元）使用量超12.7万亿，较发布之初增长超106倍。

与此同时，国际数据公司IDC在今年4月发布的《中国公有云大模型服务市场格局分析，1Q25》（注：1Q25指2025年第一季度）显示，2024年我国公有云上大模型调用量达114.2万亿tokens，其中火山引擎以46.4%的市场份额位居第一。

对于超百倍的增长，谭待向《每日经济新闻》记者表示，从长期来看，火山引擎的大模型token调用量在未来仍有百倍甚至更高增长的可能，“具体需要多久时间，关键取决于模型是否有重大突破。”

“去年到今年增长很快是因为模型有几大突破：一是基础聊天和信息处理能力的提升及成本下降，二是今年深度思考功能的推出。”谭待认为，之后大模型的迭代还将迎来多个关键节点，“例如视觉推理能否做得更好、Agent相关技术能否取得更大进展等。”

在谭待看来，要让AI真正为各行各业带来变革，Agent是必经之路，“关于Agent的定义，能完成打油诗、简单报告等任务的不能称为Agent。从定性角度来看，Agent应该要能完成专业度较高、耗时较长的完整任务；从技术实现角度来看，如果没有运用思考模型，缺乏反思和规划能力，也很难被认定为Agent。”

为了加速Agent的落地，此次发布会上，火山引擎宣布了OS Agent解决方案的推出，包含了豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品。

记者注意到，4月17日，豆包大模型团队发布并开源了基于UI-TARS进行增强的UI-TARS-1.5，目前已在7个典型的GUI（图形用户界面）评测基准中取得SOTA（最先进的）表现，还首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

近期，Claude母公司Anthropic推出的MCP（模型上下文协议）成为了国内外头部厂商的一大关注点，阿里云、腾讯云等云厂商纷纷上线MCP服务。群访中，谭待表示，火山引擎已经支持MCP，“我觉得协议统一很重要”，“如果能做到统一协议，大家的应用开发就会更快，模型调用也会更智能。”

“我们一直致力于成为AI时代最优秀的云厂商。”谭待表示，“只要保持产品和技术领先，市场份额自然会领先。”

边想边搜、“看懂”世界，豆包深度思考模型能否打开AI Agent进化新维度？

关联专题

版权声明