从文本生成到多模态模型,从春晚舞台上能够打醉拳的机器人,到引发全球“养虾”狂欢的OpenClaw智能体,最近几年,AI正不断刷新人们的想象力边界。
热潮之下,一个更深层的问题逐渐显现:除了打拳写诗搞视频,AI似乎并没有真正改变我们的生活。事实上,当前主流AI系统的核心优势,建立在过去几十年互联网积累的海量数据之上,本质上是对“数字世界”的理解与再创造。

“它们可以写作、绘画、制定方案,但它们更像一个‘云端军师’——能提供无数策略,却无法直接感知真实的物理世界,更无法采取行动。”vivo总裁、首席运营官,vivo中央研究院院长胡柏山日前在博鳌论坛期间说道。在他看来,没有感知能力的AI,就像是困在黑屋子里的“大师”,算力再强,也看不见咫尺之外的世界。
胡柏山认为,未来十年,智能手机依然会是人机交互的绝对主导载体。手机将不仅是通讯工具,更是AI落地的“第一现场”,成为物理世界的感知枢纽与个人数字大脑。在AI发展的下半场,对物理世界的感知与理解将成为决胜关键,而影像正是AI走向物理世界的“眼睛”。基于这一前瞻洞察,vivo将影像提高至决定AI未来的战略高度,并稳步拓展多场景智能生态,向生态型科技平台企业迈进。

围绕这一方向,vivo正率先推动行业从“Smart Phone”到“Agent Phone”的进化,并将触角延伸至机器人、头显等终端形态。在胡柏山的规划中,未来十年的竞争,不再是算力的比拼,而是谁能通过感知系统积累更多场景数据,谁就能在AI下半场占据主动。
长期以来,影像更多被视为智能手机的功能模块,其价值集中在拍摄效果与用户体验层面。但从AI发展路径来看,影像的角色发生了本质变化——它不再只是“记录工具”,而是AI理解现实世界的入口。“人类进化这么多年,为什么后面发展那么快?首先是看到了世界,然后把看到的东西记录下来。”胡柏山表示,“如果没有看到,就没有记录,也就没有后续的一切。”
因此,在vivo的战略规划中,影像不再只是“拍得好不好”的问题,而是感知体系中的“眼睛”。“影像技术通过光学系统、成像处理、空间计算等全链路能力,完成了物理世界的数字化投射与三维场景重建,是AI看懂物理世界、理解真实场景的基础,本质上影像就是‘眼睛’。”
基于这一认知,vivo在2026年将“感知赛道”列为内部重要的一级支撑技术赛道。影像为眼,AI为径,通过传感器结合感知大模型,将视觉、听觉、触觉等转化为物理世界的信息,最终实现智及万物。

在行业普遍将注意力集中在“大模型能力”的当下,胡柏山却认为,未来大模型之间的差异会越来越小,无非是时间先后的问题。真正的差异,将来自“场景数据”。“一个好的智能体,最终体验好不好,关键是有没有足够的场景数据。”而这些数据,必须来源于对真实世界的持续感知与积累。这意味着,谁能建立更强的感知系统,谁就能在AI下半场占据主动。
如果说感知能力是AI落地的关键,那么承载这一能力的最佳终端是什么?vivo的答案是——智能手机。“没有哪个设备比手机离人更近。”胡柏山表示。手机全天候陪伴用户,覆盖工作、生活、娱乐等几乎所有场景,同时具备连接周边设备与生态的能力。
更重要的是,手机具备一个其他设备难以替代的能力:将物理世界转化为数字世界。这也是vivo判断手机仍将是“AI第一现场”的核心原因。
但手机本身也在发生变化。胡柏山明确提出,从Smart Phone走向Agent Phone,是行业的必然趋势。所谓Agent Phone,本质上是将手机从“被动工具”转变为“主动伙伴”。在这一模式下,设备能够基于对环境与用户的持续感知,主动提供决策支持甚至执行任务。
“过去用户拍照,需要自己选择模式,比如长焦、微距,很多人甚至不知道要提前选。”他举例说。而在Agent模式下,系统可以基于环境、光线与距离自动推荐最佳方案,“用户点一下就可以了,人人都是摄影师。”
Agent的能力还会向更广泛的场景延展。例如,移动办公中的会议Agent,可以自动记录会议内容并生成摘要;出行场景中的出行Agent,可以基于环境与习惯提供路径与行程建议;在娱乐场景中,则能够实时优化性能并记录关键时刻。“未来每个用户的场景不一样,所以会有各种不同的Agent。”胡柏山表示。
从产品层面看,这一战略已开始落地。据悉,vivo即将发布的vivo X300 Ultra与X300s,将搭载具备场景识别能力的影像Agent,标志着Agent Phone从概念走向实际应用。而这不仅是一次产品升级,更是智能手机交互范式的重构。
不过,Agent能力的落地受限于硬件约束。胡柏山介绍称,“手机端AI有两个限制,一个是算力,一个是带宽。”当前LPDDR带宽与芯片散热能力,仍然限制着端侧AI的上限。因此,vivo选择了一条更务实的路径:优先发展“非持续运行”的场景型Agent。例如,相机Agent与相册Agent,在需要时短时间调用高算力,而非长期占用资源。这种策略既保证体验,又兼顾硬件现实。
同时,vivo正在通过自研算力芯片与端侧模型优化,逐步突破这一瓶颈。“我们两年前就开始布局专用算力芯片,就是为了把端侧能力提升起来。”
此外,Agent Phone还将成为手机市场从存量市场走向增量市场的关键。“如果从Smart Phone变成Agent Phone,手机体验会有很大的突破和变化,手机市场将变成至少未来三年或者五年的增量市场。”换句话说,Agent Phone不仅是技术升级,更是行业重新打开增长空间的关键变量。
如果说Agent Phone代表vivo当下对智能手机形态的重塑,那么机器人则指向更长期的终局。
去年,vivo成立机器人Lab,将家庭机器人明确为“智能的终极形态”。为什么要从手机延伸到机器人?胡柏山表示,视觉是所有智能设备最自然的第一感知方式。

其中,手机是感知能力的起点与数据源头,负责记录用户的个性化特征与习惯;MR头显则承担空间计算与三维感知的训练功能,通过vivo Vision构建空间感知,理解空间结构、几何关系,让信息交互突破二维平面;生态终端,包括智能云台相机、可穿戴设备和其他功能生态产品,它们构成移动触角,让感知无处不在。而家庭机器人作为智能的终极形态,将汇聚感知,并作用于物理世界。也就是说,机器人并不是一个孤立业务,而是vivo“感知能力成熟之后的自然结果”。
在具体推进路径上,vivo采取务实的“沿途下蛋”策略。“一开始就做一个通用场景的机器人不现实。”胡柏山解释称:“机器人把鸡蛋100%打成功非常难,所以一开始就不要挑战打鸡蛋,但比如收纳,把衣服夹紧一点或松一点,这个容错性比较大,宠物喂的多一些少一些,容错性要求也高很多。”因此,vivo的策略是先聚焦年轻用户的具体场景,比如宠物喂养,把这个场景的用户体验做到至少80分,在这个过程中积累数据、提升能力,再逐步泛化到更多场景。
在这个过程中,手机将扮演“数字大脑”的角色。“手机未来就是最懂你的随身助理,你早上干什么,吃饭、买东西的习惯或者喜欢养什么宠物,都在手机里。”胡柏山设想,机器人刚开始干不好的事情,由手机遥控操作,数据积累以后慢慢就会变得更智能。“机器人与手机之间要相互协助,数据之间是打通的。”这也意味着,vivo构建的并非单一产品,而是一个以手机为核心、逐步向外延展的“感知生态”。
除了技术发展带来的更大增量市场外,“出海”也是诸多手机厂商正瞄准的新兴市场。
“海外市场的天花板更高,但要求的是长期价值。”胡柏山说道。为此,vivo坚持“More Local,More Global”,适应环境、做好专业、利他共赢;基于不同国家购买力、消费习惯、产品结构需求制定相应的市场策略,并适时适配各国政策环境,把用户服务做到位。这一全球化战略,已经在印度、东南亚等市场取得成功。
凭借对海外市场的深入了解,胡柏山将全球市场划分为0-1、1-5、5-10三个阶段,根据不同阶段的特征,制定差异化的经营策略。“在欧洲,不做高端是活不下来的。”
对于高端市场的品牌突破,胡柏山认为,“产品是因、品牌是果。欧洲的突破之道与中国是一样的,靠产品,就是我们的X系列。只有不断让高端用户用上我们的产品并开始传播,让别人感受到,那么这个品牌的高端化才会自然地形成。”

不过,全球化之路也并非一帆风顺。当前存储大涨价给各大手机厂商的全球扩张带来了挑战,尤其是拉美和非洲等区域。对此,胡柏山坦言,“确实这次内存涨价远远超出了预期。但涨价对所有人都是公平的。越是这种环境,越考验团队能力,如果你的产品好,用户体验比其他品牌都好,用户还是会买你的产品。我们还有机会做一些优化工作,比如根据系统优化,把耐用性、电池续航方面做得好一点。用户最后要的是好的综合体验,不仅仅是看内存。”
同时,他还进一步表示,vivo做经营不只是看台数,还要看业务规模,努力稳住营业规模不掉。“难关总是要渡过的。”
胡柏山反复强调一个关键词:长期。无论是影像、AI,还是感知赛道,都不是短期见效的领域。“这是一个五年、十年的赛道,一旦判断正确,就要持续投入。”
据他介绍,vivo内部管理不追求“一脚油门、一脚刹车”,而是“螺旋式上升”。在AI狂热与技术泡沫交织的当下,这种节奏显得格外克制。但也正是这种克制,构成了vivo战略的底色——不追逐短期热点,而是围绕“如何让AI真正理解世界”这一核心问题,持续推进。
当AI真正拥有“看见世界”的能力,其价值才会被全面释放。而围绕感知能力展开的这场竞争,或许才刚刚开始。
文/陈玙婠