2月10日晚间,星海图合伙人罗天奇表示,具身智能由Scaling Law驱动,胜负在于资金利用效率。11日星海图完成10亿元B轮融资,累计近30亿元,估值百亿元。当前具身智能处于技术竞赛早期,行业迈向资源密集型竞争。罗天奇认为,具身智能商业化已开启,要避免过早投入商务驱动的商业化,全球竞争靠数据供应链,技术应聚焦执行智能。
每经记者|可杨 每经编辑|陈星
过去一年,具身智能持续处于资本与产业关注的交汇点。一方面,融资规模不断扩大,技术演示频繁刷新行业想象;另一方面,稳定落地、规模复制以及成本控制仍是行业绕不开的现实挑战。
2月10日晚间,星海图合伙人、CFO(首席财务官)罗天奇在接受包括《每日经济新闻》在内的媒体采访时表示,具身智能最终依然是一个由 Scaling Law(规模定律)驱动的 AI(人工智能)行业,胜负手不在于短期的融资额,而在于每一块钱能换回多少智能。
2月11日,星海图完成10亿元B轮融资。截至本轮,星海图累计融资额近30亿元,估值百亿元,成为继宇树、智元、银河通用之后具身智能行业又一只百亿元独角兽。
星海图机器人 图片来源:企业供图
罗天奇将当下的具身智能赛道比作当年的“百团大战”。他认为,美团当年之所以能赢,并不是靠一招鲜的技术,而在于其对生意本质有很深的认知。而去年开始疯狂烧钱的友商很像当年“百团大战”及早期行业发展不够充分时,把融资款全用来投流获客的那些公司。
在具身智能产业中,星海图是一家在融资节奏和支出上显得相对审慎的公司,面对“花钱慢”的质疑,罗天奇则表示:“具身智能本质上还是AI行业,技术核心驱动力是 Scaling Law。”他指出,具身智能目前仍处于Scaling Law初期,数据还在准备阶段且数据量不够大。他判断,随着Scaling Law进一步发挥作用,行业将出现明显的格局收敛。
罗天奇透露,目前头部具身智能企业在算力和数据投入规模上,大致为头部大语言模型创业公司的十分之一,但这一差距可能迅速缩小。他强调,Scaling Law的扩展本身具有指数特征,“可能今年规模上升一个数量级,未来两三年再继续放大”。
罗天奇进一步强调,当前具身智能仍处于技术竞赛早期阶段。“我们今天是在跑一场马拉松,而不是百米赛跑,行业整体可能才跑出一公里。”
因此,他认为,企业需要保留足够资金,以应对未来数据增长带来的算力与模型训练成本激增。他直言,行业竞争的本质是谁能把一块钱换回最高程度的智能。“在中国具身智能公司里,谁花钱效率最高,谁就最值得获得资本投资。”
当前具身智能行业正经历一次重要的结构性转折,资本逻辑正在从“广撒网”转向“押头部”,行业也从早期技术探索阶段逐步迈向资源密集型竞争阶段。
关于具身智能的“ChatGPT时刻”何时到来,业内争议颇多。罗天奇认为,“ChatGPT时刻”不一定是一两年内很快到来的,但这并不妨碍商业化的率先开启。
罗天奇将具身智能的商业化拆分为技术驱动与商务驱动,后者包括了机器人表演等场景。
从技术驱动的角度,罗天奇认为,目前能够跑通的三个硬性边界包括厘米级的精度要求、接近人类80%的作业速度以及99%准确率水平的应用环境。他介绍,这类场景在当前产业中具有较大数量基础。
在他看来,部分场景的料箱搬运、物流分拣以及末端配送的“最后一公里”操作,是率先符合这些边界的场景。与自动驾驶不同,具身智能对容错率更友好,不需要等到99.99%的成功率才能落地。具身智能会“润物细无声”地进入千行百业,“甚至若干年后大家回顾这个过程,好像记不得哪一年是具身智能的‘ChatGPT时刻’,但是具身智能已经真的走进千行百业了”。
在商业化选择上,罗天奇强调要避免将资源过早投入由商务驱动的商业化。他认为,如果技术基础尚未稳定就大规模推进市场扩张,容易导致头重脚轻。
罗天奇认为,从财务视角看,具身智能的ToB(面向企业端)生意在营收规模上极具潜力。大模型厂商卖一套私有化模型可能只有几十万元收入,但这可能只是一台具身机器人的价格。当给一个大客户卖出数十甚至上百台机器时,实现数亿元的营收并不困难。但他强调,相比营收的绝对数量,更应关注营收的质量,如开机使用比例和毛利率等指标。
对于规模订单能够带来的供应链议价能力变化,罗天奇的判断是,具身智能行业同样存在一定的规模效应,但硬件成本最终不会是大家比拼的关键。
“这个行业中长期的商业模式是卖‘物理世界的Token’,就跟大语言模型卖虚拟世界Token一样。”罗天奇分析称,当供应链成熟到一定程度,即以年产10万台以上为标志,硬件成本将不再有实质性差别。届时,真正的壁垒在于两点:一是智能水平,二是由智能水平反向定义的硬件设计和生产制造能力。
在全球竞争视角下,马斯克曾预言未来全球前十大机器人公司,除了特斯拉剩下的可能都在中国。罗天奇对此深表认同,但他指出,外界往往只看到了中国的硬件供应链优势,却忽视了数据供应链优势。
“这个(数据供应链优势)是比硬件供应链更夸张的优势。”罗天奇直言,中国最高质量的数据采集成本可能只有美国公司的十分之一。这意味着花相同的钱,可以采集到10倍数量的数据,这一成本差距远高于硬件BOM成本(物料清单)的差异。在他看来,这一优势将成为中国具身智能长期竞争的重要基础。
在技术架构层面,对于世界模型的发展是否会反向推动具身智能的问题,他认为,世界模型本身是一个更宏大的命题,短期内更适合拥有算力与多模态积累优势的大厂持续推进。从现实路径来看,多模态视觉语言模型(VLM)的突破确实在持续发生。但他同时强调,很多具身智能公司对技术架构分拆不够细,在推理能力、理解能力等方面,如果已经有更好的模型,创业公司没必要重复“造轮子”。
罗天奇认为,具身智能公司真正独特、必须从零开始研发的部分,是具身基础模型,也就是负责物理世界执行能力的VLA端到端模型(视觉语言动作模型,Vision-Language-Action)。
在他看来,VLM与VLA是互补关系:前者负责理解与推理,后者负责行动与执行。理解能力已经由大厂持续突破,“我们真正独特的部分,一定是从头开始去做自己的VLA模型。”他表示,具身智能企业需要站在巨人肩膀上,但必须把资源集中在物理世界智能的构建上。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。