5月20日,京东宣布全国首个具身智能数据采集社区在宿迁运行,采集员多为社区居民,月收入3000元到3500元不等。除社区外,京东还设有零售商超、物流仓储等场景的数据采集区域。多场景数据采集旨在提高模型泛化能力。当前具身智能赛道深陷“数据荒漠”,京东等已开始数据采集工作,谁积累足够数据,谁就可能抢占未来主动权。
每经记者|王郁彪 每经编辑|许绍航
5月的宿迁室外气温虽不算太高,但面积不大的制衣厂厂房内还是有些热。工人们正赶着新一批的货,她们中有几个人头戴相同的黑色设备,这是用来采集训练具身智能模型数据的仪器。经过上传、清洗、质检、标注等流程后,合格的数据会输入具身智能模型,让模型更加理解真实的物理世界。

图:工人头戴数据采集设备工作,来源:每经记者 王郁彪 摄
今年年初,京东曾宣布,将发动内部超10万名各类职业员工,以及外部最多50万各行业人员,同时在宿迁发动超10万市民,参与具身智能数据采集工作。希望在两年内积累超1000万小时人类真实场景视频数据。5月20日,京东宣布全国首个具身智能数据采集社区已在宿迁运行。
对制衣厂的工人们来说,目前数据采集的工作相对轻松,还能获得一定的收入。在宿迁,数采工作的主力军还有宝妈等居家群体。其一日的任务量是完成6个小时数据的采集,他们将日常做家务的动作记录下来,整体每月收入在3000元到3500元不等。
机器人真正想要走向产业化,用于负责感知、决策和执行的“大脑”能力的突破是关键,这已是行业共识。然而“大脑”的训练需要烧掉海量数据燃料。为了具身智能数据大厦的落成,有人已经开始在造“砖”了。
具身数据采集社区位于宿迁市湖滨新区。从今年4月数据采集社区试运行以来,有不少社区居民报名参与。《每日经济新闻》记者了解到,采集员经过专业技术人员培训后,在日常家务过程中就能完成数据采集工作。
正常进行擦桌子、叠衣服、整理收纳、地面清洁等劳动时,他们只需头戴京东自研的JoyEgoCam采集终端即可获取上肢轨迹、力度分布、人与家居环境的交互关系等关键参数。
通过可穿戴设备,普通人也可以在工厂、物流、零售、医疗以及家庭等环境中完成数据采集,从而降低数据采集门槛,拓展采集场景。这也是当下行业共同的解决方案。
一位居家采集人员告诉每经记者,数采机会配备内存卡,内存卡储满数据需要6个小时的采集工作。月收入在3000元到3500元,多劳多得。除数采人员外,衍生出来的还有数据标注师、模型训练师等。
采集回来的数据需要经过上传、清洗、质检、标注、训练、验证等流程,最终成为“数据燃料”,输入到具身智能模型中。
每经记者注意到,除社区外,京东具身智能数据采集中心内,还设有零售商超、物流仓储等场景的数据采集区域,相对居家等场景,产线上的数据采集工作需要一定的专业度,需要操作更复杂的设备,更全面的记录视觉、触觉、空间轨迹等全维度数据。

图:京东机器人数据采集中心,来源:每经记者 王郁彪 摄
京东具身智能数据采集负责人告诉每经记者,这些数据采集完成后,经过完整的数据清洗,形成可用的数据集,用来做模型预训练。相关模型借助这些数据完成学习后,初步具备执行各类任务的泛化能力。最后再把模型搭载到机器人本体后,机器人依靠模型推理能力,去执行各类不同任务。
除社区居家场景外,每经记者还实地探访了宿迁的康养中心、果园等。在养老院,采集员记录协助老人起身、喂药、康复训练等照护动作,为服务机器人提供人类照护行为样本。
果园内,每经记者了解到,其采集内容覆盖果蔬采摘的手眼协调轨迹、农具握持与操作的力学数据、田间不规则地形下的行走与避障动作等,以适应农业作业的复杂环境等特征。
制衣厂的采集员则在缝纫、裁剪、质检等工位作业,记录手部精细操作、多工位流转等数据,为工业柔性操作模型提供小样本、高精度、可复用的训练素材。
那么,具身智能模型的训练究竟需要什么样的数据?
具身智能公司帕西尼数采负责人对每经记者表示,数据收集需要多场景数据的支撑。多场景的数据收集、植入训练的是模型的泛化能力。就是当你告诉机器人去做任务A、B、C的时候,它通过对A、B、C数据的学习,哪怕它之前没有做过D任务,但是经过模拟训练之后,D任务也能做。
“我们之前拿到了京东的视觉EGO数据集(EGO数据集是指多个以第一人称视角为核心的视频数据集集合)之后,配合我们(机器人)触觉的数据收集,对人类的日常工作模块进行了补齐。”他表示。
此外,对于具身智能数据采集,他认为最重要的有两点,一是需要覆盖到人类的感知层面,二是在数据收集时维持人类原本的意图。“我们在收集的时候不以收集为目标,而是记录人类以当前意图去完成这个任务时,他做出的所有动作。虽然我们看到的数据是动作,但实际上更深层次,需要训练模型理解做这个任务时人类的行为和意图。”他进一步表示。
觅蜂科技董事长兼CEO(首席执行官)、智元机器人合伙人姚卯青此前公开表示,训练类似ChatGPT-5级别的系统所需语料达百亿小时量级,而具身智能可用数据仅在50万小时量级,规模差距悬殊,还存在标准缺失、质量不一、供需错配等问题。

图:机器人训练场景,来源:每经记者 王郁彪 摄
与大语言模型相比,具身智能的数据积累无疑还处于早期阶段。每经记者此前也从京东方面了解到,其认为具身智能要达到真正可用,至少需要1000万小时级别的真实场景交互数据。然而,当前行业数据规模仅约100万小时,数据缺口高达10倍。
融资规模不断被刷新,量产步伐全面提速,市场规模水涨船高,一年比一年热闹的具身智能赛道,却深陷“数据荒漠”困境,这背后必然有很多不可控因素。如今,京东、智元等已经开始做具身智能数据的采集工作。数据采集完成后,这些数据如何真正融入机器人的“大脑”?
京东具身智能相关负责人告诉《每日经济新闻》记者,底层硬件设备完成物理世界真实数据采集后,需要被送至“工具层”,可以理解为用一个“工具箱”进行数据处理、模型训练以及仿真评测等。
“再往上就是模型层,也就是所谓的‘大脑’,包含VLA模型(视觉—语言—动作模型)、VLN模型(视觉—语言导航)、世界模型等核心能力。最顶层就是应用层,就是这些技术最终落地的场景,比如家政服务、物流配送、医疗辅助、零售服务、工业制造等。”该负责人透露。
机器人如何在物流、家庭、工业等现实场景中真正“落地生根”并发挥作用?这仍是一个需要无数机器人整机企业、具身智能数据公司反复探索并倾注全部心血去解答的课题与过程。这场关于具身智能基础设施的竞赛没有终点,谁先打通道路、积累足够的数据“燃料”,谁就更有可能在机器人“大脑”时代的赛跑中,抢占未来十年的主动权。
封面图片来源:每经记者 王郁彪 摄
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。