实探京东机器人数采中心：宝妈、工人齐上阵他们擦桌、缝纫的日常，能帮京东AI闯进物理世界吗？

5月的宿迁室外气温虽不算太高，但面积不大的制衣厂厂房内还是有些热。工人们正赶着新一批的货，她们中有几个人头戴相同的黑色设备，这是用来采集训练具身智能模型数据的仪器。经过上传、清洗、质检、标注等流程后，合格的数据会输入具身智能模型，让模型更加理解真实的物理世界。

图：工人头戴数据采集设备工作，来源：每经记者王郁彪摄

今年年初，京东曾宣布，将发动内部超10万名各类职业员工，以及外部最多50万各行业人员，同时在宿迁发动超10万市民，参与具身智能数据采集工作。希望在两年内积累超1000万小时人类真实场景视频数据。5月20日，京东宣布全国首个具身智能数据采集社区已在宿迁运行。

对制衣厂的工人们来说，目前数据采集的工作相对轻松，还能获得一定的收入。在宿迁，数采工作的主力军还有宝妈等居家群体。其一日的任务量是完成6个小时数据的采集，他们将日常做家务的动作记录下来，整体每月收入在3000元到3500元不等。

机器人真正想要走向产业化，用于负责感知、决策和执行的“大脑”能力的突破是关键，这已是行业共识。然而“大脑”的训练需要烧掉海量数据燃料。为了具身智能数据大厦的落成，有人已经开始在造“砖”了。

具身智能数采“进”社区采集人员月收入3000元到3500元

具身数据采集社区位于宿迁市湖滨新区。从今年4月数据采集社区试运行以来，有不少社区居民报名参与。《每日经济新闻》记者了解到，采集员经过专业技术人员培训后，在日常家务过程中就能完成数据采集工作。

正常进行擦桌子、叠衣服、整理收纳、地面清洁等劳动时，他们只需头戴京东自研的JoyEgoCam采集终端即可获取上肢轨迹、力度分布、人与家居环境的交互关系等关键参数。

通过可穿戴设备，普通人也可以在工厂、物流、零售、医疗以及家庭等环境中完成数据采集，从而降低数据采集门槛，拓展采集场景。这也是当下行业共同的解决方案。

一位居家采集人员告诉每经记者，数采机会配备内存卡，内存卡储满数据需要6个小时的采集工作。月收入在3000元到3500元，多劳多得。除数采人员外，衍生出来的还有数据标注师、模型训练师等。

采集回来的数据需要经过上传、清洗、质检、标注、训练、验证等流程，最终成为“数据燃料”，输入到具身智能模型中。

每经记者注意到，除社区外，京东具身智能数据采集中心内，还设有零售商超、物流仓储等场景的数据采集区域，相对居家等场景，产线上的数据采集工作需要一定的专业度，需要操作更复杂的设备，更全面的记录视觉、触觉、空间轨迹等全维度数据。

图：京东机器人数据采集中心，来源：每经记者王郁彪摄

京东具身智能数据采集负责人告诉每经记者，这些数据采集完成后，经过完整的数据清洗，形成可用的数据集，用来做模型预训练。相关模型借助这些数据完成学习后，初步具备执行各类任务的泛化能力。最后再把模型搭载到机器人本体后，机器人依靠模型推理能力，去执行各类不同任务。

多场景数据采集目的在于提高模型的泛化能力

除社区居家场景外，每经记者还实地探访了宿迁的康养中心、果园等。在养老院，采集员记录协助老人起身、喂药、康复训练等照护动作，为服务机器人提供人类照护行为样本。

果园内，每经记者了解到，其采集内容覆盖果蔬采摘的手眼协调轨迹、农具握持与操作的力学数据、田间不规则地形下的行走与避障动作等，以适应农业作业的复杂环境等特征。

制衣厂的采集员则在缝纫、裁剪、质检等工位作业，记录手部精细操作、多工位流转等数据，为工业柔性操作模型提供小样本、高精度、可复用的训练素材。

那么，具身智能模型的训练究竟需要什么样的数据？

具身智能公司帕西尼数采负责人对每经记者表示，数据收集需要多场景数据的支撑。多场景的数据收集、植入训练的是模型的泛化能力。就是当你告诉机器人去做任务A、B、C的时候，它通过对A、B、C数据的学习，哪怕它之前没有做过D任务，但是经过模拟训练之后，D任务也能做。

“我们之前拿到了京东的视觉EGO数据集（EGO数据集是指多个以‌第一人称视角‌为核心的视频数据集集合）之后，配合我们（机器人）触觉的数据收集，对人类的日常工作模块进行了补齐。”他表示。

此外，对于具身智能数据采集，他认为最重要的有两点，一是需要覆盖到人类的感知层面，二是在数据收集时维持人类原本的意图。“我们在收集的时候不以收集为目标，而是记录人类以当前意图去完成这个任务时，他做出的所有动作。虽然我们看到的数据是动作，但实际上更深层次，需要训练模型理解做这个任务时人类的行为和意图。”他进一步表示。

2年1000万小时能解具身智能“数据饥渴”吗？

觅蜂科技董事长兼CEO（首席执行官）、智元机器人合伙人姚卯青此前公开表示，训练类似ChatGPT-5级别的系统所需语料达百亿小时量级，而具身智能可用数据仅在50万小时量级，规模差距悬殊，还存在标准缺失、质量不一、供需错配等问题。

图：机器人训练场景，来源：每经记者王郁彪摄

与大语言模型相比，具身智能的数据积累无疑还处于早期阶段。每经记者此前也从京东方面了解到，其认为具身智能要达到真正可用，至少需要1000万小时级别的真实场景交互数据。然而，当前行业数据规模仅约100万小时，数据缺口高达10倍。

融资规模不断被刷新，量产步伐全面提速，市场规模水涨船高，一年比一年热闹的具身智能赛道，却深陷“数据荒漠”困境，这背后必然有很多不可控因素。如今，京东、智元等已经开始做具身智能数据的采集工作。数据采集完成后，这些数据如何真正融入机器人的“大脑”？

京东具身智能相关负责人告诉《每日经济新闻》记者，底层硬件设备完成物理世界真实数据采集后，需要被送至“工具层”，可以理解为用一个“工具箱”进行数据处理、模型训练以及仿真评测等。

“再往上就是模型层，也就是所谓的‘大脑’，包含VLA模型（视觉—语言—动作模型）、VLN模型（视觉—语言导航）、世界模型等核心能力。最顶层就是应用层，就是这些技术最终落地的场景，比如家政服务、物流配送、医疗辅助、零售服务、工业制造等。”该负责人透露。

机器人如何在物流、家庭、工业等现实场景中真正“落地生根”并发挥作用？这仍是一个需要无数机器人整机企业、具身智能数据公司反复探索并倾注全部心血去解答的课题与过程。这场关于具身智能基础设施的竞赛没有终点，谁先打通道路、积累足够的数据“燃料”，谁就更有可能在机器人“大脑”时代的赛跑中，抢占未来十年的主动权。

封面图片来源：每经记者王郁彪摄

实探京东机器人数采中心：宝妈、工人齐上阵他们擦桌、缝纫的日常，能帮京东AI闯进物理世界吗？

具身智能数采“进”社区采集人员月收入3000元到3500元

多场景数据采集目的在于提高模型的泛化能力

2年1000万小时能解具身智能“数据饥渴”吗？

关联专题

版权声明

实探京东机器人数采中心：宝妈、工人齐上阵 他们擦桌、缝纫的日常，能帮京东AI闯进物理世界吗？

具身智能数采“进”社区 采集人员月收入3000元到3500元

多场景数据采集目的在于提高模型的泛化能力

2年1000万小时能解具身智能“数据饥渴”吗？

关联专题

版权声明

实探京东机器人数采中心：宝妈、工人齐上阵他们擦桌、缝纫的日常，能帮京东AI闯进物理世界吗？

具身智能数采“进”社区采集人员月收入3000元到3500元