具身智能距‘ChatGPT时刻’渐近，中国数据采集推进机器人革命

admin AI新闻 2026-05-30 39

具身智能距离那个所谓的“GPT时刻”, 好像从来都没有像现在这样接近过。今年4月的时候, 在北京亦庄半程马拉松暨人形机器人半程马拉松赛当中, 机器人是以超过人类冠军的速度完成比赛的。在北京车展上, 车企描绘了未来“机器人陪试驾”等一系列场景。多家机器人企业做出预测, 在今年或者是不久之后的未来, 就能够看到具身智能领域的“GPT时刻”。美国《时代》周刊评论说, “经过数十年的尝试, 生成式人工智能（GenAI）革命最终使得机器人能够感知真实世界。”还表示中国正在赢得这场机器人革命。维系这一远景期盼的关键所在, 并非单单凭借光亮耀眼让人心生目眩的硬件设施, 却是被称作“数字原油”的数量巨大且品质相当高的数据。中国的企业正凭借全球范围内最为完备的制造业种类以及充裕丰富到处充溢的线下场景情形, 推动开展“人类社会历史发展进程当中规模前所未有的数据收集摄取行动”。从数据这一“原油”之类别的的开挖抽取到机器人如同灵动鲜活般的“智能突然显现”, 具身智能状态距离有着重大影响意义的类似“GPT时刻”这类时刻究竟还有多么远的距离呢? 《环球时报》的记者针对此情况展开了访问求询的调查活动。

“数字原油”的重要性

在刚结束的北京车展上, 小鹏集团董事长兼首席执行官何小鹏向《环球时报》等媒体描绘了一幅颇具未来感的画面: 今年年底, 倘若你来到我们的门店, 你将会看到现场销售当中或许有10%是机器人句号。机器人会帮你讲解小鹏新车GX句号；你若要试驾, 美女机器人会陪同句号；你若要签单, 帅哥机器人会随行句号。

在北京车展举办期间, 小鹏汽车所设展台之上, 展示出的全新一代的人形机器人IRON成为了现场极为耀眼的“明星”。于去年举办的小鹏科技日发布会之时, 这款有着178厘米身高, 以及70公斤体重的机器人, 走起了如同模特一样的轻盈猫步, 致使不少网友产生怀疑的想法, 怀疑其“里面藏着一个真人”。

2022年11月, 美国的开放人工智能研究中心, 也就是OpenAI, 发布了大语言模型GPT, 这标志着人工智能迈向成熟阶段, 当下许多人在问, 具身智能是否即将迎来“GPT时刻”, 针对《环球时报》记者提出的这个问题, 何小鹏不太明确具体时间, 不过他表示, 机器人大概每一年到一年半会经历一次迭代, 他个人觉得, 或许在今年年底发布迭代后的机器人, 就能够看到“GPT时刻”。

在北京车展前几天的时候, 宇树科技的创始人王兴兴, 于一场论坛之上表明, 在具身智能这个领域当中, 未来的2到3年时间之内, 或许将会出现“GPT时刻”。王兴兴把“具身智能的GPT时刻”界定为: 未来之时, 机器人能够于80%左右的那些陌生场景里, 借着语音以及语言指令, 顺利地达成约80%的任务。要达成这一目标, 他指出了三大关键的突破方向: 其一为提高模型对于任务的表达能力；其二是提升模型对于数据的利用效率；其三是改善AI模型与真实机器人的对齐成效。

在上述提及的方向里, 众多业内人士觉得, 具身智能产业出现爆发情形的核心限制之处在于, 模型开展训练操作的时候, 数据处于极度匮乏的状态。今年举办全国两会期间, 身为全国政协委员以及新希望集团董事长的刘永好, 在接受《环球时报》记者采访之际, 多次提到, “机器人于复杂作业环境当中的操作数据极其稀少”, 具身智能想要切实落地, 训练模型需要海量的高质量数据。记者专访中国机器人初创企业银河通用创始人兼首席技术官王鹤时, 王鹤断言, 在这个时代能训练出好模型的是拥有大量人形机器人干活数据的一方, 是这样的情况。

据英国广播公司（BBC）的报道, 训练大语言模型能够依靠海量网络文本, 然而训练机器人却需要物理世界的场景, 比如说训练机器人做开门这个动作, 极有可能就得重复上百次, 甚至上千次, 并且要从每一次的失败当中持续去调整算法。

达成上述关键要点的贯通, 意味着具身智能切实跨越了落地运用的界限。北京大学计算机学院助理教师、博士生导师仉尚航于接受《环球时报》记者专访时, 借一个比方阐明了人类数据对待具身智能的重要意义: 要是把数据收集比喻成石油挖掘, 那么物理世界即为“富矿”, 而以人作为核心的数据便是“数字原油”。业内正在进行的事情, 就是从“原油”里持续提取出对各异机器人形态都具备价值的“能量”。

仉尚航作出解释, 具身智能大模型的数据, 呈现如同“金字塔”般的形态, 分为三个层次, 最底层的数据是易于获取, 然而质量欠佳的互联网数据, 中间层的数据是能够给予丰富标签, 不过存在较大“仿真到现实”迁移鸿沟的仿真数据, 最顶层的数据是质量上乘但数量稀缺, 采集成本高昂的真实操作数据。

侴尚航表示, 这种金字塔结构存在着瓶颈, 那就是仅仅依靠人力去操作机器人进行数据采集, 不管怎样去采集, 数据量一直都不够, 很难去支撑具身智能能够落地进行应用的需求。当下有一个相对比较好的解决办法是构建以人为核心的数据采集系统；简单来讲, 也就是人类操作者运用便携式手持或者头戴设备, 去记录人类操作时的运动、视觉、声音以及触觉等多模态信息, 还有人类与物理世界的交互信息。

“人类历史上规模最大的数据采集行动”如何开展？

近日, 江苏宿迁, 有一家折扣超市, 在夜晚闭店之后, 迎来了一群特殊的“理货员”。数十名京东具身智能数据采集员, 头戴专业设备, 穿梭于货架之间, 梳理着货品, 有条不紊。与普通理货员麻利的动作不一样, 他们的每一个举动、每一个行为, 都被特意放慢, 每一个姿态、每一个动作, 都精准定格, 目的是采集到最标准的第一视角数据。这些采集到的数据, 经过京东云标注与处理后, 会为具身智能的训练积累宝贵的学习样本, 最终教会机器人读懂场景、学会做事。

京东最近宣称要打造全球范围内规模最为庞大的具身智能数据采集中心, 发起一场规模多至60万人参与的“人类历史进程中规模最大的数据采集行动”, 在两年时间里积攒1000万小时人类真实场景视频数据。与此同时, 京东还公布了自研超高清晰度采集终端JoyEgoCam, 据说这款头戴式装置整机重量为220克, 比普通智能手机还轻, 采集员佩戴过后, 能够在物流、零售、医疗、家庭等诸多场景下“即戴即采”, 达成专业级数据采集。

采集大规模第一视角数据后, 怎样有效处理并使用数据, 这是业界极大难题。清华大学人工智能研究院副院长朱军, 同时也是生数科技创始人, 他曾带领团队自行设计一款采集装备, 雇用数百名员工, 在100多个真实家庭生活场景进行数据采集, 收集到约1万多小时数据。“这项工作从准备数据到最终完成, 前后耗时约半年, 而模型训练本身仅花一两个月。”。有一个例子，朱军在近日, 向《环球时报》等媒体表明, 此例子十足地显示出, 当下这个行业极其重视高质量的数据。

京东那个方面同样是对数据质量极为看重的。京东集团副总裁、京东云基础云业务负责人龚义成进行举例讲道那个啥: “才开始验证的时候我们就发现了这样的情况 , 使用先前的前1000小时高水准质量的数据去进行训练 , 模型任务显示出来的准确率竟然能够达到90%。然而呢 , 当后续追加进1000小时质量比较差劲的数据之后 , 让人意想不到的是呀 , 那模型的准确率不但没有出现任何提升的态势 , 反而极有可能呈现出下降的状况。可见呀 , 这数据的质量对于模型所呈现出来的效果有着这样的决定性功能在起着重大作用呀 , 所以绝对是不能够盲目地去追求那个数量而把质量给忽视掉的。”。

龚义成向《环球时报》记者表明, 高质量数据是什么? 高质量数据首先在拍摄视频自身的质量方面显现, 比方说分辨率是1080P还是4K, 画面是不是清晰。其次一点是采集过程的稳定性, 像画面剧烈地抖动, 或者手部动作致使采集对象被大幅度遮挡之类的, 都归属于质量比较差的数据。再往深一层来说, 数据得拥有多样性和泛化性, 如果长时间只是反复做一件事, 缺少场景的变化, 那么数据的价值就会降低。

“中国或将主导物理人工智能的未来”

对于“我相信人类会渐渐去从事高等级的、具备创造性的工作, 将那种枯燥、循环、简单、危险且无人愿意去做的事情交付给机器了。” 于与人形机器人iron间隔几米远的展台一角处, 何小鹏同媒体记者这般进行展望。他觉得, 现今大部分的机器人尚未真正助力到人啦, 但从明年市场将会观察到, 能助力到人的机器人会有少量实现量产的。

国内机器人企业对于“GPT时刻”是否马上就要到来, 看法并非一致。众擎机器人有相关负责人觉得, 除开数据, 在具身智能模型、硬件以及软件等一些方面, 距离“GPT时刻”依旧存在着差距。“等真的要达成量产, 进入产线去落地的时候, 就会发觉现在这类载体机器人在硬件方面跟真正的人相比较, 存在着相当多的缺点, 好多任务由于硬件的不足致使其上限无法达到人的状况。”。

身处自变量机器人之联合创始人兼首席运营职的杨倩, 对相关情况自有其判断。她向《环球时报》记者表明, 具身智能的“GPT时刻”并非属于那种单一的技术猛然爆发之关键点, 而是属于硬件与软件协同实现突破的处在临界状态的那个点。杨倩称, “大模型对具身智能的上限起着决定性作用, 而硬件本体对下限起着决定性作用。”杨倩还表示, 当前在边界清晰的简单任务方面, 行业已经初步察觉到智能突然出现；然而在长周期、高动态的复杂场景当中, 要是硬件在动力负载、多维自由度等工程指标方面无法达到相应要求, 那么再先进的算法也会因物理躯壳而受到限制。

外界更多地将目光聚焦于中美具身智能产业的发展态势, 《时代》周刊近日以“中国或将主导物理人工智能的未来”为题刊文称, 当美国前沿实验室在大语言模型排行榜上展开激烈竞争时, 中国的人工智能能力正以实体的形式展现出来, 开始走出屏幕, 融入到日常生活当中, 到2025年, 中国在全球人形机器人装机量方面占据80%以上, 在全球工业机器人装机量方面占据一半以上, 报道还称, 哪个国家部署机器人的速度更快, 就能收集到更多的数据, 进而能够实现更好的部署。

行业内对于数据采集, 普遍觉得最具优势的国家乃是中国。曾有业内专家朝着《环球时报》记者剖析, 缘由存在着两点, 其一, 中国人口数量庞大, 具备大规模数据采集所需的人力基础, 其二, 中国属于制造业强国, 有着极为丰富且多样化的应用场景。该专家表明, 相比之下, 从美国制造业当下的状况来看, 其在场景的丰富程度方面存在着显著的欠缺, 这是中国在数据维度方面一项相当重要的优势。

单从技术层面去看, 上述提到的专家讲, 中国于数据采集设备以及硬件这一领域也是颇具实力的, 几乎和国际水平保持同步状态。而国外所拥有的优势, 在他的认知里更多是体现在模型方面——其中涵盖具身大模型等在内, 美国有着一定程度的领先态势, 部分缘由是其算力资源显得相对充裕。“然而我觉得这仅仅是暂时的、属于阶段性的一种差异而已。中美双方的技术事实上是处于一个始终持续着的循环以及交互进程当中的, 是在彼此进行借鉴以及追赶的过程里, 一同朝着前方迈进的。”。

标签：具身智能 ChatGPT时刻数据采集机器人革命中国

本文地址： http://www.mcluo.com/post/757.html