ChatGPT都这么聪明了，为什么2026年才能用上家用机器人？

admin AI新闻 2026-05-30 44

自GPT至家用机器人, AI的物理化进展缘何如此艰难缓慢? 红杉资本AI峰会表明: 机器人领域正重复大语言模型即LLM的成功路线, 历经世界动作模型、即WAM, 以及数据飞轮、还有虚拟训练场、也就是DreamDojo这三大突破, 得以让机械手臂具备拥有“脑补”物理常识特性的能力。倘若AI从数字世界迈向物理世界, 2026年或许会迎来真正的家庭机器人变革。

ChatGPT都这么聪明了，为什么2026年才能用上家用机器人？-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

身为一名从事AI领域工作的人员, 在过去的三年时间里, 我们目睹了大语言模型也就是LLM呈现出的迅猛发展态势, 从GPT - 3发展到GPT, 接着又迎来了多模态模型的大量涌现, AI最终在数字领域达成了犹如具备能言说、会表达, 会画画、能书写这般的能力表现。然而问题是, 既然AI已然如此智能聪慧, 为何至今都未曾有一个机器人能够来到我的家中, 帮忙去完成洗碗、扫地以及叠衣服这些事情呢?

在数字智能已然足够令人惊艳的这种状况下, 为何物理世界里堪称智能的机器人, 却依旧显得动作笨拙不灵活呢? 在那次红杉资本举办的AI峰会上, 有场名为《Robotics: Endgame》的分享活动, 从中能够找寻到答案: 机器人并非是不能够变得聪慧起来, 而是我们尚未寻觅到正确的途径。然而这条途径, 早就已经被GPT验证过了, 去抄袭LLM的成果, 就是机器人达成突破的最为便捷快速的途径。

一、为什么现在的机器人开云真人官方下载开运真人app下载苹果版,开运真人app下载开云真人app官网登录app，总显得“不够聪明”？

我们屡屡于短视频之中瞧见令人惊艳的机器人演示实例, 其中机械臂能够精准无误地抓取物品, 机器狗能够灵活自如地穿越障碍, 然而这些状况大多却是“经过精心设计所呈现出来的表演”。在实际情况里的机器人, 要不就仅仅能够在工厂范围之内执行重复性的预设动作, 要不就是一旦更换场景便会“出现失灵状况”, 完完全全无法达到我们对于那种担当了“管家”一职的机器人应该要有的期待值状况。

在行业范围之内, 曾经尝试运用VLA模型, 也就是视觉 - 语言 - 动作模型, 去处理这个问题, 具体方式是, 为机器人安装摄像头, 连接语言模型, 进而让它能够做到“看图听话”, 在听懂指令之后就展开行动。然而, 这条途径, 早在根源之处就无法畅通前行了呢。

最关键的原因仅有一个, 那就是物理世界比数字世界复杂得多, GPT只要掌握了语言规则便能够聊天, 就算出现错误, 重新写一句就可以了, 然而机器人却要面对重力、摩擦力、材质差异这些所谓的“物理常识” , 人本能地清楚拿玻璃杯时要轻拿, 拿铁锤时要用力, 也明白水倒多了会溢出, 可是机器人仅仅依靠“看”, 永远都学不会这些直觉。

更为关键之处在于, 软件产品倘若出现故障, 最多也就是应用程序突然退出；然而机器人要是出现故障, 则有着砸坏价值昂贵的花瓶的可能性, 甚至是对人造成伤害。故而, 使机器人具备“物理常识”, 并非是额外的优势, 而是关乎生死存亡的界限。

二、抄LLM的作业：机器人突破的核心逻辑

GPT获得成功, 究其实质是一种能够被复制的工程范式, 即海量数据进行预训练, 再者是缩放定律, 还有强化学习实现对齐。而在演讲里, 最为核心的观点在于, 机器人正在重现这条路径, 只是时间上晚了三到五年, 这便是Jim Fan讲的“The Great Parallel”（所谓“伟大的平行”）。

对于从事AI的人员来讲, 这并非一句并无实际意义的话, 而是一套能够切实加以实施的方法论, LLM是依靠互联网文本开展预训练的, 那么机器人就要搜寻自身的具有类似互联网规模的数据；LLM是借助RLHF实现对齐的, 那么机器人就要依靠物理强化学习完备解决最后关键问题；LLM存在Scaling Law, 也就是缩放定律, 那么机器人同样存在自身的适用于机器人的反映灵活程度、操作灵活程度等方面的缩放定律。

跟着LLM的成功路径走以求机器人能变聪明, 而不是从零摸索, 如此便不会出错, 有三个关键突破正在改写机器人行业的格局。

突破1：世界动作模型（WAM）——给机器人装上“脑补能力”

要是仅仅凭借盯着瞧这种方式学不会物理学方面共同知晓的知识内容, 那么就要为机器人去配备一个具备能够推理演绎物理方面产生的结果的脑部装置——世界动作模型（WAM）。

听上去极显高级且深奥, 实则不过是“借助人脑想象补充不存在画面等信息的能力”。如同索拉视频大模型开展对于“世界运转方式”的学习那般, WAM能够使得机器人在于动手操作之前, 尝试于头脑当中进行“播放连贯画面”: 假如要去倒一杯水喝, 就会依据经验预先演练于递的时候万一手滑杯子可能掉落、要是倾斜角度过大进而会出现洒水的不利局面；倘若面临拉开抽屉的行为, 便会经过大脑测算来预估什么位置着手拉动操作起来最能够节省力气、要是不幸卡住了又该运用什么样的办法予以调整。

这跟人类的直觉完全相同, 在我们拿起杯子之前, 虽说不会特意去计算牛顿力学, 然而大脑当中却早已经预先演练了所有可能出现的后果。接下来, AI未来的核心竞争力, 不再是那种“背知识、算题快”的情况了, 而是“脑补预演”所具备的精准程度, 究竟是谁能够制作出更加契合现实规律的WAM, 那么谁就掌握了机器人关键的、起着掌控全局作用的命脉。

突破2：数据飞轮——机器人的“特斯拉护城河”

GPT凭借海量文本喂给它获得了智能, 机器人要是想变得灵巧些的话, 同样也需要海量“动作数据”。然而这里面的关键之处在于, 复制特斯拉FSD的“数据飞轮”逻辑。

特斯拉的自动驾驶厉害的原因在于, 满大街的车都在传回真实道路数据，数据越多, 模型越强, 模型越强, 买的人越多, 进而形成正向循环。机器人也是如此, 演讲中提到的“灵巧度缩放定律”, 本质就是“大力出奇迹”, 只要给机器人喂足够多真实动作数据, 它的手就会越来越巧, 动作越来越像人。

可是, 机器人的数据采集, 相较于LLM而言, 要困难得多, 互联网存有免费的文本语料, 然而, 机器人的动作数据, 需依靠真机操作以及人工遥测, 成本极其高昂, 这便表明, 未来的行业壁垒, 并非算法, 而是具备“低成本采集高质量动作数据”的能力, 那些针对机器人的能进行做事教导的“数据采集手套”“VR遥控器”, 或许比机器人自身更具商业价值。

突破3：DreamDojo——在虚拟世界里“练满级”再落地

有了模型, 还有数据, 然而存在一个现实性难题, 那就是要让机器人学习洗碗, 总不能实实在在地去购买一万个碗来供它摔打吧？因为成本过高, 并且这种做法不具备现实可行性。而解决这一“最后一公里”问题的关键所在, 便是DreamDojo（梦想道场）。

设想它如同《黑客帝国》里的虚拟母体那般, 我们于电脑当中构建一个全然契合物理规律的“虚拟厨房”, 供机器人的“灵魂”置身其中, 日夜不休地开展训练, 即每日清洗花费几万年时间使用的碗碟, 摔碎数目无垠的虚拟盘子, 而此间试错成本等同于零。待其于虚拟世界练就“洗碗大师”本领后, 将经验数据下载至真切的机器人身上, 如此一来它便能够直接着手干活, 这便毫无保留地把机器人于真实世界里试错成本过高这一难题化解掉了。

传统仿真工具存在的痛点在于“虚拟和现实脱节”, 至于DreamDojo, 它运用神经物理引擎, 使得虚拟环境能够无限程度地贴近真实, 进而让机器人的训练效率得到提升, 提升幅度达到千倍、万倍。在未来, 哪一方能够把“机器人版的训练平台”做好, 那一方就会成为机器人时代的“英伟达CUDA”。

三、机器人行业的3个关键判断

听完了整场的演讲, 身为AI从业者, 我对于机器人的未来, 有三项颇为深刻的判断, 并且也打算和大伙分享:

首先, 机器人已不再是仅限于“硬件公司”的那种玩法了的。往昔的时候, 机器人这个行业的核心部分是“机械设备加上控制技术”, 所较量的乃是硬件方面的精准程度；然而如今, 却是“人工智能加上数据”, 即相关数据、模型以及仿真这三者才是决定其竞争力的最为关键的要素了的。

首先, “通用性”是仅有的长久方针。从短期情形而言, 特定性机器人即咖啡机器人、按摩机器人具备获利能力, 然而从长久状况考虑, 必然会遭受通用型机器人的压制——这与GPT胜出所有特定性NLP instruments的逻辑别无二致。将来, 可适配多种场景、落实多种任务的通用型机器人, 才是市场的最终趋向。

第三, 物理AGI的时间表, 相较于我们所想象的, 更为接近。Jim Fan在演讲末尾说道: “它比你所设想的更近”, 紧密结合GPT-3至GPT-4仅仅用了3年这一情况, 机器人从“能够行动”迈向“能够使用”的那一段窗口期, 极有可能就在2026年至2028年, 估计用不着等到十年之后, 便能够目睹到能够步入家庭, 帮我们开展家务劳动的机器人管家。

四、结语：AI从“屏幕里”走向“现实中”

GPT出现, 使得AI学会理解而且生成那数字世界的内容, 机器人崛起, 会让AI拥有真实躯体, 走进实物世界, 切实地“动手做事”, 这是AI从“理解世界”转变到“改变世界”的转折点, GPT之后, 下一个极具影响力的不是之又一个语言模型, 而是能够走进我们生活, 帮我们去解决实际问题的全能机器人。

标签： AI 机器人技术未来智能

本文地址： http://www.mcluo.com/post/765.html