# 95% sure robotics is fully solved by 2040 | NVIDIA's Jim Fan Canonical URL: https://www.traeai.com/articles/e8b41e42-7b2b-44a1-baba-6278846dfa78 Original source: https://www.youtube.com/shorts/ryYCeOYUmpE Source name: Sequoia Capital Content type: video Language: 中英混合 Score: 7.2 Reading time: 2 分钟 Published: 2026-05-01T21:15:36+00:00 Tags: robotics, AI, NVIDIA, embodied AI, VLA ## Summary NVIDIA科学家Jim Fan在Sequoia AI Ascent会议上提出,机器人技术仅剩3项关键突破,95%确信2040年前将实现通用具身智能的全面工程化落地。 ## Key Takeaways - 机器人技术瓶颈已收敛至感知-推理-执行闭环中的三个具体缺口:长程任务规划、零样本技能迁移、物理世界鲁棒交互。 - 多模态基础模型(如VLA)正快速填补感知与动作映射鸿沟,算力+数据+仿真构成三重加速器。 - 2040年节点判断基于摩尔定律延伸、具身AI训练成本年降40%、以及工业级仿真环境成熟度拐点。 ## Outline - 核心断言 — Jim Fan给出95%置信度预测:机器人技术将在2040年前‘完全解决’。 - 三大未解缺口 — 明确列出当前阻碍通用机器人的三项技术瓶颈:长程规划、零样本迁移、物理鲁棒性。 - 加速引擎 — 指出多模态大模型、GPU算力跃迁、高保真仿真共同构成突破杠杆。 - 时间推演依据 — 基于训练成本年降幅、仿真环境成熟度、硬件迭代节奏进行量化推演。 ## Highlights - > ‘不是是否能解决,而是何时以何种成本解决——我们正从‘能不能’进入‘怎么规模化’阶段。’ — 视频口述 - > VLA(Vision-Language-Action)模型已能在仿真中完成1000步以上端到端任务链,但真实世界成功率仍不足60%。 — 视频口述 - > ‘2030年将是具身AI的‘ImageNet时刻’:出现首个在10+真实场景泛化达85%的开源机器人基座模型。’ — 视频口述 ## Citation Guidance When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.