# 95% sure robotics is fully solved by 2040 | NVIDIA's Jim Fan

Canonical URL: https://www.traeai.com/articles/e8b41e42-7b2b-44a1-baba-6278846dfa78
Original source: https://www.youtube.com/shorts/ryYCeOYUmpE
Source name: Sequoia Capital
Content type: video
Language: 中英混合
Score: 7.2
Reading time: 2 分钟
Published: 2026-05-01T21:15:36+00:00
Tags: robotics, AI, NVIDIA, embodied AI, VLA

## Summary

NVIDIA科学家Jim Fan在Sequoia AI Ascent会议上提出，机器人技术仅剩3项关键突破，95%确信2040年前将实现通用具身智能的全面工程化落地。

## Key Takeaways

- 机器人技术瓶颈已收敛至感知-推理-执行闭环中的三个具体缺口：长程任务规划、零样本技能迁移、物理世界鲁棒交互。
- 多模态基础模型（如VLA）正快速填补感知与动作映射鸿沟，算力+数据+仿真构成三重加速器。
- 2040年节点判断基于摩尔定律延伸、具身AI训练成本年降40%、以及工业级仿真环境成熟度拐点。

## Outline

- 核心断言 — Jim Fan给出95%置信度预测：机器人技术将在2040年前‘完全解决’。
  - 三大未解缺口 — 明确列出当前阻碍通用机器人的三项技术瓶颈：长程规划、零样本迁移、物理鲁棒性。
  - 加速引擎 — 指出多模态大模型、GPU算力跃迁、高保真仿真共同构成突破杠杆。
    - 时间推演依据 — 基于训练成本年降幅、仿真环境成熟度、硬件迭代节奏进行量化推演。

## Highlights

- > ‘不是是否能解决，而是何时以何种成本解决——我们正从‘能不能’进入‘怎么规模化’阶段。’ — 视频口述
- > VLA（Vision-Language-Action）模型已能在仿真中完成1000步以上端到端任务链，但真实世界成功率仍不足60%。 — 视频口述
- > ‘2030年将是具身AI的‘ImageNet时刻’：出现首个在10+真实场景泛化达85%的开源机器人基座模型。’ — 视频口述

## Citation Guidance

When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.