T
traeai
登录

traeai 主题雷达

机器人、具身智能与多模态模型进展

聚合 robotics、具身智能、空间理解、机器人基础模型、仿真训练与产业应用内容。

搜索用户通常想解决什么

想追踪机器人和具身智能领域的新模型、新系统和真实应用案例。

为什么值得持续追踪

具身智能正在把模型能力带入物理世界,是 AI 长周期趋势中最值得持续观察的方向之一。

机器人具身智能roboticsembodied AI空间理解机器人基础模型多模态

长尾组合

这个主题可以沿着工具、实践、对比等搜索意图持续扩展,不靠空壳换词,而是用真实材料更新。

机器人 工具机器人 实践机器人 对比具身智能 工具具身智能 实践具身智能 对比robotics 工具robotics 实践

可自动化内容模块

精选材料

持续抓取与 机器人与具身智能 相关的高分文章、播客、视频和推文。

趋势判断

把最近变化、反复出现的观点和争议点整理成稳定摘要。

实体关联

自动连接相关公司、模型、产品、人物和概念,形成可继续深挖的入口。

精选内容

按相关度、评分和更新时间筛出的可读内容。

搜索更多
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind,实现胸片诊断进入‘可验证推理’时代,通过多模态大模型和强化学习技术,提升医学影像AI的可解释性与临床实用性。

入选理由:CX-Mind是首个实现胸片诊断进入‘可验证推理链’的多模态大模型,提升医学影像AI的可解释性与临床实用性。

精选文章#医学AI#胸片诊断#可验证推理#多模态大模型#强化学习中文
Gemma 4 12B:开发者指南

Gemma 4 12B:开发者指南

Google Developers Blog1171 字 (约 5 分钟)
92

Gemma 4 12B采用无编码器多模态架构,可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟,配合专用MTP模型提升推理速度,是首个支持macOS桌面端全离线交互的中型多模态模型。

入选理由:Gemma 4 12B移除独立编码器,视觉仅用35M参数嵌入层,音频直接线性投影至LLM输入空间

精选文章#Gemma 4#多模态大模型#无编码器架构#本地AI#Google英文
近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

VAST完成近2亿美元融资并披露Project Eden世界模型路线,首创状态推演与视觉渲染解耦架构,支持多人持久化交互、模块化复用和线性算力扩展,为AI原生沙盒与具身智能仿真提供底层基础设施。

入选理由:VAST获近2亿美元A+/A++轮融资,投资方包括渶策资本、国寿长三角科创基金及荣耀、上汽等产业资本。

精选文章#VAST#世界模型#Project Eden#AI 3D#具身智能中文
欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行动的开源全能模型

欢迎 NVIDIA Cosmos 3:首个用于物理AI推理与行动的开源全能模型

Hugging Face Blog1912 字 (约 8 分钟)
92

NVIDIA Cosmos 3 是首个开源物理AI全能模型,整合世界生成、物理推理与动作生成于单模型,支持机器人、自动驾驶等场景,基于MoT架构并提供Hugging Face集成。

入选理由:Cosmos 3 是首个统一物理AI能力的开源模型,融合世界生成、物理推理与动作生成于单模型。

精选文章#NVIDIA#物理AI#Omni-model#Hugging Face#MoT架构英文
NVIDIA 推出 Cosmos 3:统一物理AI多模态模型

NVIDIA 推出 Cosmos 3:统一物理AI多模态模型

NVIDIA Developer543 字 (约 3 分钟)
92

NVIDIA 推出 Cosmos 3,首个融合语言、视频、声音与动作的多模态统一模型,采用 Mixture of Transformer 架构,支持开源定制与边缘部署,已在多项物理AI基准测试中登顶。

入选理由:Cosmos 3 是首个整合语言/视频/声音/动作输入输出的 omni 模型,基于 Mixture of Transformer 架构。

精选视频#NVIDIA#物理AI#多模态模型#Mixture of Transformer#开源模型英文
刚刚,全球首个“事件级预测”具身智能世界模型来了!

自变量机器人发布全球首个事件级预测具身智能世界模型WALL-WM,将预测单位从时间帧升级为语义事件(如“抓取”“放置”),显著提升跨场景泛化能力与动作鲁棒性。

入选理由:WALL-WM以语义事件(如抓取、抬升)为建模单元,替代传统固定时长动作块,使动作长度可变且更符合物理逻辑

精选文章#具身智能#世界模型#VLA#事件建模#机器人学习中文
讯飞首款 AI 眼镜,用 40 克撬动 AI 工作流

讯飞首款 AI 眼镜,用 40 克撬动 AI 工作流

爱范儿4643 字 (约 19 分钟)
92

科大讯飞首款AI眼镜以40克超轻设计+端到端语音同传+唇动识别降噪为核心,将翻译能力嵌入真实工作流,直击30%~50%高退货率痛点;其成功关键在于系统级工程优化与多年翻译场景数据沉淀,而非单纯硬件参数竞争。

入选理由:讯飞AI眼镜整机仅40克(带显示屏),为行业最轻,通过树脂镜片全贴合工艺减重30%~40%,突破亚洲用户45克舒适阈值

精选文章#AI眼镜#多模态交互#端侧AI#科大讯飞#语音翻译中文
7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

Ophiuchus-7B在8个医学VQA基准上以68.0分超越OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和GPT-5(59.9),核心突破在于提出‘Think with Images/Videos’新范式:模型在推理链中主动调用SAM2、BiomedParse等工具重新观察关键区域/时刻,使视觉证据成为思维过程的一部分,而非仅作输入。

入选理由:Ophiuchus-7B在8个医学VQA benchmark平均得分68.0,显著高于o3(62.2)、Gemini 2.5 Pro(61.8)与GPT-5(5

精选文章#医学AI#多模态大模型#智能体#ICML 2026#视觉推理中文
AI Paper Review: GPT-4 Technical Report (GPT-4)

AI Paper Review: GPT-4 Technical Report (GPT-4)

freeCodeCamp.org9755 字 (约 40 分钟)
92

GPT-4标志着大型语言模型从实验性研究向实用化AI平台的转变,引入多模态处理和对齐技术。

入选理由:GPT-4支持文本与图像输入,推动AI系统向通用化发展。

精选文章#GPT-4#AI#多模态#OpenAI中文
一年磨一剑,今年最炸机器人Demo来了!

一年磨一剑,今年最炸机器人Demo来了!

量子位2760 字 (约 12 分钟)
92

Genesis AI发布首个机器人基础模型GENE-26.5,实现打蛋、解魔方、弹钢琴等复杂任务,全程自主运行且仅需少量真实数据微调。

入选理由:GENE-26.5使用统一模型处理多任务,支持多模态输入,大部分技能仅需不到1小时真实数据训练。

精选文章#机器人#基础模型#具身智能#Genesis AI#仿真中文
香蕉和GPT Image之外的第3条路:华人15人团队造出AI生图黑马

华人15人团队Luma AI发布AI生图模型Uni-1.1,以推理生成一体化架构、价格腰斩和广告级落地能力,冲入全球前三,成为OpenAI与Google之外的最优解,重新定义品牌视觉生产的可控性与效率。

入选理由:Uni-1.1将推理与生成融合于单一模型,实现品牌一致性、多参考图约束和按句编辑,解决传统AI生图不可控痛点。

精选文章#AI图像生成#Luma AI#Uni-1.1#广告自动化#多模态推理中文
Most people use vector databases for chatbots and RAG pipelines. 𝗦𝗲𝗻𝗾𝗶 𝗔𝗜 𝘂𝘀𝗲𝘀 ...

Senqi AI 使用 Milvus 向物理机器人注入长期语义记忆能力,解决真实世界任务中环境动态、任务无界、指令模糊和错误高成本等核心挑战。

入选理由:物理机器人Agent需实时重规划,因环境持续变化且任务无明确终点

精选推文#Milvus#RAG#机器人#向量数据库#AI Agent中文
#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

跨国串门儿计划1412 字 (约 6 分钟)
92

普林斯顿Zhuang Liu指出:AI性能瓶颈不在架构创新,而在数据质量与记忆机制;视觉是多模态枢纽但受算力制约;语言模型已具备强抽象世界模型。

入选理由:架构细节(归一化、激活函数等)的组合效应远超核心组件选择

精选播客#AI架构#多模态#数据驱动#世界模型#记忆机制中文
国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。

入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力

精选文章#医学图像分割#多模态模型#强化学习#CVPR中文
Cosmos 3 正式发布

Cosmos 3 正式发布

NVIDIA Developer268 字 (约 2 分钟)
90

NVIDIA 推出 Cosmos 3,一个基于新型混合 Transformer 架构的开放通用模型,专为物理 AI 设计,能生成物理准确的合成视频、作为世界模型和模拟器,并支持机器人等实体智能系统的训练与推理。

入选理由:Cosmos 3 使用新型混合 Transformer 架构,结合自回归和扩散 Transformer 实现感知、推理与生成。

精选视频#NVIDIA#AI#物理AI#Transformer#世界模型英文
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

清华大学AIR DISCOVER Lab开源UniLab,通过异构并行架构实现机器人运控训练效率提升3-10倍,支持Mac本地运行,3分钟完成人形机器人训练,标志着具身智能训练进入分钟级时代。

入选理由:UniLab采用CPU仿真+GPU训练的异构架构,实现3-10倍端到端训练加速。

精选文章#机器人#强化学习#具身智能#开源#异构计算中文
FLUX、开放研究与视觉 AI 的未来 —— 斯蒂芬·巴蒂福尔,黑森林实验室

黑森林实验室斯蒂芬·巴蒂福尔发布 FLUX 开源视觉生成模型,强调开放研究对 AI 可持续发展的重要性,性能媲美闭源领先模型。

入选理由:FLUX 支持 1024×1024 分辨率图像生成,质量接近闭源 SOTA 模型。

精选视频#FLUX#视觉AI#开源模型#黑森林实验室#多模态英文
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

清华大学AIR DISCOVER Lab等机构联合推出GS-Playground,这是一个专为视觉中心的机器人学习设计的新一代仿真框架,实现了高吞吐量并行物理仿真与高保真视觉渲染的融合,助力具身智能规模化训练,已被RSS 2026顶级会议录用。

入选理由:GS-Playground解决了高保真视觉渲染与大规模训练之间的矛盾,提供稳定高效的仿真平台。

精选文章#具身智能#机器人学习#视觉仿真#物理引擎#清华大学中文
全球首个世界统一模型发布,机器人家庭成员来了!

全球首个世界统一模型发布,机器人家庭成员来了!

量子位4359 字 (约 18 分钟)
90

自变量机器人发布全球首个世界统一模型WALL-B,打通视觉、听觉、语言和触觉模块,赋予机器人原生多模态能力和持续进化能力。

入选理由:WALL-B基于世界统一模型,解决了传统VLA架构中模块间数据搬运的问题。

精选文章#机器人#人工智能#具身智能#WALL-B中文
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

清华AIR联合多家机构开源GS-Playground仿真框架,首次融合高吞吐并行物理仿真与高保真视觉渲染,显著提升具身智能规模化训练效率。

入选理由:支持CPU/GPU双后端及全系统原生运行,适配四足/人形/机械臂等多类机器人

精选文章#具身智能#仿真框架#GS-Playground#清华AIR#RSS中文
世界模型榜首易主!跨维智能登顶WorldArena

世界模型榜首易主!跨维智能登顶WorldArena

量子位1451 字 (约 6 分钟)
88

跨维智能在World Arena Track 2登顶全球第一,显著领先第二名,验证其具身世界模型在数据生成、策略训练与任务落地的全链路硬实力。

入选理由:跨维智能DSCFuncWorld在World Arena Track 2以高任务成功率登顶,领先第二名约25%分差。

精选文章#World Arena#具身世界模型#跨维智能#Data Engine#DexWorldModel中文
Gemma-4 12B + Hermes,Google AI Edge:本地、高效与易用

Gemma-4 12B + Hermes,Google AI Edge:本地、高效与易用

AICodeKing3109 字 (约 13 分钟)
87

Gemma-4 12B 采用统一无编码器架构,图像与音频直连 LLM,可在 16GB 设备本地运行;性能接近 26B MOE 且内存不足其半,配套 Hermes 等 Agent 工具与 macOS Edge Gallery,采用 Apache 2.0 开源许可。

入选理由:图像与音频直接映射到 LLM,移除编码器以降延迟与内存。

精选视频#Gemma#412B#多模态#本地部署#Hermes英文

相关主题

跨材料问答 · 机器人、具身智能与多模态模型进展

回答基于:机器人、具身智能与多模态模型进展 主题下 25 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容