T
traeai
RSS登录

traeai 主题雷达

机器人、具身智能与多模态模型进展

聚合 robotics、具身智能、空间理解、机器人基础模型、仿真训练与产业应用内容。

搜索用户通常想解决什么

想追踪机器人和具身智能领域的新模型、新系统和真实应用案例。

为什么值得持续追踪

具身智能正在把模型能力带入物理世界,是 AI 长周期趋势中最值得持续观察的方向之一。

机器人具身智能roboticsembodied AI空间理解机器人基础模型多模态

精选内容

按相关度、评分和更新时间筛出的可读内容。

搜索更多
全球首个世界统一模型发布,机器人家庭成员来了!

自变量机器人发布全球首个世界统一模型WALL-B,打通视觉、听觉、语言和触觉模块,赋予机器人原生多模态能力和持续进化能力。

入选理由:WALL-B基于世界统一模型,解决了传统VLA架构中模块间数据搬运的问题。

精选文章#机器人#人工智能#具身智能#WALL-B中文
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题

高德发布ABot-World世界模型,通过物理优先原则与VLA闭环架构,实现具身智能在零样本泛化、物理合规与动作可控三大维度突破,构建可进化的机器人操作系统。

入选理由:采用可微分物理引擎替代传统视觉渲染,确保生成动作符合真实动力学规律。

精选文章#具身智能#世界模型#物理仿真#机器人操作系统#高德中文
跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里

跨维智能DexWorldModel以机器人任务成功率为核心指标重构世界模型评价体系,通过四层协同架构解决表示、记忆、推理与数据瓶颈,推动具身智能从视频生成走向真机闭环执行。

入选理由:世界模型应以机器人任务成功率而非视觉质量为评价标准,避免指标错位导致落地失效。

精选文章#具身智能#世界模型#机器人#DexWorldModel#AI架构中文
The power of the Claw, in the palm of a robot hand. Agentic robotics is here! Today, we open-source ...

Jim Fan团队开源CaP-X,推出具身智能体框架,支持多机器人平台,包含感知、控制、仿真训练及真实部署能力。

入选理由:CaP-X提供统一API支持机器人臂与人形机器人,实现零样本任务执行

精选推文#具身智能#机器人#大模型#开源框架#强化学习英文
Power video semantic search with Amazon Nova Multimodal Embeddings

Power video semantic search with Amazon Nova Multimodal Embeddings

AWS Machine Learning Blog3566 字 (约 15 分钟)
87

AWS 推出基于 Amazon Nova 多模态嵌入的视频语义搜索方案,可联合处理音视频、文本等多源信号,提升检索准确性与效率。

入选理由:传统视频搜索依赖文本转录,易丢失时空和音频信息

精选文章#Amazon Nova#多模态嵌入#视频语义搜索#Amazon Bedrock#AWS英文
136. 全球大模型季报第9集:和广密聊,Coding是AGI第二幕、硅谷御三家真相、模型正成为新一代OS

Coding正推动AI从聊天机器人迈向能自主执行任务的Agent,成为AGI第二幕核心驱动力,并重塑硅谷大模型竞争格局。

入选理由:Coding是AGI发展的关键加速器,领先模型通过代码能力放大顶尖人才生产力10-50倍

精选播客#大模型#AGI#AI编程#硅谷科技#操作系统中文
π0.7发布,VLA押出了机器人的GPT-3时刻

π0.7发布,VLA押出了机器人的GPT-3时刻

量子位2991 字 (约 12 分钟)
87

Physical Intelligence发布π0.7模型,首次在机器人领域实现组合泛化,通才性能超越专才,标志VLA迎来GPT-3时刻。

入选理由:π0.7通过多层prompt机制有效利用多样化数据,无需清洗即可提升性能

精选文章#机器人#VLA#具身智能#组合泛化#Physical Intelligence中文
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

美团技术团队4077 字 (约 17 分钟)
87

美团开源原生多模态模型LongCat-Next,通过离散Token统一建模视觉、语音与文本,实现理解与生成的对称架构。

入选理由:提出DiNA架构,用统一自回归模型处理多模态信号,打破模态割裂

精选文章#多模态大模型#离散表示#自回归模型#美团#AI架构中文
Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

文章详解如何使用 Sentence Transformers 微调多模态嵌入与重排序模型,并以视觉文档检索任务为例展示显著性能提升。

入选理由:微调多模态嵌入模型可显著提升特定任务(如视觉文档检索)的检索效果

精选文章#Sentence Transformers#多模态学习#模型微调#嵌入模型#Hugging Face英文
刚刚,机器人练成了宁次的「白眼」:∞帧画面边看边3D重建我们的世界!

蚂蚁灵波开源LingBot-Map,实现纯自回归流式3D重建,突破实时性、精度与显存限制,适用于机器人、自动驾驶等场景。

入选理由:提出几何上下文注意力机制,实现选择性记忆,显著降低显存消耗

精选文章#3D重建#具身智能#计算机视觉#自回归模型#蚂蚁灵波中文
Boston Dynamics just gave its robot dog a brain that reasons about the physical world.

Google DeepM...

Boston Dynamics 将 Google DeepMind 的 Gemini Robotics 模型植入 Spot 机器人,赋予其具身推理能力,可自主理解环境并决策,已部署数千台形成数据飞轮。

入选理由:Spot 现能通过多视角摄像头自主识别遮挡物体并计算仪表读数,实现物理世界推理。

精选推文#Boston Dynamics#Google DeepMind#具身智能#机器人英文
谁能通过真实世界考验?ATEC2026发起具身智能“图灵测试”

ATEC2026发起具身智能‘图灵测试’,通过三级赛制验证机器人在开放动态环境中的行走、操作与环境改造能力,推动建立公开可复现的评测体系。

入选理由:赛事构建‘仿真-迁移-实景’完整链路,聚焦具身智能在非结构化环境中的长时序任务稳定性。

精选文章#具身智能#机器人竞赛#图灵测试#ATEC#人工智能中文
Weaviate • vector database(@weaviate_io) 图标

We spent weeks testing text vs. image retrieval for RAG. The winner? 𝗡𝗲𝗶𝘁𝗵𝗲𝗿. Our recent pu...

Weaviate • vector database(@weaviate_io)260 字 (约 2 分钟)
85

Weaviate测试文本与图像检索在RAG中的效果,发现两者各有优劣,多模态混合检索表现最佳。

入选理由:文本检索在Recall@1略优于图像,但图像在深层召回中表现相当甚至更好。

精选推文#RAG#多模态检索#向量数据库#Weaviate#信息检索英文
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

量子位1575 字 (约 7 分钟)
85

谷歌DeepMind发布Gemini Robotics-ER 1.6,赋予波士顿动力Spot机器狗高精度仪表识别与空间推理能力,任务成功率显著提升。

入选理由:ER 1.6通过Pointing机制实现精准空间理解,物体计数和定位错误大幅减少

精选文章#具身智能#机器人#Gemini#空间推理#波士顿动力中文
GroundedPlanBench: Spatially grounded long-horizon task planning for robot manipulation

GroundedPlanBench: Spatially grounded long-horizon task planning for robot manipulation

Microsoft Research Blog1355 字 (约 6 分钟)
85

微软研究院提出GroundedPlanBench基准与V2GP框架,解决视觉语言模型在机器人长程任务规划中因自然语言歧义导致的执行失败问题。该框架将演示视频转化为空间锚定训练数据,实现动作规划与空间定位的联合学习,在基准测试与真实机器人实验中显著提升了任务成功率与动作精度。

入选理由:传统VLM机器人规划将动作生成与空间定位解耦,易因自然语言歧义引发长程任务失败。

精选文章#具身智能#视觉语言模型#机器人任务规划#基准测试#微软研究院英文
Hugging Face Blog 图标

Multimodal Embedding & Reranker Models with Sentence Transformers

Hugging Face Blog123 字 (约 1 分钟)
85

sentence-transformers v5.4 新增多模态支持,可将文本、图像、音频和视频映射至统一向量空间,实现跨模态相似度计算。 多模态 Reranker 模型支持对混合模态文档对进行相关性打分,可直接用于构建跨模态检索与多模态 RAG 流水线。 使用多模态功能需按需安装依赖,且 VLM 类模型对 GPU 显存有明确要求(2B 约 8GB,8B 约 20GB),CPU 推理极慢。

入选理由:sentence-transformers v5.4 新增多模态支持,可将文本、图像、音频和视频映射至统一向量空间,实现跨模态相似度计算。

精选文章#Sentence Transformers#多模态检索#向量嵌入#RAG#Hugging Face中文
Optimize video semantic search intent with Amazon Nova Model Distillation on Amazon Bedrock

Optimize video semantic search intent with Amazon Nova Model Distillation on Amazon Bedrock

AWS Machine Learning Blog2173 字 (约 9 分钟)
82

AWS 使用模型蒸馏技术将大模型的路由智能迁移到小模型,在视频语义搜索中降低95%成本、50%延迟,同时保持准确率。

入选理由:模型蒸馏无需人工标注数据,利用教师模型自动生成高质量训练样本

精选文章#Amazon Bedrock#模型蒸馏#视频语义搜索#多模态AI#AWS英文
How Aigen transformed agricultural robotics for sustainable farming with Amazon SageMaker AI

本文详述农业机器人公司Aigen如何将本地机器学习流水线迁移至AWS云原生架构。通过结合IoT边缘数据回传、视觉基础模型集成与主动学习实现自动化标注,并利用SageMaker多GPU分布式训练解决算力瓶颈,最终实现标注吞吐量提升20倍、成本降低22.5倍,为边缘AI规模化落地提供可复用的架构范式。

入选理由:采用视觉基础模型集成与主动学习构建自动化标注流水线,可大幅降低边缘场景数据标注成本并提升吞吐量。

精选文章#AWS SageMaker#边缘计算#计算机视觉#MLOps#农业机器人英文
20亿美金苏度科技具身首秀即大招!0真机数据,zero-shot,跑出98%首次抓取成功率

苏度科技发布具身模型Sudo R1,仅用纯仿真数据实现98%零样本抓取成功率,突破Sim2Real瓶颈。

入选理由:Sudo R1在无真机数据训练下达成98%首次抓取成功率,验证纯仿真路线可行性

精选文章#具身智能#机器人#仿真训练#Zero-shot#Sim2Real中文
70.杭州六小龙第一股,与群核黄晓煌的访谈:一家硬科技公司的15年进化史

70.杭州六小龙第一股,与群核黄晓煌的访谈:一家硬科技公司的15年进化史

卫诗婕|商业漫谈Jane's talk1485 字 (约 6 分钟)
78

群核科技历经15年深耕空间数字化,从SaaS工具酷家乐转型为AI时代物理世界数据与空间智能基础设施提供商。

入选理由:长期积累的物理空间数据成为AI训练稀缺资源

精选播客#硬科技#AI转型#空间智能#SaaS#具身智能中文

相关主题