国产多模态Agent拿下医学分割SOTA!不用改模型、不加token
IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。
入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力
traeai 主题雷达
聚合 robotics、具身智能、空间理解、机器人基础模型、仿真训练与产业应用内容。
想追踪机器人和具身智能领域的新模型、新系统和真实应用案例。
具身智能正在把模型能力带入物理世界,是 AI 长周期趋势中最值得持续观察的方向之一。
按相关度、评分和更新时间筛出的可读内容。
IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。
入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力
自变量机器人发布全球首个世界统一模型WALL-B,打通视觉、听觉、语言和触觉模块,赋予机器人原生多模态能力和持续进化能力。
入选理由:WALL-B基于世界统一模型,解决了传统VLA架构中模块间数据搬运的问题。
文章介绍如何利用Amazon Neptune和Mem0为Amazon Bedrock实现企业级AI聊天机器人的上下文记忆功能。
入选理由:Amazon Neptune提供可扩展的企业知识图谱存储支持。
高德发布ABot-World世界模型,通过物理优先原则与VLA闭环架构,实现具身智能在零样本泛化、物理合规与动作可控三大维度突破,构建可进化的机器人操作系统。
入选理由:采用可微分物理引擎替代传统视觉渲染,确保生成动作符合真实动力学规律。
跨维智能DexWorldModel以机器人任务成功率为核心指标重构世界模型评价体系,通过四层协同架构解决表示、记忆、推理与数据瓶颈,推动具身智能从视频生成走向真机闭环执行。
入选理由:世界模型应以机器人任务成功率而非视觉质量为评价标准,避免指标错位导致落地失效。
Jim Fan团队开源CaP-X,推出具身智能体框架,支持多机器人平台,包含感知、控制、仿真训练及真实部署能力。
入选理由:CaP-X提供统一API支持机器人臂与人形机器人,实现零样本任务执行
AWS 推出基于 Amazon Nova 多模态嵌入的视频语义搜索方案,可联合处理音视频、文本等多源信号,提升检索准确性与效率。
入选理由:传统视频搜索依赖文本转录,易丢失时空和音频信息
Coding正推动AI从聊天机器人迈向能自主执行任务的Agent,成为AGI第二幕核心驱动力,并重塑硅谷大模型竞争格局。
入选理由:Coding是AGI发展的关键加速器,领先模型通过代码能力放大顶尖人才生产力10-50倍
Physical Intelligence发布π0.7模型,首次在机器人领域实现组合泛化,通才性能超越专才,标志VLA迎来GPT-3时刻。
入选理由:π0.7通过多层prompt机制有效利用多样化数据,无需清洗即可提升性能
美团开源原生多模态模型LongCat-Next,通过离散Token统一建模视觉、语音与文本,实现理解与生成的对称架构。
入选理由:提出DiNA架构,用统一自回归模型处理多模态信号,打破模态割裂
文章详解如何使用 Sentence Transformers 微调多模态嵌入与重排序模型,并以视觉文档检索任务为例展示显著性能提升。
入选理由:微调多模态嵌入模型可显著提升特定任务(如视觉文档检索)的检索效果
蚂蚁灵波开源LingBot-Map,实现纯自回归流式3D重建,突破实时性、精度与显存限制,适用于机器人、自动驾驶等场景。
入选理由:提出几何上下文注意力机制,实现选择性记忆,显著降低显存消耗
Gemini Embedding 2 正式发布,支持文本、图像、视频、音频和 PDF 的统一嵌入模型。
入选理由:单个模型支持 5 种模态的统一嵌入空间
Boston Dynamics 将 Google DeepMind 的 Gemini Robotics 模型植入 Spot 机器人,赋予其具身推理能力,可自主理解环境并决策,已部署数千台形成数据飞轮。
入选理由:Spot 现能通过多视角摄像头自主识别遮挡物体并计算仪表读数,实现物理世界推理。
ATEC2026发起具身智能‘图灵测试’,通过三级赛制验证机器人在开放动态环境中的行走、操作与环境改造能力,推动建立公开可复现的评测体系。
入选理由:赛事构建‘仿真-迁移-实景’完整链路,聚焦具身智能在非结构化环境中的长时序任务稳定性。
Weaviate测试文本与图像检索在RAG中的效果,发现两者各有优劣,多模态混合检索表现最佳。
入选理由:文本检索在Recall@1略优于图像,但图像在深层召回中表现相当甚至更好。
本期具身智能季报梳理26Q1关键进展,聚焦人形机器人、灵巧手与英伟达世界模型三大方向。
入选理由:英伟达推WAM世界动作模型,挑战以语言为中心的VLA范式
谷歌DeepMind发布Gemini Robotics-ER 1.6,赋予波士顿动力Spot机器狗高精度仪表识别与空间推理能力,任务成功率显著提升。
入选理由:ER 1.6通过Pointing机制实现精准空间理解,物体计数和定位错误大幅减少
微软研究院提出GroundedPlanBench基准与V2GP框架,解决视觉语言模型在机器人长程任务规划中因自然语言歧义导致的执行失败问题。该框架将演示视频转化为空间锚定训练数据,实现动作规划与空间定位的联合学习,在基准测试与真实机器人实验中显著提升了任务成功率与动作精度。
入选理由:传统VLM机器人规划将动作生成与空间定位解耦,易因自然语言歧义引发长程任务失败。
sentence-transformers v5.4 新增多模态支持,可将文本、图像、音频和视频映射至统一向量空间,实现跨模态相似度计算。 多模态 Reranker 模型支持对混合模态文档对进行相关性打分,可直接用于构建跨模态检索与多模态 RAG 流水线。 使用多模态功能需按需安装依赖,且 VLM 类模型对 GPU 显存有明确要求(2B 约 8GB,8B 约 20GB),CPU 推理极慢。
入选理由:sentence-transformers v5.4 新增多模态支持,可将文本、图像、音频和视频映射至统一向量空间,实现跨模态相似度计算。
AWS 使用模型蒸馏技术将大模型的路由智能迁移到小模型,在视频语义搜索中降低95%成本、50%延迟,同时保持准确率。
入选理由:模型蒸馏无需人工标注数据,利用教师模型自动生成高质量训练样本
Cloudflare 推出统一 AI 推理层,支持通过单一 API 调用 70+ 多模态模型,简化多供应商管理并优化成本与可靠性。
入选理由:通过 AI.run() 单一接口可无缝切换 12+ 供应商的 70+ 模型
本文详述农业机器人公司Aigen如何将本地机器学习流水线迁移至AWS云原生架构。通过结合IoT边缘数据回传、视觉基础模型集成与主动学习实现自动化标注,并利用SageMaker多GPU分布式训练解决算力瓶颈,最终实现标注吞吐量提升20倍、成本降低22.5倍,为边缘AI规模化落地提供可复用的架构范式。
入选理由:采用视觉基础模型集成与主动学习构建自动化标注流水线,可大幅降低边缘场景数据标注成本并提升吞吐量。
MIT 研究人员用 AI 控制纤维复制人类肌肉功能。
入选理由:纤维内含带电液体密封管和微型电动泵。
Gary Marcus警告不要依赖聊天机器人获取医疗建议,指出LLM在医学领域的风险。
入选理由:大型语言模型常产生错误但表现自信
苏度科技发布具身模型Sudo R1,仅用纯仿真数据实现98%零样本抓取成功率,突破Sim2Real瓶颈。
入选理由:Sudo R1在无真机数据训练下达成98%首次抓取成功率,验证纯仿真路线可行性
群核科技历经15年深耕空间数字化,从SaaS工具酷家乐转型为AI时代物理世界数据与空间智能基础设施提供商。
入选理由:长期积累的物理空间数据成为AI训练稀缺资源
企业文档结构复杂导致AI智能体难以准确解析,Databricks提出结合布局感知与语义理解的文档处理新方法。
入选理由:传统OCR和纯文本模型无法有效处理含表格、图表的企业PDF文档