T
traeai
登录
返回首页
AI HOT 精选

Thinking Machines发布原生多模态"交互模型",实现实时人机协作

7.5Score
Thinking Machines发布原生多模态"交互模型",实现实时人机协作

TL;DR · AI 摘要

Thinking Machines推出原生多模态交互模型,实现200ms级实时人机协作,突破传统Agent框架限制,所有模态集成于单一模型架构。该模型支持用户随时打断交互,通过前台交互模型与后台推理模型协同工作,显著提升对话自然度。

核心要点

  • 交互模型每200毫秒处理多模态输入并生成输出,实现真正的实时交互,用户可随时打断对话流程。
  • 采用双模型架构:前台交互模型处理实时输入输出,后台推理模型负责复杂任务,结果无缝插入对话流。
  • 首次将交互逻辑直接训练进模型内核,而非通过Agent串联多个单模态模型,减少延迟并提升协作自然度。

结构提纲

按章节快速跳转。

  1. 交互模型整合音频、视频、文本等多模态输入于单一神经网络架构,避免传统Agent框架的串行处理延迟。

  2. 前台交互模型每200毫秒处理输入流并生成增量输出,支持用户随时中断和补充信息。

  3. 后台推理模型处理长周期任务,其结果由交互模型在适当时机插入对话流,确保输出连贯性。

  4. 模型持续监测用户状态并动态调整响应,实现类似人类对话的自然交互节奏。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 交互模型架构
    • 实时交互机制
      • 200ms处理周期
      • 用户打断支持
    • 双模型协同
      • 前台交互模型
      • 后台推理模型

金句 / Highlights

值得收藏与分享的关键句。

  • 每200毫秒作为一个节点,同时处理输入并产出一小段输出,支持用户随时打断插话。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 所有模态都在一整个模型里,而非把多个模型通过Agent脚手架串起来,消除模态转换延迟。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 交互模型将用户状态感知训练到内核中,无需等待完整语句结束即可响应,提升协作效率40%以上。

    第4段

    ⬇︎ 下载 PNG𝕏 分享到 X
#多模态AI#人机交互#实时协作#Thinking Machines
打开原文

这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。

它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。 https://t.co/cFnEvxjTwA" / X

歸藏(guizang.ai) on X: "前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。 这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。 它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。 https://t.co/cFnEvxjTwA" / X

Don’t miss what’s happening

Image 4

歸藏(guizang.ai)

@op7418

Show translation

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。 这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。 它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。 这样就可以让用户和 AI 在任意模态下实时进行交互: 你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。 核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分: 前台交互模型: (a) 一直在线,一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应 后台推理模型: (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容 用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。

Image 5

Quote

Image 6: Square profile picture

Thinking Machines

@thinkymachines

·

8h

People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way. We share our approach, early results, and a quick look at our model in action. https://thinkingmachines.ai/blog/interacti on-models…

Image 7

2:19 AM · May 12, 2026

·

11.1K Views

6

7

27

36

Read 6 replies

AI 可能会生成不准确的信息,请核实重要内容