Paul Couvert(@itsPaulAi)2026年5月15日

这感觉非常接近‘真实人类’的互动。

6.0内容质量

这感觉非常接近‘真实人类’的互动。

TL;DR · AI 摘要

文章讨论了实时多模态交互模型的进展，强调其接近真实人类互动的能力。

核心要点

多模态模型可同时处理音频、视觉和文本数据流。
数据被分割为固定长度片段并按时间对齐。
该设计与MiniCPM-o 4.5模型高度一致。

结构提纲

按章节快速跳转。

§引言
介绍多模态交互模型接近真实人类互动的体验。
·模型机制
模型通过分割和对齐不同来源的数据流实现全双工交互。
›技术细节
数据被划分为固定长度片段，并基于时间点进行合并。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

多模态交互模型
- 全双工交互
  - 同时处理音频、视觉和文本
  - 接近真实人类互动
- 数据处理机制
  - 分割为固定长度片段
  - 按时间点对齐和合并
- 相关模型
  - MiniCPM-o 4.5

金句 / Highlights

值得收藏与分享的关键句。

Full-duplex with a model which is seeing, hearing, and speaking, at the same time is REALLY cool.
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
The model handles continuous streaming data from different sources (audio, visual, and textual content) by dividing it into small, fixed-length segments.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
This design logic is highly consistent with MiniCPM-o 4.5
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#多模态交互#实时处理

Paul Couvert 在 X 上表示："这感觉非常接近'真人'互动。一个能同时看、听、说的全双工模型真的非常酷。简而言之，该模型通过将不同来源（音频、视觉和文本内容）的连续流数据分割成小的、固定长度的片段来处理。然后，这些片段会根据它们发生的精确时间点进行完美对齐和合并。这种设计逻辑与 MiniCPM-o 4.5 高度一致！🧐"

不要错过正在发生的事情

图片 4

这感觉非常接近'真人'互动。一个能同时看、听、说的全双工模型真的非常酷。简而言之，该模型通过将不同来源（音频、视觉和文本内容）的连续流数据分割成小的、固定长度的片段来处理。然后，这些片段会根据它们发生的精确时间点进行完美对齐和合并。这种设计逻辑与 MiniCPM-o 4.5 高度一致！🧐

引用

图片 6: 方形头像

Thinking Machines

@thinkymachines

·

5月11日

人们实时地同时交谈、倾听、观察、思考和协作。我们设计了一个能以同样方式与人协作的 AI。我们分享了我们的方法、早期成果，并快速展示了我们模型的运行情况。https://thinkingmachines.ai/blog/interacti on-models…

![视频 2](blob:https://x.com/ee7a2719-f526-46e2-a1dd-f4c8600bb298)

图片 7

2026年5月15日 · 下午4:30

·

4,017 次查看

3

3

18

3