Two Minute Papers视频2026年5月22日

DeepSeek 的新 AI 是游戏规则改变者

8.7内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

DeepSeek 的视觉指针机制让开源模型用 90% 更少视觉 token 在 7 项基准追平或超越 GPT-4V，同时提供可回溯的可解释推理路径。

核心要点

视觉指针机制将视觉 token 用量压缩 90%，仍保持 SOTA 精度
开源论文给出完整实现蓝图，可直接嵌入现有模型
可解释拓扑推理路径让调试与错误定位成本显著降低

结构提纲

按章节快速跳转。

§引言：为何需要新的视觉理解方式
传统语言描述计数易错且慢，人类用手指点更高效。
§核心创新：视觉指针机制
模型在思考过程中可直接在图像上“指”出对象，实现计数与拓扑推理。
§性能对比：90% token 节省仍超越闭源巨头
在排除自造 benchmark 的 7 项公开测试中，免费系统与十亿美元模型持平或更优。
§可解释性收益：可视化思维链
用户可回溯模型在迷宫、连接判断等任务中的逐步视觉推理路径。
§开源蓝图：无绑定模型，人人可复现
论文仅提供方法细节，允许社区将技术嵌入任意现有开源视觉-语言模型。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

DeepSeek Visual Pointing
- 技术机制
  - 视觉指针
  - 拓扑推理
  - 可解释链
- 性能结果
  - -90% tokens
  - 7 benchmarks
  - vs 闭源 SOTA
- 开源影响
  - 无模型绑定
  - 社区可嵌入
  - 免费蓝图

金句 / Highlights

值得收藏与分享的关键句。

它比大多数前沿模型少用约 90% 的视觉 token。
— [2:43]
⬇︎ 下载 PNG 𝕏 分享到 X
这套免费系统几乎在所有基准上匹配或击败十亿美元级闭源模型。
— [3:02]
⬇︎ 下载 PNG 𝕏 分享到 X
他们未操纵自家基准，平均取自七项公开基准，排除了内部测试。
— [3:26]
⬇︎ 下载 PNG 𝕏 分享到 X
它让 AI 在思考时“指”向对象，并可完整回溯视觉推理过程。
— [1:13]
⬇︎ 下载 PNG 𝕏 分享到 X

#DeepSeek#视觉语言模型#视觉指针#Token 效率#开放研究