T
traeai
登录
返回首页
量子位

DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

8.0Score
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
AI 深度提炼
  • 非思考模式下,DeepSeek识图速度非常快,但推理能力较弱。
  • 深度思考模式下,DeepSeek推理能力强,但耗时较长。
  • DeepSeek识图模式在OCR、表格识别等实用功能上表现良好。

结构提纲

AI 替你读一遍后整理出的核心层级。

  1. 介绍DeepSeek识图模式的背景和期待。

  2. 展示非思考和深度思考模式下的性能差异。

  3. 通过空间推理题和图片找不同测试,对比两种模式的推理能力。

  4. 测试OCR、表格识别等功能的表现。

  5. 总结DeepSeek识图模式的发展速度和未来展望。

思维导图

用一张图看清主题之间的关系。

正在生成思维导图…
查看大纲文本(无障碍 / 无 JS 友好)
  • DeepSeek识图模式实测

金句 / Highlights

值得收藏与分享的关键句。

#DeepSeek#多模态#AI模型
打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-30 14:52:23 来源:量子位

非思考模式快到飞起

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

今天,你被DeepSeek识图模式灰度到了吗?

Image 1

大家对DeepSeek的多模态属实期待了太久太久,如今惊喜紧随V4的发布而来,没等DeepSeek官方释出更多信息,民间已经从各个方向开始挖掘“识图”背后的种种蛛丝马迹。

还真有不少发现。

比如,DeepSeek识图模式背后,看上去是一个独立于V4 flash/pro的新模型。

Image 2

又比如,DeepSeek在V4技术报告里的“未来展望”,实际上可能都做的差不多了……

Image 3

今天眼睛一睁,俺也喜提灰度,这就来展示一下实测成果。

实测DeepSeek识图模式

在识图模式下,可以选择是否开启深度思考。

Image 4

**非思考模式下,这个DeepSeek视觉模型的速度非常快**,~~比闪电五连鞭还要快。~~

点击发送键,几乎无需等待,答案就哗啦一下冒了出来。

Image 5

那么思考和非思考模式下,DeepSeek识图模式的推理能力会有什么样的差别?

推理能力

先上一道**空间推理题**:要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型,还需在问号处添加的图形是哪个?

Image 6

非思考模式秒给答案,然后……秒错。

Image 7

开启深度思考后,DeepSeek成功闯关,给出了正确答案D。

Image 8

但可以看到,它思考这个问题整整用了**4分多钟**。

这个思考过程的冗长程度,我们可以直观地感受一下——

在思考的中段,其实DeepSeek已经找到了正确答案:

Image 9

但马上就是一个“等等”,然后……又绕了一大堆。

Image 10

这个问题有人也在DeepSeek研究员陈小康的推文下反馈了。

Image 11

再试试**图片找不同**:找出两张图片中所有的不同点。

Image 12

非思考模式下,DeepSeek很快找到了7处不同。

Image 13

可以很明显地看出,其中幻觉不少,比如第5点托盘里的钥匙不知道是怎么来的,第7点苹果和香蕉之间也没有白色的空盘子。

思考模式这次则只用了16秒的时间,找出了12处不同。

Image 14

但……不知道是不是图片本身的原因,幻觉更多了。

实用功能

推理部分还有进步空间,那么在实用功能方面,DeepSeek的识图模式是否靠谱呢?

试试**OCR**。

把DeepSeek V4技术报告的摘要丢进DeepSeek识图模式,不开深度思考的情况下,它依然是闪电出结果,还贴心地给开源链接给超链了。

Image 15

纯文本看上去问题不大,再看看表格DeepSeek能不能hold住。

Image 16

没什么问题,格式上也能用markdown码得整整齐齐。

而更受欢迎的一种新玩法是,**把网页图片发给DeepSeek,它直接能给你复原出HTML来**(非思考模式就能实现)。

Image 17

其中的按钮都是可用的,比如给出API文档的链接,它能自动配置好实现跳转。

Image 18

DeepSeek还能顺利通过“隐藏图片”测试。

Image 19

但在色盲测试中,偶见翻车。

Image 20

根据识图模式自己的回答,它的知识和DeepSeek V4 flash/pro一样,截止到2025年5月。

Image 21

而从它的世界知识中,有博主发现了端倪:视觉模型知道Ta,而V4 flash/pro则并不了解Ta。

是不是说,**识图模式中的视觉模型,是独立训练的?**

Image 22

验证了一下,flash不联网的时候确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。

Image 23
Image 24

做的比说的更快

目前,DeepSeek的识图模式还在灰度测试当中,陈小康透露灰度范围正在逐步扩大。

Image 25

实测下来坦白说,DeepSeek Vision还有不少可以精进之处。

但话说回来,谁又能想到DeepSeek的多模态,来的这么快呢?

当DeepSeek在V4的技术报告中写下,“我们也正在努力将多模态能力整合到我们的模型中”,大家都以为这还只是个优先级没那么高的目标,不少朋友都在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。

而现在看来,DeepSeek做到的或许比外界想象的更多、更快。

那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也……

Image 26

参考链接:

[1]

https://x.com/teortaxesTex/status/2049422327914332307?s=20

[2]

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

问问这篇内容

回答仅基于本篇材料
    0 / 500

    Skill 包

    领域模板,一键产出结构化笔记
    • 论文精读包

      把一篇论文 / 技术博客精读成结构化笔记:问题、方法、实验、批判、延伸阅读。

      • · TL;DR(1 段)
      • · 研究问题与动机
      • · 方法概览
    • 投融资雷达包

      把一条融资 / 创投新闻整理成投资人视角的雷达卡:交易要点、判断、竞争格局、风险、尽调清单。

      • · 交易要点(公司 / 轮次 / 金额 / 投资人 / 估值,材料未明示则写 “未披露”)
      • · 投资 thesis(这家公司为什么值得关注)
      • · 竞争格局与替代方案

    导出到第二大脑

    支持 Notion / Obsidian / Readwise
    下载 Markdown(Obsidian 直接拖入)