T
traeai
登录
返回首页
量子位

不卷参数卷架构,这个开源模型把图像理解和生成统一了

9.0Score
不卷参数卷架构,这个开源模型把图像理解和生成统一了
AI 深度提炼
  • SenseNova-U1以8B小尺寸实现GPT-Image-2级别的图像生成能力,尤其擅长信息图和文字密集排版。
  • 创新的连续性图文创作能力,语义和像素细节在单一模型中同时保留,提升连贯性。
  • NEO-unify架构使模型原生兼具“看”和“画”能力,无需多模型拼接,推理速度快。
#SenseNova#图像生成#AI模型#商汤
打开原文

不卷参数卷架构,这个开源模型把图像理解和生成统一了 – 量子位

[](https://www.qbitai.com/)

[](javascript:void(0))

扫码关注量子位

Image 1

[](https://weibo.com/qbitai?is_all=1)

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

不卷参数卷架构,这个开源模型把图像理解和生成统一了

!Image 2_[henry](https://www.qbitai.com/author/henry "由 henry 发布")_ 2026-04-29 12:27:03 来源:量子位

全网开源,即刻可用

henry 发自 凹非寺
量子位 | 公众号 QbitAI

这两天打开朋友圈,10条里有7条都是GPT-Image-2生的图。

中文海报、复古杂志封面、直播画面、社交截图、连高考试卷都能照着出一张几乎以假乱真的。

对此,大家伙的反应也都出奇的一致——

专业设计师们完了,我又能行了!

但实际上上手你就会有同感:免费用户一天几张,抽卡次数有限,遇到稍微严肃点的活,额度马上到顶,常常是活没干完,次数没了。

针对这一空档,商汤刚刚开源了一个全新架构的理解生成统一模型**SenseNova-U1**,虽然小尺寸版本只有8B,却能复刻不少GPT-Image-2的拿手绝活。

比如,我们拿它做一张量子位的招聘海报:文字、版式、配色,挑不出毛病。

Image 3

太阳系图解,八大行星各自的轨道、属性、图文介绍一应俱全,看着挺像那么回事。

Image 4

画个钢铁侠,模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。

Image 5

来个马斯克太空集群的信息图也审美在线。

Image 6

可以说,信息图(InfoGraph)、文字密集排版、图文交错——

这几个曾经被公认是AI生图最难啃的硬骨头,U1能跟GPT-Image-2挤进一桌。

在具体的图像理解与生成的多项指标上,SenseNova-U1也是登顶开源模型的榜首。

Image 7

在推理响应速度上也具备相当的优势,逼近主流商用闭源模型。

Image 8
Image 9

这是怎么做到的,咱往下看。

连续性图文创作,这次是原生的

先说U1这次最有意思的能力,**连续性图文创作**。

所谓连续性图文创作,就是文字和图片在一段输出里自然交叠,而不是文字归文字、图片归图片。

这听起来很简单,但实际上很难。因为文字保留语义、图片保留像素细节,这两件事在传统架构里几乎是天敌——

保了语义就丢了像素,保了像素就稀释了语义。

U1的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时拿住。

简单讲,就是模型能像人一样,边思考边画草图,文字和图片在一段输出里自然交叠。

比如,我让它生成一个“煎牛排的操作教学”。它能从食材准备,沥干水分、调味、煎制和翻面……讲到最后装盘。

每一步的关键操作都有图,牛排的形象从生肉到五分熟一路保持高度一致,不会画着画着变成另一块肉。

Image 10

再比如,我想学一点漫画分镜技巧。

它能直接给我吐出图文并茂的教材式段落,从准备阶段、镜头建立、再到引入道具、次要角色一应俱全,比纯文字解释直观得多。

Image 11

这种“始终是同一个主体”的连贯性看起来朴素,但对生成模型却很难。

传统范式得在多个模型之间来回调用,各画各的,角色形象很容易在第三步就走样。U1是单次单模型调用直接出全套。

对一个新模型来说,还有一个值得关注的考验就是——

**高密度信息图**。

在模型界面中,你可以直接输入“自己的简历信息”,它就能返回你一张手绘风格的海报,信息分布、配色、字体层级都安排得明明白白。

Image 12

让它讲“三只小猪盖房子”,我输入只有这么“7个字”,输出就能直接给你一整组连环画——

三只小猪、三种材料、三栋房子、最后那只大灰狼,一格一格排好,顺序对得上故事。

Image 13

炒红烧肉这类做菜教程图,也可以一次直出,图文对应。

Image 14

给一句“做杯咖啡的英文流程图”,图也直接出来了。

Image 15

在讲究排版、涉及多种元素的插画场景中,U1也能实现比较精细的效果,比如这张划船乐的教学总览图。

Image 16

最有意思的是这个,扔给它一张路边常见的“电梯安全”警示牌,让它换个排版做成一张信息图。

它还能直接把这个实现完美迁移,把版式从警示牌切成了科普卡片。

Image 17
Image 18

前段时间火爆的产品爆炸图,在U1这里也可以做到。一台相机,被它拆得整整齐齐:

镜头组、反光镜、快门、传感器、芯片,电池什么的,统统被它拆得整整齐齐悬浮在空中,标注线一根不少。

Image 19

这种程度的玩法,以前是超大参数模型的专属。更有意思的一点是,**SenseNova U1 Lite还在行业首创了图文交错的思维链。**

这种会推理的能力放到图像编辑上会更有趣。

我扔给它一张刚泡好的玻璃杯热茶,让它“画出一小时后的样子”。它没有简单地直接出图,而是先做了一段推理:

一是给自己定约束,同一只玻璃杯、同一张原木桌面、同一种侧逆光,这样两张图放一起才看得出“是同一杯茶过了一小时”。

二是推导物理:刚泡时,叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射;

一小时后,多酚类扩散均匀,茶汤变深红褐,叶子完全沉降呈半透明,杯底跟桌面交界处出冷凝痕迹。光影也跟着从“清晨的清冷”过到“午后的慵懒”。

Image 20

类似的还有几个测试。

给它一个绿色的香蕉,模型会先推理“叶绿素分解+糖化”,从而保证输出的是一根带着斑点的成熟香蕉。

Image 21

可以说,这款新模型不只是在改图,还具备了一定的物理常识。

NEO-unify,一个网络实现“看”和“画”

看到这,你可能想问,这是怎么做到的?

U1的底层是一套叫NEO-unify的架构。一个模型同时会看、会画,理解和生成在同一个网络里完成,中间没有任何拼接。

Image 22

在过去,多模态模型的标配经常是这样的,视觉编码器(VE)负责看,变分自编码器(VAE)负责画,理解归理解,生成归生成,中间靠适配器拼起来。

NEO-unify把这两个东西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。

具体来说,这一过程分为三步:

第一步,引入近似无损的视觉接口,把图像的输入和输出统一成同一种表示。

第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底层。

第三步,文本走自回归,视觉走像素流匹配,两套目标函数在同一个学习框架里跑完。

△图片由SenseNova U1生成

这套技术架构给了NEO-unify独门绝活,连续性图文创作。

传统模型要做这件事,得外挂工具或者后处理拼接。U1底层就是统一的,原生支持图片和文字的交叉排版,所有视觉内容都来自模型自身,不调用外部工具。

模型在思考一个问题的时候,可以一边推理一边生成中间示意图,把复杂逻辑可视化。

生成一段教程,可以在恰当的位置自然地插入说明图。

落地到模型,两个规格。**SenseNova-U1-8B-MoT**,8B参数,端侧能跑。**SenseNova-U1-3AB-MoT**,总参数38B的MoE架构,提供更强的能力,底层都是同一套NEO-unify。

此外,商汤还给U1配了一套自研推理栈,LightLLM跑理解、LightX2V跑生成,两条路解耦各管各的。以H100/H200单节点为例,**生成一张2048×2048的图,端到端大概9秒。**

全网开源,即刻可用

值得一提的是,商汤这次在README里把模型的局限也直接写了出来:

上下文最长32K、人物在复杂场景里的细节有时不够稳、长文字渲染偶尔会出现拼写或排版错误、连续性图文创作目前还是beta。

不过这些短板都标了“持续改进中”。换句话说,U1这次开的不是终点,是个起点。

为了方便大家使用,商汤这次顺手开源了一套**SenseNova-Skills**技能包,把U1做成了Agent里能直接调的工具。

sn-infographic自带87种版式、66种风格,自己评分自己挑;挂进OpenClaw,一句 /skill sn-infographic “提示词”,图就出来了。

Skills不只是infographic一个,整套覆盖**图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索。**

目前,**SenseNova-U1**两个模型已经全网开源。Hugging Face和GitHub都能下,仓库地址在https://github.com/OpenSenseNova/SenseNova-U1。

想直接体验不动手部署的,现在可以直接进入SenseNova U1 Lite Skill,https://github.com/OpenSenseNova/SenseNova-Skills。

另外,办公小浣熊也即将上线U1。

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

AIGC商汤科技多模态

![Image 23[henry](https://www.qbitai.com/author/henry "由 henry 发布")](http://www.qbitai.com/2026/04/410937.html#)

  • [DeepSeek V4报告太详尽了!484天换代之路全公开](https://www.qbitai.com/2026/04/406809.html "DeepSeek V4报告太详尽了!484天换代之路全公开")_2026-04-25_
  • [探索智能新边界!灵光在手机端上线“体验世界模型”功能](https://www.qbitai.com/2026/04/407909.html "探索智能新边界!灵光在手机端上线“体验世界模型”功能")_2026-04-27_
  • [Claude终于认了!降智坐实,越聊越傻,3个bug全曝光](https://www.qbitai.com/2026/04/407502.html "Claude终于认了!降智坐实,越聊越傻,3个bug全曝光")_2026-04-26_
  • [Nature封面:机器人乒乓球干翻人类职业选手](https://www.qbitai.com/2026/04/405370.html "Nature封面:机器人乒乓球干翻人类职业选手")_2026-04-23_

扫码分享至朋友圈

[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/410937.html&title=%E4%B8%8D%E5%8D%B7%E5%8F%82%E6%95%B0%E5%8D%B7%E6%9E%B6%E6%9E%84%EF%BC%8C%E8%BF%99%E4%B8%AA%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E6%8A%8A%E5%9B%BE%E5%83%8F%E7%90%86%E8%A7%A3%E5%92%8C%E7%94%9F%E6%88%90%E7%BB%9F%E4%B8%80%E4%BA%86&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/410937.html)

相关阅读

![Image 24](https://www.qbitai.com/2023/04/44029.html)

#### 马斯克加入AIGC大战!火速抢购1万张GPU,挖Deepmind墙脚

5年前接管OpenAI失败,马斯克的反击来了

梦晨2023-04-12

AIGC马斯克

![Image 25](https://www.qbitai.com/2023/02/41817.html)

#### 一句话就能魔改视频主角,谷歌新「AI导演」惊呆网友:这画质也太赞了

静态图改动画也不在话下

alex2023-02-05

AIGC文生视频谷歌

![Image 26](https://www.qbitai.com/2022/11/39145.html)

#### 特斯拉前AI主管出手,Stable Diffusion使用体验拉上一个台阶,还可白嫖算力

一次性生成200张图

明敏2022-11-03

AIGCAI画画stable diffusion

![Image 27](https://www.qbitai.com/2023/06/59002.html)

#### 一览科技CTO陈锡言:大模型阴影下的技术创业机会——链接大模型与用户|量子位·视点分享回顾

量子位2023-06-05

AIGC创业线上活动合辑量子位·视点量子位活动合辑

![Image 28](https://www.qbitai.com/2024/01/112778.html)

#### 用多模态LLM做自动驾驶决策器,可解释性有了!比纯端到端更擅长处理特殊场景,来自商汤

自动驾驶新解法

丰色2024-01-10

多模态自动驾驶

![Image 29](https://www.qbitai.com/2025/04/275942.html)

#### GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

多模态大模型的真实“空间智商”究竟如何

白交2025-04-23

多模态空间智能

热门文章

![Image 30 #### 硬刚GPT-Image-2!国产AI生图“天花板”又被捅破了? 2026-04-25](https://www.qbitai.com/2026/04/406994.html)

![Image 31 #### 刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢 2026-04-24](https://www.qbitai.com/2026/04/406221.html)

![Image 32 #### 河南师傅,左手扳手,右手飞书,竟然能搞数据分析! 2026-04-23](https://www.qbitai.com/2026/04/406191.html)

![Image 33 #### DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片 2026-04-24](https://www.qbitai.com/2026/04/406359.html)

![Image 34 #### Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进 2026-04-24](https://www.qbitai.com/2026/04/406775.html)

扫码关注量子位 ![Image 35](javascript:void(0))[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)

[](http://www.qbitai.com/2026/04/410937.html#)追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1

问问这篇内容

回答仅基于本篇材料
    0 / 500

    Skill 包

    领域模板,一键产出结构化笔记
    • 论文精读包

      把一篇论文 / 技术博客精读成结构化笔记:问题、方法、实验、批判、延伸阅读。

      • · TL;DR(1 段)
      • · 研究问题与动机
      • · 方法概览
    • 投融资雷达包

      把一条融资 / 创投新闻整理成投资人视角的雷达卡:交易要点、判断、竞争格局、风险、尽调清单。

      • · 交易要点(公司 / 轮次 / 金额 / 投资人 / 估值,材料未明示则写 “未披露”)
      • · 投资 thesis(这家公司为什么值得关注)
      • · 竞争格局与替代方案

    导出到第二大脑

    支持 Notion / Obsidian / Readwise
    下载 Markdown(Obsidian 直接拖入)