---
title: "不卷参数卷架构，这个开源模型把图像理解和生成统一了"
source_name: "量子位"
original_url: "https://www.qbitai.com/2026/04/410937.html"
canonical_url: "https://www.traeai.com/articles/6f03996c-62f7-4b68-b464-3af0116f2059"
content_type: "article"
language: "中文"
score: 9
tags: ["SenseNova","图像生成","AI模型","商汤"]
published_at: "2026-04-29T04:27:03+00:00"
created_at: "2026-04-29T08:27:35.523158+00:00"
---

# 不卷参数卷架构，这个开源模型把图像理解和生成统一了

Canonical URL: https://www.traeai.com/articles/6f03996c-62f7-4b68-b464-3af0116f2059
Original source: https://www.qbitai.com/2026/04/410937.html

## Summary

商汤开源了全新架构模型SenseNova-U1，通过NEO-unify架构统一图像理解与生成，支持连续性图文创作和高密度信息图处理。

## Key Takeaways

- SenseNova-U1以8B小尺寸实现GPT-Image-2级别的图像生成能力，尤其擅长信息图和文字密集排版。
- 创新的连续性图文创作能力，语义和像素细节在单一模型中同时保留，提升连贯性。
- NEO-unify架构使模型原生兼具“看”和“画”能力，无需多模型拼接，推理速度快。

## Content

Title: 不卷参数卷架构，这个开源模型把图像理解和生成统一了

URL Source: http://www.qbitai.com/2026/04/410937.html

Markdown Content:
# 不卷参数卷架构，这个开源模型把图像理解和生成统一了 – 量子位

*   [首页](http://www.qbitai.com/)
*   [资讯](https://www.qbitai.com/category/%e8%b5%84%e8%ae%af)
*   [智能车](https://www.qbitai.com/category/auto)
*   [智库](https://www.qbitai.com/category/zhiku)
*   [活动](https://www.qbitai.com/category/huodong)
*   [MEET大会](https://www.qbitai.com/meet/meet2026/)
*   [AIGC](https://www.qbitai.com/meet/aigc2025/)

[](https://www.qbitai.com/)

[](javascript:void(0))

扫码关注量子位

![Image 1](http://www.qbitai.com/wp-content/uploads/2019/01/qrcode_QbitAI_1.jpg)

[](https://weibo.com/qbitai?is_all=1)

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

# 不卷参数卷架构，这个开源模型把图像理解和生成统一了

![Image 2](http://www.qbitai.com/wp-content/themes/liangziwei/imagesnew/head.jpg)_[henry](https://www.qbitai.com/author/henry "由 henry 发布")_ 2026-04-29 12:27:03 来源：[量子位](https://www.qbitai.com/)

全网开源，即刻可用

> henry 发自 凹非寺
> 
> 
> 量子位 | 公众号 QbitAI

这两天打开朋友圈，10条里有7条都是GPT-Image-2生的图。

中文海报、复古杂志封面、直播画面、社交截图、连高考试卷都能照着出一张几乎以假乱真的。

对此，大家伙的反应也都出奇的一致——

专业设计师们完了，我又能行了！

但实际上上手你就会有同感：免费用户一天几张，抽卡次数有限，遇到稍微严肃点的活，额度马上到顶，常常是活没干完，次数没了。

针对这一空档，商汤刚刚开源了一个全新架构的理解生成统一模型**SenseNova-U1**，虽然小尺寸版本只有8B，却能复刻不少GPT-Image-2的拿手绝活。

比如，我们拿它做一张量子位的招聘海报：文字、版式、配色，挑不出毛病。

![Image 3](https://i.qbitai.com/wp-content/uploads/2026/04/cfd2374b2343c9e1b71cf3a2958ec221.webp)

太阳系图解，八大行星各自的轨道、属性、图文介绍一应俱全，看着挺像那么回事。

![Image 4](https://i.qbitai.com/wp-content/uploads/2026/04/7168b572887d03e04c0d5117c746f915.webp)

画个钢铁侠，模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。

![Image 5](https://i.qbitai.com/wp-content/uploads/2026/04/153934773849a54b99c7b9427b110093.webp)

来个马斯克太空集群的信息图也审美在线。

![Image 6](https://i.qbitai.com/wp-content/uploads/2026/04/cccf6345c64eb2b8ba6d36e38f08eda7.webp)

可以说，信息图（InfoGraph）、文字密集排版、图文交错——

这几个曾经被公认是AI生图最难啃的硬骨头，U1能跟GPT-Image-2挤进一桌。

在具体的图像理解与生成的多项指标上，SenseNova-U1也是登顶开源模型的榜首。

![Image 7](https://i.qbitai.com/wp-content/uploads/2026/04/bc2fcfdd54f474938f90e4f72885fa22.png)

在推理响应速度上也具备相当的优势，逼近主流商用闭源模型。

![Image 8](https://i.qbitai.com/wp-content/uploads/2026/04/63c5ae88bc63bf48a5498f885882b714.png)

![Image 9](https://i.qbitai.com/wp-content/uploads/2026/04/9b2dc85c799cc9956d203f2dd4f7e50a.jpeg)

这是怎么做到的，咱往下看。

# 连续性图文创作，这次是原生的

先说U1这次最有意思的能力，**连续性图文创作**。

所谓连续性图文创作，就是文字和图片在一段输出里自然交叠，而不是文字归文字、图片归图片。

这听起来很简单，但实际上很难。因为文字保留语义、图片保留像素细节，这两件事在传统架构里几乎是天敌——

保了语义就丢了像素，保了像素就稀释了语义。

U1的做法是让两者在同一个表征空间里共享上下文，语义丰富性和像素级视觉保真度第一次同时拿住。

简单讲，就是模型能像人一样，边思考边画草图，文字和图片在一段输出里自然交叠。

比如，我让它生成一个“煎牛排的操作教学”。它能从食材准备，沥干水分、调味、煎制和翻面……讲到最后装盘。

每一步的关键操作都有图，牛排的形象从生肉到五分熟一路保持高度一致，不会画着画着变成另一块肉。

![Image 10](https://i.qbitai.com/wp-content/uploads/2026/04/b82a7a4a0e14850fe0e2ac1bbc7e13ff.jpeg)

再比如，我想学一点漫画分镜技巧。

它能直接给我吐出图文并茂的教材式段落，从准备阶段、镜头建立、再到引入道具、次要角色一应俱全，比纯文字解释直观得多。

![Image 11](https://i.qbitai.com/wp-content/uploads/2026/04/cb103bc0e8f20a026c148ad43efcd6e8.webp)

这种“始终是同一个主体”的连贯性看起来朴素，但对生成模型却很难。

传统范式得在多个模型之间来回调用，各画各的，角色形象很容易在第三步就走样。U1是单次单模型调用直接出全套。

对一个新模型来说，还有一个值得关注的考验就是——

**高密度信息图**。

在模型界面中，你可以直接输入“自己的简历信息”，它就能返回你一张手绘风格的海报，信息分布、配色、字体层级都安排得明明白白。

![Image 12](https://i.qbitai.com/wp-content/uploads/2026/04/a174d6bf384976e1cde090eb2b9de4aa.png)

让它讲“三只小猪盖房子”，我输入只有这么“7个字”，输出就能直接给你一整组连环画——

三只小猪、三种材料、三栋房子、最后那只大灰狼，一格一格排好，顺序对得上故事。

![Image 13](https://i.qbitai.com/wp-content/uploads/2026/04/044e873a2e80d28b9f73f488f06d7e45.webp)

炒红烧肉这类做菜教程图，也可以一次直出，图文对应。

![Image 14](https://i.qbitai.com/wp-content/uploads/2026/04/73118d0ddbd77cfa12d82f0cb9058d37.webp)

给一句“做杯咖啡的英文流程图”，图也直接出来了。

![Image 15](https://i.qbitai.com/wp-content/uploads/2026/04/45f56b86570be9539dbd27dbfe3cfa79.webp)

在讲究排版、涉及多种元素的插画场景中，U1也能实现比较精细的效果，比如这张划船乐的教学总览图。

![Image 16](https://i.qbitai.com/wp-content/uploads/2026/04/5a902cf50fa57d3ebbf86c44919715f1.jpeg)

最有意思的是这个，扔给它一张路边常见的“电梯安全”警示牌，让它换个排版做成一张信息图。

它还能直接把这个实现完美迁移，把版式从警示牌切成了科普卡片。

![Image 17](https://i.qbitai.com/wp-content/uploads/2026/04/80af8bed47f9b1fef5943a5827260e12.jpeg)

![Image 18](https://i.qbitai.com/wp-content/uploads/2026/04/490aa7d6d94a0e5d012e914f7c6f00b0.webp)

前段时间火爆的产品爆炸图，在U1这里也可以做到。一台相机，被它拆得整整齐齐：

镜头组、反光镜、快门、传感器、芯片，电池什么的，统统被它拆得整整齐齐悬浮在空中，标注线一根不少。

![Image 19](https://i.qbitai.com/wp-content/uploads/2026/04/3ccceeade1c5be3a2c27c34d627cc99c.webp)

这种程度的玩法，以前是超大参数模型的专属。更有意思的一点是，**SenseNova U1 Lite还在行业首创了图文交错的思维链。**

这种会推理的能力放到图像编辑上会更有趣。

我扔给它一张刚泡好的玻璃杯热茶，让它“画出一小时后的样子”。它没有简单地直接出图，而是先做了一段推理：

一是给自己定约束，同一只玻璃杯、同一张原木桌面、同一种侧逆光，这样两张图放一起才看得出“是同一杯茶过了一小时”。

二是推导物理：刚泡时，叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射；

一小时后，多酚类扩散均匀，茶汤变深红褐，叶子完全沉降呈半透明，杯底跟桌面交界处出冷凝痕迹。光影也跟着从“清晨的清冷”过到“午后的慵懒”。

![Image 20](https://i.qbitai.com/wp-content/uploads/2026/04/440ca9e337795079bb78e1685eb97d57.png)

类似的还有几个测试。

给它一个绿色的香蕉，模型会先推理“叶绿素分解+糖化”，从而保证输出的是一根带着斑点的成熟香蕉。

![Image 21](https://i.qbitai.com/wp-content/uploads/2026/04/dcd8c9991d6564bc3baecbbdbc63a6f0.png)

可以说，这款新模型不只是在改图，还具备了一定的物理常识。

# NEO-unify，一个网络实现“看”和“画”

看到这，你可能想问，这是怎么做到的？

U1的底层是一套叫NEO-unify的架构。一个模型同时会看、会画，理解和生成在同一个网络里完成，中间没有任何拼接。

![Image 22](https://i.qbitai.com/wp-content/uploads/2026/04/3017982ce564791e5749561fb1123311.png)

在过去，多模态模型的标配经常是这样的，视觉编码器（VE）负责看，变分自编码器（VAE）负责画，理解归理解，生成归生成，中间靠适配器拼起来。

NEO-unify把这两个东西都拿掉了，不需要VE，不需要VAE，模型直接吃像素，直接吐像素。

具体来说，这一过程分为三步：

第一步，引入近似无损的视觉接口，把图像的输入和输出统一成同一种表示。

第二步，用Mixture-of-Transformer做主干，理解和生成共享同一套底层。

第三步，文本走自回归，视觉走像素流匹配，两套目标函数在同一个学习框架里跑完。

# △图片由SenseNova U1生成

这套技术架构给了NEO-unify独门绝活，连续性图文创作。

传统模型要做这件事，得外挂工具或者后处理拼接。U1底层就是统一的，原生支持图片和文字的交叉排版，所有视觉内容都来自模型自身，不调用外部工具。

模型在思考一个问题的时候，可以一边推理一边生成中间示意图，把复杂逻辑可视化。

生成一段教程，可以在恰当的位置自然地插入说明图。

落地到模型，两个规格。**SenseNova-U1-8B-MoT**，8B参数，端侧能跑。**SenseNova-U1-3AB-MoT**，总参数38B的MoE架构，提供更强的能力，底层都是同一套NEO-unify。

此外，商汤还给U1配了一套自研推理栈，LightLLM跑理解、LightX2V跑生成，两条路解耦各管各的。以H100/H200单节点为例，**生成一张2048×2048的图，端到端大概9秒。**

# 全网开源，即刻可用

值得一提的是，商汤这次在README里把模型的局限也直接写了出来：

上下文最长32K、人物在复杂场景里的细节有时不够稳、长文字渲染偶尔会出现拼写或排版错误、连续性图文创作目前还是beta。

不过这些短板都标了“持续改进中”。换句话说，U1这次开的不是终点，是个起点。

为了方便大家使用，商汤这次顺手开源了一套**SenseNova-Skills**技能包，把U1做成了Agent里能直接调的工具。

sn-infographic自带87种版式、66种风格，自己评分自己挑；挂进OpenClaw，一句 /skill sn-infographic “提示词”，图就出来了。

Skills不只是infographic一个，整套覆盖**图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索。**

目前，**SenseNova-U1**两个模型已经全网开源。Hugging Face和GitHub都能下，仓库地址在https://github.com/OpenSenseNova/SenseNova-U1。

想直接体验不动手部署的，现在可以直接进入SenseNova U1 Lite Skill，https://github.com/OpenSenseNova/SenseNova-Skills。

另外，办公小浣熊也即将上线U1。

_版权所有，未经授权不得以任何形式转载及使用，违者必究。_

[AIGC](https://www.qbitai.com/tag/aigc)[商汤科技](https://www.qbitai.com/tag/%e5%95%86%e6%b1%a4%e7%a7%91%e6%8a%80)[多模态](https://www.qbitai.com/tag/%e5%a4%9a%e6%a8%a1%e6%80%81)

[![Image 23](http://www.qbitai.com/wp-content/themes/liangziwei/imagesnew/head.jpg)[henry](https://www.qbitai.com/author/henry "由 henry 发布")](http://www.qbitai.com/2026/04/410937.html#)

*   [DeepSeek V4报告太详尽了！484天换代之路全公开](https://www.qbitai.com/2026/04/406809.html "DeepSeek V4报告太详尽了！484天换代之路全公开")_2026-04-25_
*   [探索智能新边界！灵光在手机端上线“体验世界模型”功能](https://www.qbitai.com/2026/04/407909.html "探索智能新边界！灵光在手机端上线“体验世界模型”功能")_2026-04-27_
*   [Claude终于认了！降智坐实，越聊越傻，3个bug全曝光](https://www.qbitai.com/2026/04/407502.html "Claude终于认了！降智坐实，越聊越傻，3个bug全曝光")_2026-04-26_
*   [Nature封面：机器人乒乓球干翻人类职业选手](https://www.qbitai.com/2026/04/405370.html "Nature封面：机器人乒乓球干翻人类职业选手")_2026-04-23_

扫码分享至朋友圈

[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/410937.html&title=%E4%B8%8D%E5%8D%B7%E5%8F%82%E6%95%B0%E5%8D%B7%E6%9E%B6%E6%9E%84%EF%BC%8C%E8%BF%99%E4%B8%AA%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E6%8A%8A%E5%9B%BE%E5%83%8F%E7%90%86%E8%A7%A3%E5%92%8C%E7%94%9F%E6%88%90%E7%BB%9F%E4%B8%80%E4%BA%86&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/410937.html)

### 相关阅读

[![Image 24](https://www.qbitai.com/wp-content/uploads/2023/04/11%E5%89%AF%E6%9C%AC-e1681275814233.png)](https://www.qbitai.com/2023/04/44029.html)

#### [马斯克加入AIGC大战！火速抢购1万张GPU，挖Deepmind墙脚](https://www.qbitai.com/2023/04/44029.html)

5年前接管OpenAI失败，马斯克的反击来了

[梦晨](http://www.qbitai.com/?author=32)2023-04-12

[AIGC](https://www.qbitai.com/tag/aigc)[马斯克](https://www.qbitai.com/tag/%e9%a9%ac%e6%96%af%e5%85%8b)

[![Image 25](https://www.qbitai.com/wp-content/uploads/2023/02/640-e1675602243965-300x175.gif)](https://www.qbitai.com/2023/02/41817.html)

#### [一句话就能魔改视频主角，谷歌新「AI导演」惊呆网友：这画质也太赞了](https://www.qbitai.com/2023/02/41817.html)

静态图改动画也不在话下

[alex](http://www.qbitai.com/?author=48)2023-02-05

[AIGC](https://www.qbitai.com/tag/aigc)[文生视频](https://www.qbitai.com/tag/%e6%96%87%e7%94%9f%e8%a7%86%e9%a2%91)[谷歌](https://www.qbitai.com/tag/%e8%b0%b7%e6%ad%8c)

[![Image 26](https://www.qbitai.com/wp-content/uploads/2022/11/640-e1667450633398.jpeg)](https://www.qbitai.com/2022/11/39145.html)

#### [特斯拉前AI主管出手，Stable Diffusion使用体验拉上一个台阶，还可白嫖算力](https://www.qbitai.com/2022/11/39145.html)

一次性生成200张图

[明敏](http://www.qbitai.com/?author=34)2022-11-03

[AIGC](https://www.qbitai.com/tag/aigc)[AI画画](https://www.qbitai.com/tag/ai%e7%94%bb%e7%94%bb)[stable diffusion](https://www.qbitai.com/tag/stable-diffusion)

[![Image 27](https://www.qbitai.com/wp-content/uploads/replace/a4763c08732e694b3532661ab580d5e0.png)](https://www.qbitai.com/2023/06/59002.html)

#### [一览科技CTO陈锡言：大模型阴影下的技术创业机会——链接大模型与用户｜量子位·视点分享回顾](https://www.qbitai.com/2023/06/59002.html)

[量子位](http://www.qbitai.com/?author=19)2023-06-05

[AIGC](https://www.qbitai.com/tag/aigc)[创业](https://www.qbitai.com/tag/%e5%88%9b%e4%b8%9a)[线上活动合辑](https://www.qbitai.com/tag/%e7%ba%bf%e4%b8%8a%e6%b4%bb%e5%8a%a8%e5%90%88%e8%be%91)[量子位·视点](https://www.qbitai.com/tag/%e9%87%8f%e5%ad%90%e4%bd%8d%c2%b7%e8%a7%86%e7%82%b9)[量子位活动合辑](https://www.qbitai.com/tag/huodong)

[![Image 28](https://www.qbitai.com/wp-content/uploads/2024/01/640-2-e1704893590735.png)](https://www.qbitai.com/2024/01/112778.html)

#### [用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤](https://www.qbitai.com/2024/01/112778.html)

自动驾驶新解法

[丰色](http://www.qbitai.com/?author=36)2024-01-10

[多模态](https://www.qbitai.com/tag/%e5%a4%9a%e6%a8%a1%e6%80%81)[自动驾驶](https://www.qbitai.com/tag/%e8%87%aa%e5%8a%a8%e9%a9%be%e9%a9%b6)

[![Image 29](https://www.qbitai.com/wp-content/uploads/2025/04/WX20250423-110520@2x-e1745379084169-300x175.png)](https://www.qbitai.com/2025/04/275942.html)

#### [GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑](https://www.qbitai.com/2025/04/275942.html)

多模态大模型的真实“空间智商”究竟如何

[白交](http://www.qbitai.com/?author=24)2025-04-23

[多模态](https://www.qbitai.com/tag/%e5%a4%9a%e6%a8%a1%e6%80%81)[空间智能](https://www.qbitai.com/tag/%e7%a9%ba%e9%97%b4%e6%99%ba%e8%83%bd)

### 热门文章

[![Image 30](https://i.qbitai.com/wp-content/uploads/2026/04/3c05e7162b787df280fc1a0c5c5505fa.webp) #### 硬刚GPT-Image-2！国产AI生图“天花板”又被捅破了？ 2026-04-25](https://www.qbitai.com/2026/04/406994.html)

[![Image 31](https://i.qbitai.com/wp-content/uploads/2026/04/0cf49de12f493acf8cf43d17c21c697f.webp) #### 刚刚，GPT-5.5发布！内测英伟达工程师：失去它像被截肢 2026-04-24](https://www.qbitai.com/2026/04/406221.html)

[![Image 32](https://i.qbitai.com/wp-content/uploads/2026/04/333.png) #### 河南师傅，左手扳手，右手飞书，竟然能搞数据分析！ 2026-04-23](https://www.qbitai.com/2026/04/406191.html)

[![Image 33](https://i.qbitai.com/wp-content/uploads/2026/04/4fe4a82e8ec2dde9845f3c82c8b95b34.webp) #### DeepSeek V4终于发布！打破最强闭源垄断，明确携手华为芯片 2026-04-24](https://www.qbitai.com/2026/04/406359.html)

[![Image 34](https://i.qbitai.com/wp-content/uploads/2026/04/39b8d459bdbcac10c125983c238ff285_1731587065234.jpg) #### Mobileye 2026财年一季度营收增长27%，自动驾驶商业化进程持续推进 2026-04-24](https://www.qbitai.com/2026/04/406775.html)

*   [关于量子位](http://www.qbitai.com/?page_id=99)
*   [加入我们](http://www.qbitai.com/?page_id=101)
*   [寻求报道](http://www.qbitai.com/?page_id=103)
*   [商务合作](http://www.qbitai.com/?page_id=105)

[扫码关注量子位 ![Image 35](https://www.qbitai.com/wp-content/uploads/2019/01/qrcode_QbitAI_1.jpg)](javascript:void(0))[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)

[](http://www.qbitai.com/2026/04/410937.html#)追踪人工智能新趋势，报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 [京ICP备17005886号-1](https://beian.miit.gov.cn/)
