T
traeai
登录
返回首页
爱范儿

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

7.5Score
开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测
AI 深度提炼
  • 商汤SenseNova U1在图像生成和处理方面表现出色。
  • 该工具支持本地部署,方便企业用户使用。
  • 开源版本提供了更多的灵活性和定制化选项。

结构提纲

AI 替你读一遍后整理出的核心层级。

  1. 介绍商汤SenseNova U1作为GPT Image 2的开源替代品。

  2. 详细描述了U1的主要功能,包括信息图生成与连续图文处理。

  3. 解释了如何进行本地部署以及其对企业用户的好处。

  4. 分享了实际测试中的性能表现和用户体验。

思维导图

用一张图看清主题之间的关系。

正在生成思维导图…
查看大纲文本(无障碍 / 无 JS 友好)
  • 商汤SenseNova U1实测

金句 / Highlights

值得收藏与分享的关键句。

  • 商汤SenseNova U1不仅能够生成高质量的信息图,还支持连续图文处理。

    第 2 段

    下载金句卡 PNG
  • 通过本地部署,企业可以更好地控制数据安全性和隐私保护。

    第 3 段

    下载金句卡 PNG
  • 开源版本为开发者提供了更大的灵活性,可以根据需求进行定制。

    第 4 段

    下载金句卡 PNG
#AIGC#商汤科技#图像生成
打开原文

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测 | 爱范儿

分类

[](https://x.com/ifanr)[](https://www.ifanr.com/weixin)[](http://weibo.com/ifanr)[](https://www.ifanr.com/feed)

商务合作内容投稿

下载客户端

!Image 1: 下载客户端!Image 2: 爱范儿 logo

!Image 4[](https://sso.ifanr.com/myaccount/)

退出登录

[](javascript:;)

![Image 5: 爱范儿 LOGO](https://www.ifanr.com/)

热门搜索

为您查询到 篇文章

加载更多

Image 15

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

软件 15 小时前

-

评论

[](http://v.t.sina.com.cn/share/share.php?url=https://www.ifanr.com/1664423&title=%E5%BC%80%E6%BA%90%E7%89%88%E7%9A%84%20GPT%20Image%202%EF%BC%8C%E4%BF%A1%E6%81%AF%E5%9B%BE%E3%80%81%E8%BF%9E%E7%BB%AD%E5%9B%BE%E6%96%87%E3%80%81%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2%E5%85%A8%E6%8B%BF%E4%B8%8B%EF%BD%9C%E5%95%86%E6%B1%A4SenseNova%20U1%E5%AE%9E%E6%B5%8B)

分享到微信

使用微信扫码将网页分享到微信

[](https://twitter.com/intent/tweet?button_hashtag=ifanr&text=%E5%BC%80%E6%BA%90%E7%89%88%E7%9A%84%20GPT%20Image%202%EF%BC%8C%E4%BF%A1%E6%81%AF%E5%9B%BE%E3%80%81%E8%BF%9E%E7%BB%AD%E5%9B%BE%E6%96%87%E3%80%81%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2%E5%85%A8%E6%8B%BF%E4%B8%8B%EF%BD%9C%E5%95%86%E6%B1%A4SenseNova%20U1%E5%AE%9E%E6%B5%8B&url=https://www.ifanr.com/1664423)[](https://www.linkedin.com/shareArticle?title=%E5%BC%80%E6%BA%90%E7%89%88%E7%9A%84%20GPT%20Image%202%EF%BC%8C%E4%BF%A1%E6%81%AF%E5%9B%BE%E3%80%81%E8%BF%9E%E7%BB%AD%E5%9B%BE%E6%96%87%E3%80%81%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2%E5%85%A8%E6%8B%BF%E4%B8%8B%EF%BD%9C%E5%95%86%E6%B1%A4SenseNova%20U1%E5%AE%9E%E6%B5%8B&url=https://www.ifanr.com/1664423&summary=&source=ifanr)

最近 GPT Image 2 火了之后,网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远,让人兴奋又让人敬畏。

而 GPT Image 2 在眼下的 AI 生图领域,几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2,**那能部署在本地的,免费开源模型或许会是 SenseNova U1**。

![Image 16](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69f19c4915444.png!720)

▲由 SenseNova U1 生成

SenseNova U1 是商汤最新发布的一个开源的多模态模型,它的 Lite 系列 8B 和 A3B 参数版本,目前已经在 Hugging Face 和 GitHub 上开源。

从模型参数和选择开源的路线上,我们就能看到它和 GPT Image 2 是不太一样的方向。

APPSO 也提前拿到了测试资格,我们发现商汤这款新一代原生理解生成统一模型,就开源模型来说,已经做到了最好水平。

它带来了大模型行业首创的连续图文生成输出,就是用单一模型就能连贯输出图片和文字,这个新鲜很值得去试一试。

目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

带着图片的思考

我们可能遇到过这样的需求,想让 AI 解释一个复杂概念,同时配上示意图,而且图要跟着文字的逻辑走,解释到第几步,图里就画到第几步。

一般的模型可能会直接采用生成代码的方式来解决这个问题,像 Claude 使用的流式构图,或者一些 Vibe Coding 的网页,包含文字和配图。

但是要完全用一个模型同时在回复流里面,生成文字和图片,并且不借助外部工具的调用,基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层,往往是两件事。

SenseNova U1 的第一项特点,就是在单一模型上进行连续的图文创作输出。

比如我们试了一个场景,让他生成一份简单的绘本故事,讲述一只小熊历经四季的变化。

Image 17

▲ 提示词:请创作一个图文绘本故事,主角是一只棕色的小熊,故事讲述它经历四季变化。

生成的连续图文不仅理解到位,有一定的故事性,而且能很好的保持一致性,同时图片的文字渲染全部准确,小熊也在冬天穿上了毛衣,戴上了帽子。

实测中发现用 SenseNova U1 来进行一些创意性的工作也非常有意思。

在官方的测试案例里,上传一张大头贴给模型,然后要求它设计几款不同的发型。可以看到,在生成连续图文的完整过程中,人物的一致性,以及结构、细节,SenseNova U1 都做到了精准保持。

Image 18

▲ 提示词:帮我设计几款合适的发型,希望好看的同时比较有特色,然后帮我选一款最适合我的

还能直接让他设计一个游戏角色,展示从整体视觉基调、核心交互细节,再到环境叙事和性格刻画的逻辑迭代过程。

Image 19

更有意思的是,基于时序性的回答,用 SenseNova U1 创作是再合适不过。我们要求他生成一颗牛油果变成一颗室内盆栽的过程,连续图文的形式很好地呈现了完整的生长过程。

Image 20

▲ 提示词:怎么把一颗普通的牛油果种成一棵室内盆栽

一番测试下来,图片从来没有离开过文字的逻辑,推理的思路走到哪里,图片就跟到哪。

以前的图文结合或许是调用不同模型,和对应工具的写作,确保回复的内容里,图文是在说同一件事。现在这项写作从底层直接发生在模型内部,无论是工具还是软件,都不需要参与对齐的过程了,我们也只需要看到最后的结果。

对内容创作者、设计师和营销人员来说,SenseNova U1 的出现,开始解决了一个长久以来的痛点,即如何让 AI 边写边画,而且图文逻辑严丝合缝。

量大管饱的最强开源

确认了它的原生理解生成统一能力后,我们要看 SenseNova U1 能否在复杂信息图生成方面,达到开源模型的最好水平。

信息图是把一大段复杂的文字或数据,压缩成一张一眼能看懂的图。这件事其实比「画一张漂亮的图」难得多,需要理解内容,知道哪些是核心,哪些是辅助,信息之间的逻辑关系,以及文字渲染等,都是难题。

闭源的 GPT Image 2 在这方面已经做得很好了,我们在测试的时候一开始也没有抱着太大的希望,会比 GPT Image 2 还要更好。但 SenseNova U1 的表现,拿下开源 SOTA 的称号也确实是当之无愧。

我们先是就用一句话「用一张信息图解释一下 DeepSeek V4」,没有任何附加的提示词,看看它生成的信息图表现如何。

Image 21

▲ 由 SenseNova U1 生成

能看得出来 SenseNova U1 有联网搜索到和 DeepSeek V4 相关的信息,像是原生多模态,还有万亿参数,以及百万的上下文 Token。

而除了简单的提示词,还可以直接发送一个链接给它,SenseNova U1 也有对应的网页抓取工具,提取网页内容,来进行信息图的生成。

这些知识科普类的信息图,SenseNova U1 的表现基本上都能驾驭。更简单的像是「一张什么是电子烟的 3D 拆解科普」,它也能很快生成。

Image 22

▲由 SenseNova U1 生成

而如果提示词稍微详细一点,它也能完全照着提示词的内容,把这些文字准确渲染成可视化程度较高的信息图。

Image 23

还有像是最近很火的武汉三鲜豆皮,直接告诉 SenseNova U1,生成一张三鲜豆皮完整制作流程的步骤图。

Image 24

还有夏天来了,挑选不同的防晒霜,也是一张信息图,就能把 SPF 和 PA 值这些复杂的挑选参数讲清楚。

Image 25

甚至是要它画一张 AI 大模型从训练到推理的工作原理图,适合完全不懂技术的人看懂;SenseNova U1 也能用轻松有趣的风格,简单的描述 AI 大模型的工作过程。

Image 26

在其他场景的应用,像是营销、办公、设计参考和商业分析,我们都用不同的例子来测试了 SenseNova U1 的表现。

一般来说,营销场景对视觉风格的要求最高,也是最能看出模型有没有真正理解「用户想传递什么感受」的地方。一张好的营销图片,放在文章中间,甚至有可能直接被我们误认为是微信的文章内广告。

就像这张 SenseNova U1 生成的上海旅行信息图,不仅把地图描绘出来了,还列举了上海的特色。

Image 27

在办公场景里,好看又要比准确和高效更重要。我们测试了它对信息处理的能力,把一份五页的会议纪要压缩成一张一屏能看完的总结图,要求逻辑清晰、重点突出,适合直接转发给没参会的同事。

Image 28

复杂的信息之外,SenseNova U1 也能做到很好的视觉风格参考,给它一段品牌的调性描述,要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图,结果居然也还不错。

Image 29

在一些数据分析的任务上,我们也测试了 SenseNova U1 数据可视化的能力,用图表的方式来呈现更合理的信息图。

Image 30

可以看到,SenseNova U1 在信息提炼这一步做得不错,它确实读懂了内容,知道什么重要什么次要。

但是在视觉表达上还有提升空间,有时候一些文字的渲染,还是会出现错误,对于需要快速出图、不想花时间在设计工具上反复调整的场景,已经完全够用。

下一个多模态模型的样子

实测完 SenseNova U1,我们发现它的意义,在于它是第一个把「理解和生成统一」这件事认真做出来的开源模型。而这,或许是整个多模态领域下一步要走的方向。

GPT Image 2 的刷屏,说明图像生成的「生成质量」这条线已经被闭源模型拉得很高了。开源模型如果继续在同一个维度继续追,大概需要很长的时间才能赶上,并且开源的价值也会被压缩到只剩下「便宜」。

SenseNova U1 提供了一个不同的技术路径,对于整个开源社区的方向都有着重要意义。它除了在解决「怎么生成更好的图」,也在告诉我们多模态模型的下一步会是什么样子。

Image 31

▲ SenseNova U1 采用了行业首创的 NEO-unify 原生架构,实现多模态理解生成的高效统一

过去的多模态模型,理解图和生成图是两套系统在协作。一套负责看懂输入,一套负责画出输出,中间靠接口传递信息。两套系统各有各的内部语言,信息在传递过程中会有损耗,就像两个人用翻译软件沟通,意思大体到了,但总有点什么没传过去。

SenseNova U1 则是从底层把这两件事,合进了同一个表征空间。他们今年 3 月的技术博客里,就重点讲解了 NEO-unify 这一项架构。

目前大模型行业的惯例是,多模态 AI 看图要靠一个叫「视觉编码器(VE)」的东西压缩处理,然后再交给生成器。在 NEO-unify 架构里,商汤把这套臃肿的传统范式直接扔了。

结合 NEO-unify 结构的 SenseNova U1,所使用的视觉接口是近似无损的,它直接把图像分块(Patch)吃进去,不经过任何预训练编码器压缩;然后在同一个主干网络里,让文本和视觉的训练端到端统一进行。

在理解与生成各项基准测试上,SenseNova U1 的表现也达到同量级开源模型的 SOTA 水平,甚至在多项指标上的表现能和 Nano Banana 这些闭源模型相媲美。

![Image 32](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69f1a01771417.png!720)

▲ 分别是图像理解、图像生成,和视觉推理基准测试结果

它回归了多模态的第一性原理,从底层的像素和文字开始,自己构建内部的认知。

这也能解释为什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的参数的版本,也能打出超强的极致性价比。

本次开源的是 SenseNova U1 的轻量版本 SenseNova U1 Lite,目前它有两个版本:8B 参数的 SenseNova-U1-8B-MoT,可以在边缘设备上跑;38B 总参数但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更强能力,同时将推理成本控制得很低。

Image 33

▲SenseNova U1 已经在 GitHub 和 Hugging Face上开源,链接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

两个版本都可以本地部署、可以微调、可以接进自己的数据管道。对需要把图像生成能力嵌进自己产品的开发者来说,能够对模型行为有完全的控制权,数据也不用出去。

如果你需要一个能够高效实现理解与生成的模型,作为开源模型里的最强代表,SenseNova U1 确实值得尝试。

商汤还在 GitHub 上开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills。我们可以直接把SenseNova U1这种强大的能力,接入到自己的智能体(Agent)工作流中。

利用这个工具包,我们可以直接在像 OpenClaw、Hermes 这样的 Agent 平台中一键调用。模型会自动评估我们的提示词,选择合适的版式,经过多轮生成,输出最佳的专业信息图结果。

Image 34

▲ Skills 链接:https://github.com/OpenSenseNova/SenseNova-Skills

回顾整个测试,SenseNova U1 这次交出了一份不错的答卷,它是目前我们能拿到手里的同量级最强开源模型。

对创作者来说,它行业首创的连续图文创作输出能力,打破了过去文字与配图割裂的窘境,真正让边思考、边写作、边配图的连贯创作成为现实。

SenseNova U1信息图原生理解生成统一模型商汤开源连续图文生成

分享

分享到微博分享到Twitter分享到LinkedIn

扫一扫分享到微信

全部评论 (-)

最热 最新

Image 35

登录,参与讨论前请先登录

  • [x] 收到回复邮件通知我 发表评论

评论在审核通过后将对所有人可见

正在加载中

查看更多评论

推荐文章

[](https://www.ifanr.com/author/zhangzihao)

发邮件

张子豪

累计已发布 107 篇文章

最近文章:

9秒删光公司数据库,我花最贵的钱,买了一个「删库跑路」的AI首发实测|期待已久的HappyHorse 1.0,在千问能免费体验了

本篇来自栏目

解锁订阅模式,获得更多专属优质内容

下一篇 2 小时前 ### 早报|苹果iOS 27或大幅升级照片App/曝一加、realme正式合并/去年我国Token调用量达21100万亿

上一篇 15 小时前 ### iOS 27 发力 AI 修图,苹果也开始 AI 焦虑了

爱范儿,关注明日产品的数字潮牌

爱范儿AppSo董车会知晓程序

关于爱范儿

关于我们社区规则隐私策略加入我们商务合作

合作伙伴

[](https://cloud.minapp.com/)[](https://aws.amazon.com/what-is-cloud-computing)

[](https://weibo.com/u/1642720480?tabtype=feed)[](https://x.com/ifanr)[](https://www.xiaohongshu.com/user/profile/60dc0bae000000002002d9fd)[](https://space.bilibili.com/12351332?spm_id_from=333.337.0.0)[](https://www.douyin.com/user/MS4wLjABAAAAZY-Gty7wfG99FzGnseJLC4SlcBpJOSXNOaaj6Fz9QwQ)[](https://www.toutiao.com/c/user/token/MS4wLjABAAAAQkBPIHsXri8lTUIQNFb4uEaiM7YLWh-FdUCK7pb4FTg/?source=mine_profile)[](https://author.baidu.com/home?from=bjh_article&app_id=1543625795951172)[](https://www.youtube.com/@ifanrvideo6692)

粤ICP备18066688号-2粤公网安备44010602006618号

版权所有 © 广州利沃致远投资管理合伙企业(有限合伙) 2008 - 2023。以商业目的使用爱范儿网站内容需获许可。非商业目的使用授权遵循 CC BY-NC 4.0

All content is made available under the CC BY-NC 4.0 for non-commercial use. Commercial use of this content is prohibited without explicit permission.

Designed by

if Design Studio.

关注 if Design Studio.

Image 36: if Design Studio. 微信公众号

微信扫码关注公众号 if Design Studio.

[](https://www.ifanr.com/about/contribute/)

Image 37

爱范儿 App

爱范儿,让未来触手可及

爱范儿

AppSo

玩物志

知晓云

知晓程序

Image 38: Ifanr QR Code

关注爱范儿微信号,连接热爱,关注这个时代最好的产品。

Image 39: AppSo QR Code

想让你的手机好用到哭?关注这个号就够了。

Image 40: CoolBuy QR Code

关注玩物志微信号,就是让你乱花钱。

Image 41: CoolBuy QR Code

小程序开发快人一步。

Image 42: CoolBuy QR Code

最好的微信新商业服务平台。

问问这篇内容

回答仅基于本篇材料
    0 / 500

    Skill 包

    领域模板,一键产出结构化笔记
    • 论文精读包

      把一篇论文 / 技术博客精读成结构化笔记:问题、方法、实验、批判、延伸阅读。

      • · TL;DR(1 段)
      • · 研究问题与动机
      • · 方法概览
    • 投融资雷达包

      把一条融资 / 创投新闻整理成投资人视角的雷达卡:交易要点、判断、竞争格局、风险、尽调清单。

      • · 交易要点(公司 / 轮次 / 金额 / 投资人 / 估值,材料未明示则写 “未披露”)
      • · 投资 thesis(这家公司为什么值得关注)
      • · 竞争格局与替代方案

    导出到第二大脑

    支持 Notion / Obsidian / Readwise
    下载 Markdown(Obsidian 直接拖入)