T
traeai
登录
返回首页
量子位

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

8.5Score

TL;DR · AI 摘要

谷歌推出DiffusionGemma模型,采用扩散机制实现文本生成速度提升4倍,支持本地运行。

核心要点

  • DiffusionGemma在H100上每秒生成1000+ tokens,比自回归模型快4倍。
  • 模型使用256 token并行生成机制,支持本地运行,仅需18GB显存。
  • 谷歌CEO称DiffusionGemma是探索下一代模型形态的实验性产品。

结构提纲

按章节快速跳转。

  1. 谷歌推出DiffusionGemma模型,实现文本生成速度提升4倍。

  2. DiffusionGemma采用扩散机制,一次性生成256个token,提升并行效率。

  3. DiffusionGemma在H100上每秒生成1000+ tokens,比自回归模型快4倍。

  4. 模型适用于本地运行,仅需18GB显存,适合速度敏感的交互场景。

  5. 模型支持双向注意力,提升文本生成的一致性和实时纠错能力。

  6. 谷歌称DiffusionGemma是探索下一代模型形态的实验性产品。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • DiffusionGemma模型
    • 模型原理
      • 扩散机制
      • 256 token并行生成
    • 性能表现
      • H100上每秒1000+ tokens
      • 比自回归模型快4倍
    • 应用场景
      • 本地运行
      • 速度敏感交互场景

金句 / Highlights

值得收藏与分享的关键句。

#谷歌#扩散模型#文本生成#AI模型
打开原文

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍 – 量子位

扫码关注量子位

<div class="top_search"> <form role="search" method="get" class="search-form" action="https://www.qbitai.com/" id="search"> <label> <input type="search" class="search-field" placeholder="搜索…" value="" name="s"> </label> <button type="submit" class="search-submit"></button> </form> </div>

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

articlead begin

articlead end

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

一水

2026-06-11

12:17:22

来源:

量子位

摘要样式

用扩散模型生成文字

别再只盯着“AO”两家的新模型大战了!

就在刚刚,谷歌闷头干了件大事:

把生成图片的扩散模型,拿来写文字了,而且一出手就是4倍加速。

新模型名为DiffusionGemma,它直接抛弃了传统自回归那套“逐Token生成”的打字机模式,而是像“印刷机”一样工作——

一次铺开256个token的“画布”,从随机噪声出发,多轮去噪,整段文字同时浮现。

靠这套新模式,DiffusionGemma在生成速度方面交出了亮眼的成绩:

单块H100上每秒1000+ tokens,消费级RTX 5090上700+,比同规格自回归模型快了4倍。

更关键的是,这个26B参数的MoE模型,推理时只激活3.8B参数,量化后18GB显存就能装下。

翻译过来就是, 一张4090就能本地跑 。

目前DiffusionGemma采用允许商用的Apache 2.0开源协议,权重可在Hugging Face直接下载。

天下武功,唯快不破

说到这估计大家都明白了,DiffusionGemma身上最大的标签无疑就是“快”。

有多快呢?成绩单说话。

在同一块H100上(fp8,batch size=1),DiffusionGemma跑出了1000+ tokens/s,而采用标准自回归的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s——

速度拉开近4倍 。

而要理解DiffusionGemma为什么快,咱得先说说当前大模型为什么“慢”。

今天的主流大模型,不管是GPT、Claude还是Gemini,底层都是自回归架构——就像一台打字机,从左到右,一个token一个token地敲出来。每生成一个新词,都要重新加载一遍几十亿参数的模型权重。

在云端,这不是大问题。服务器可以同时处理上千个用户请求,把硬件利用率拉满。

但如果你在本地跑模型,场景就完全不同了——

只有你一个人在用,GPU的大量算力其实在空转,等着一个字一个字地往外蹦。

工程师管这叫“内存带宽瓶颈”(memory-bandwidth bound)。

而为了解决这一问题,DiffusionGemma就盯上了扩散模型。

回想一下,扩散模型在生成图片时,是不是直接对整张图的所有像素同时去噪——

没错,其工作方式就是一次性对一整块token同时操作,天然“并行”。

这意味着GPU一次性接到一大块并行计算任务,Tensor Core火力全开,不再干等。计算瓶颈从“内存搬不过来”变成了“算力够不够”,而算力恰恰是GPU最不缺的东西。

具体到DiffusionGemma,原理和Stable Diffusion一样,只不过去噪得到的不是图片,而是文字。

Step 1:铺开一张全是随机占位符的256个token的画布 。 Step 2:多轮迭代去噪,高置信度的token先锁定,再用它们当上下文线索去修正其余部分 。 Step 3:整段文字收敛为最终输出 。

用谷歌自己的比喻,这是从单线程的打字机,升级成了整版印刷的印刷机。

看看下面这个Hugging Face制作的DiffusionGemma文本到3D SVG演示,可以直观感受逐步生成的过程——

模型不是从第一行代码写到最后一行,而是整块SVG代码同时浮现、同时修正,最终收敛成一把完整的3D宝剑。

双向注意力:不止是快

速度之外,DiffusionGemma身上还有一个点值得关注: 双向注意力 。

传统自回归模型只能往前看,模型在生成第N+1个token时,只能看到第1到第N个token,看不到自己还没写出来的未来内容。

而DiffusionGemma的256个token同时生成,每个token都能看到画布上所有其他token,前后文同时可见。

这就带来了一个自回归模型很难做到的能力—— 实时自我纠错 。

模型边生成边评估整段文字的一致性,发现不对立刻修正,不用等全写完再回头改。

这里谷歌举了个直观例子:数独

数独本质是“后面的数影响前面的数”,自回归模型由于只能往前看,所以做起来极痛苦。

但DiffusionGemma微调后成功率从0%飙到80% 。

所以,如果未来接触到代码补全、行内编辑、复杂markdown格式化……这些“需要前后文同时协调”的场景,扩散模型无疑更有结构性优势。

谷歌CEO皮猜:DiffusionGemma是一匹“赛马”

不过这也并不是说扩散模型就千好万好。

其最大局限在图像生成领域也已得到验证,那就是速度和质量的平衡——

去噪步数越少速度越快,但质量越差;步数越多质量越好,但速度优势也就越小。

质量方面,和同参数量的Gemma 4 26B A4B相比,DiffusionGemma在多项基准上确实存在差距。

谷歌也很坦诚, 生产环境推荐标准Gemma 4,DiffusionGemma面向的是速度敏感的本地交互场景 。

所以,或许正如谷歌CEO皮猜所言,DiffusionGemma目前更像一匹“赛马”——

先把速度提起来 。

它目前只是谷歌对下一代模型形态的一次实验:

如果不再执着于一个token一个token往外生成,而是让模型充分利用现代GPU的并行算力,大模型的速度上限究竟还能被推到多高?

而且说实话,谷歌也不是第一个尝试验证这条路线的人。

早在今年2月,初创公司Inception Labs就发布了扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍,是业内第一个真正投产的扩散语言模型。

谷歌自己去年I/O上也展示过Gemini Diffusion实验,当时采样速度达到每秒1479 token,但之后沉寂了一整年,外界一度猜测“跑不起来”。

直到现在,DiffusionGemma卷土重来,并且NVIDIA从RTX到H100全线给它护航——

4090到H100到DGX Spark全覆盖,vLLM、MLX、Unsloth、NeMo全部支持,llama.cpp也在路上 。

只能说,嘴上说着“实验性”,身体却很诚实。

谷歌这次给DiffusionGemma配上的资源和生态支持,显然不是来做技术Demo的。

从模型到推理框架,再到硬件生态,DiffusionGemma已经拿到了足够多的支持。

至于它最终能不能挑战自回归模型的主流地位,现在还没人知道。

但至少,谷歌把这条路真正 开源 了。

HuggingFace: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF 使用指南: https://unsloth.ai/docs/models/diffusiongemma

版权声明

版权所有,未经授权不得以任何形式转载及使用,违者必究。

作者文章列表

  • 国产通用大模型第一梯队,来新人了?! 2026-06-09
  • 活久见!奥特曼Dario哈萨比斯同仇敌忾:DNA得查了 2026-06-05
  • 连GitLab都开始裁程序员了 2026-06-04
  • 刚刚,国产Agent模型闯入全球第一梯队!限时免费 2026-05-26

左侧分享

扫码分享至朋友圈

相关阅读 start

相关阅读 end

热门文章 start

热门文章

#### WPS笔记正式发布:AI贯穿记录、整理与复用全过程

2026-06-05

#### 100亿砸向人形,不如先让10万台机器狗走进家庭

#### 有人靠CPU把AI算力密度卷到了新高度

#### 腾讯想让企业打开AI的方式只剩一个

2026-06-09

#### B站宣布启动AI创造公开赛 打造中国版Build in Public

<form role="search" method="get" class="search-form" action="https://www.qbitai.com/"> <label> <span class="screen-reader-text">搜索:</span> <input type="search" class="search-field" placeholder="搜索…" value="" name="s" /> </label> <button type="submit" class="search-submit"><span class="screen-reader-text">搜索</span></button> </form>

热门文章 end

底部版权

  • 关于量子位
  • 加入我们
  • 寻求报道
  • 商务合作

<a href="/?page_id=183"target="_blank"><i class="weixin_icon"></i></a>

追踪人工智能新趋势,报道科技行业新突破

<p>量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1</p>

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1

AI 可能会生成不准确的信息,请核实重要内容