---
title: "扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋"
source_name: "爱范儿"
original_url: "https://www.ifanr.com/1663840?utm_source=rss&utm_medium=rss&utm_campaign="
canonical_url: "https://www.traeai.com/articles/22b486c6-adc4-40c8-beb2-daa798e5ed30"
content_type: "article"
language: "中文"
score: 5
tags: []
published_at: "2026-04-24T11:18:37+00:00"
created_at: "2026-04-24T17:03:25.854155+00:00"
---

# 扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋

Canonical URL: https://www.traeai.com/articles/22b486c6-adc4-40c8-beb2-daa798e5ed30
Original source: https://www.ifanr.com/1663840?utm_source=rss&utm_medium=rss&utm_campaign=

## Summary

traeai 为开发者、研究员和内容团队筛选高质量 AI 技术内容，提供摘要、评分、趋势雷达与一键内容产出。

## Key Takeaways

- 
- 
- 

## Content

Title: 你的 MLA 是我的基础，我的 Muon 是你的加速器。

URL Source: http://www.ifanr.com/1663840

Published Time: 2026-04-24 19:18:37

Markdown Content:
今天上午，DeepSeek V4 发布，直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配，性能比肩顶级闭源模型，首发适配华为昇腾芯片，随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候，在训练层面看到了一个被大部分人滑过去的名词：**Muon 优化器**。

![Image 1](https://s3.ifanr.com/wp-content/uploads/2026/04/2-8.png!720)

这个技术名词，怎么看着这么眼熟呢？

原来是前两天发布的 Kimi 2.6 里，就是通过 Muon优化器，在相同的训练量下实现了2倍的效率提升，并在 1 万亿参数规模上解决了训练不稳定的难题。

![Image 2](https://s3.ifanr.com/wp-content/uploads/2026/04/3-5.png!720)

早在上个月杨植麟站在英伟达 GTC 2026 的舞台上，花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。

 （附APPSO解读文章链接）

杨植麟是这样说的：「用 MuonClip 而非 Adam 训练 Transformer 大模型，效果会好得多。」正确实现后，token 效率提升 2 倍。在数据墙面前，这相当于把 50 万亿 token 用出了 100 万亿的效果。

现在，这项技术出现在了 DeepSeek V4 的训练方案里。

我又回来翻了一下 Kimi K2 的架构底层，又发现了一个更有意思的细节：它用的是 DeepSeek-V3 提出的 MLA（Multi-head Latent Attention）。

**DeepSeek 的技术报告写着 Kimi 的名字，Kimi 的架构底座写着 DeepSeek 的名字**。 你中有我，我中有你。

这大概是中国 AI 圈最魔幻的一幕：两家被外界反复对比的开源双子星，技术底层早就长到了一起。

而且，Kimi 类似这样的巧合，已经不是第一次了。

### 五次「撞车」，五个拐点

算上 V4 和 K2.6 前后脚上线，这已经是 Kimi 和 DeepSeek 过去一年里的第五次「撞车」了。

![Image 3](https://s3.ifanr.com/wp-content/uploads/2026/04/4-2.png!720)

▲ 图片由 image-2 制作.

五次「撞车」，如果只是时间重合，那叫巧合。但把每次发布的内容拉出来看，你会发现一条清晰的暗线：**每次撞车恰好对应一个 AI 行业拐点的到来**。

第一次是最戏剧性的。2025 年 1 月 20 日晚 8 点 10 分，DeepSeek R1 发布并以 MIT 协议完全开源。不到两小时后，Kimi k1.5 亮相。

两者都瞄准同一件事：让模型从「张嘴就来」变成「先想后说」，用强化学习跑通 Long-CoT 长思维链推理。

在这之后，中国的开源力量就彻底改变了整个全球 AI 的格局。

后来 OpenAI 在一篇论文中点名指出：Kimi 和 DeepSeek 是「最早复现 OpenAI-o1 Long-CoT」的两家公司。**全世界只有这两家中国公司看懂了 OpenAI 在做什么，并且用自己的方式做了出来**。

![Image 4](https://s3.ifanr.com/wp-content/uploads/2026/04/5-3.png!720)

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

最近这次就是今天。四天之内，K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力，V4 把百万上下文做成了所有服务的标配，输出长度拉到 384K tokens。

两家同时推进国产芯片适配：V4 下半年支持华为昇腾 950，寒武纪已完成 Day 0 适配；K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态，全齐了。

从「学会思考」到「学会干活」，从「改 Transformer」到「改算力底座」，五次撞车其实展现出来的，**是中国 AI 不再一味对标 OpenAI ，逐渐不再依赖英伟达，在开源上走出属于自己的路。**

### 撞车背后的必然

发布撞车的巧合固然有意思，但更值得关注的，其实是巧合背后的一些必然。

让我们先回到 DeepSeek 架构里的 Muon 。

杨植麟在 GTC 演讲中讲了一个技术困难：当 Kimi 把 Muon 扩展到 1 万亿参数时，训练不稳定性成了拦路虎。最大 logits 爆炸超过 1000，正常值只有 50 到 100。

![Image 5](https://s3.ifanr.com/wp-content/uploads/2026/04/6-3.png!720)

损失先降后炸，根本无法收敛。他们的解法是 QK-Clip，对每个注意力头计算最大 logit 的裁剪值，把查询和键限制在合理范围内。训练损失不受影响，但稳定性问题消失了。

K2 模型用这套技术完成了训练，创下机器学习史上最大规模 Muon 训练的纪录。

而 DeepSeek V4 的技术报告里，Muon 被直接写进了训练方案。大多数模块用 Muon 加速收敛，嵌入层和预测头仍用 AdamW，混合使用。这是对 Kimi 底层创新的一次直接引用。

![Image 6](https://s3.ifanr.com/wp-content/uploads/2026/04/7-4.png!720)

反过来，Kimi K2 的底层架构采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention，通过压缩 KV 缓存大幅降低推理成本，是 V3 最核心的架构创新之一。

**你的论文成了我的基础设施，我的创新成了你的底座**。 写在引用列表里的互相成就。

在硅谷，你很难看到这种事。OpenAI 和 Anthropic 之间的技术是「护城河」，能藏则藏。但 Kimi 和 DeepSeek 之间长出了一种更原始也更健康的关系：**开源社区里的正向循环**。

Kimi 和 DeepSeek 是中国首批开源万亿参数模型的玩家，都相信 Scaling Law。技术路线上，DeepSeek 以推理模型见长，Kimi 以 Agent 能力著称。

底层架构上，两家都在挑战同一批「古老」的基础设施。Kimi 发了「注意力残差」论文，DeepSeek 做了 mHC 残差连接，都在改 ResNet 时代留下来的残差连接方式。

在长文本这条线，Kimi 探索线性注意力（Kimi Linear），DeepSeek 探索稀疏注意力（DSA），殊途同归。

所以当它们撞车时，与其说是巧合，不如说是对同一个方向的必然趋同。

### 用中国的芯片，跑中国的模型，对全世界开源

在 OpenRouter 上，Kimi 和 DeepSeek 稳居中国模型调用量前两名。

Cursor 接入了 Kimi，日本乐天 Rakuten AI 3.0 基于 DeepSeek 开发。被海外产品「套壳」这件事，放在两年前是耻辱，现在是勋章。

Meta 新模型 Muse Spark 发布时，官方 Blog 做的对比基准线里，Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站着。英伟达 GTC 上，黄仁勋用来展示芯片性能的中国模型就是这两家。

海外认可之外，更值得注意的是国产芯片这条线。H20 芯片已断供一年，高端推理芯片短期内只有国产一个选项。两家公司同时在做同一件事：让中国模型跑在中国芯片上。

![Image 7](https://s3.ifanr.com/wp-content/uploads/2026/04/8-3.png!720)

上周黄仁勋在播客访谈里说了一句话：「**如果当初 DeepSeek 先在华为平台上发布，那对我们来说非常可怕。**」

今天，V4真的首发适配华为昇腾，工程团队把整个技术栈从 CUDA 迁移到了华为 CANN 框架，从算子库到通信原语到内存管理，V4 的混合注意力、MoE 专家并行、FP4 量化训练，几乎每层从头实现。寒武纪也在 Day 0 完成了 V4 全系列的 vLLM 推理适配，代码已开源。

[![Image 8](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69eb4afaebc11.png!720)](https://s3.ifanr.com/wp-content/uploads/2026/04/img_69eb4afaebc11.png!720)

黄仁勋一语成谶。

而 Kimi 在国产芯片上走的路更早，也更深。为了给国产芯片「铺路」，Kimi 在架构创新上掏出了两个杀手锏。

Kimi Linear 混合注意力架构把线性注意力层与全注意力层以 7:1 配比混合，将 KV 缓存体积压缩到极低水平。实测数据很直观：32K 上下文下，混合架构模型 KV 吞吐量仅 4.66 Gbps，同规模稠密模型高达 59.93 Gbps。

![Image 9](https://s3.ifanr.com/wp-content/uploads/2026/04/9-2.png!720)

**KV 缓存传输需求被压到了普通以太网可承载的范围，RDMA 高速网络从「必选项」变成了「可选项」。**

在此基础上，Kimi 联合清华大学发布了 PrFaaS（预填充即服务）论文，把推理的 Prefill 阶段和 Decode 阶段彻底解耦，调度到不同异构硬件集群上。实测吞吐量提升 54%，首词延迟降低 64%。

这套方案打破了「大模型推理必须绑定同一种高端 GPU」的前提：算力强的国产卡做 Prefill，带宽强的国产卡做 Decode，各司其职。

![Image 10](https://s3.ifanr.com/wp-content/uploads/2026/04/10-3.png!720)

DeepSeek 用 V4 证明了国产芯片能跑万亿参数的旗舰模型，Kimi 用架构创新证明了国产芯片可以跑得好、跑得省。

一个从工程适配切入，一个从架构设计切入，终点都是同一个：**让英伟达不再是唯一选项**。

以前的国产 AI 叙事是「用英伟达的卡，追 OpenAI 的模型」。现在这对双子星同时在写另一个剧本：**用中国的芯片，跑中国的模型，服务全世界的开发者**。

### 你的 MLA 是我的基础，我的 Muon 是你的加速器

回看这一周AI 行业的疯狂更新，我们已经处在了一个新的转折点。

同一周内，两个中国团队各自发布了万亿参数级开源模型，性能逼近甚至持平美国顶级闭源模型。这在一年前是不可想象的。

**当闭源模型的价格是开源模型的 50 倍，开源阵营每隔几个月就推出一个新的万亿参数选手，竞争天平正在发生微妙的倾斜。**

这不是「赢了」或「超越」这么简单的胜负之分。闭源模型在复杂推理和系统可靠性上仍然有明显优势，Opus 4.6 的思考模式依然是 V4-Pro 追赶的目标。但开源阵营的速度、成本优势和生态覆盖面，正在改变这场竞赛的规则本身。

除了这五次撞车发布，这两家公司还有一个巧合。梁文锋来自广东湛江，杨植麟来自广东汕头。**两个广东人，撑起全球开源 AI 半边天**。

![Image 11](https://s3.ifanr.com/wp-content/uploads/2026/04/11-5.png!720)

梁文锋像工程师哲学家，相信开源和底层创新，V4 发布公告结尾引的是荀子，「不诱于誉，不恐于诽，率道而行，端然正己。」

![Image 12](https://s3.ifanr.com/wp-content/uploads/2026/04/12-6.png!720)

至于杨植麟在我看来像产品科学家，他认为用户体验和技术突破可以兼得，在 K2.6 发布时他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一个古典，一个极客。就是这两个风格迥异的创始人，一起定位了中国开源模型在世界坐标系的位置。

**你的 MLA 是我的基础，我的 Muon 是你的加速器。这大概也是中国在能在短时间内引领全球开源 AI 的重要原因之一**。