# 163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

Canonical URL: https://www.traeai.com/articles/f8edff1e-2a5e-4580-89a1-fd1691a57093
Original source: https://www.xiaoyuzhoufm.com/episode/69f2e8ef0694c843e7cd91b6
Source name: 晚点聊 LateTalk
Content type: podcast
Language: 中文
Score: 8.0
Reading time: 9 分钟
Published: 2026-04-30T06:00:00+00:00
Tags: DeepSeek, 大模型, 注意力机制, 优化器, 稀疏注意力

## Summary

DeepSeekV4发布，通过组合创新和工程优化，在R1的“测试时扩展”范式下，实现百万上下文从理论到实用的飞跃，对Agent和多步复杂任务具有重要意义。

## Key Takeaways

- DeepSeek V4沿用现有范式，未带来范式变化，但通过一系列技术创新显著提升了长上下文处理能力。
- 性能与效率方面，新模型在单token推理计算量、KV缓存上优化显著，尽管解决相同问题消耗更多token。
- 极致稀疏性是V4的核心思路，包括混合稀疏注意力机制、Muon优化器、mHC残差连接等技术亮点。

## Outline

- 引言 — 介绍DeepSeek V4发布背景及讨论嘉宾
  - 体感、对比与成本分析 — 讨论与前代及竞品差异，训练成本及披露策略
  - 性能与效率提升 — 新能力方向与内部评测，计算量与KV cache优化
  - V4具体技术进展 — 极致稀疏性、混合稀疏注意力、Muon优化器等核心改进
  - Infra技术与后训练 — TileLang、FP4等基础设施支持及多专家训练蒸馏
  - 未来趋势与讨论 — 模型共性、中美发展特点及V4可能的长远影响

## Highlights

- > DeepSeek V4让百万上下文从理论进入实用，满足Agent和复杂任务需求。 — 文章开头
- > 放弃MLA，采用SWA+CSA+HCA混合稀疏注意力，实现高效长上下文建模。 — 33:45
- > Muon优化器成为检验工程能力试金石，推动模型训练性能提升。 — 39:37

## Citation Guidance

When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.