# 163: 详解DeepSeekV4:Infra巨鲸、百万上下文走进现实、极致效率优化 Canonical URL: https://www.traeai.com/articles/f8edff1e-2a5e-4580-89a1-fd1691a57093 Original source: https://www.xiaoyuzhoufm.com/episode/69f2e8ef0694c843e7cd91b6 Source name: 晚点聊 LateTalk Content type: podcast Language: 中文 Score: 8.0 Reading time: 9 分钟 Published: 2026-04-30T06:00:00+00:00 Tags: DeepSeek, 大模型, 注意力机制, 优化器, 稀疏注意力 ## Summary DeepSeekV4发布,通过组合创新和工程优化,在R1的“测试时扩展”范式下,实现百万上下文从理论到实用的飞跃,对Agent和多步复杂任务具有重要意义。 ## Key Takeaways - DeepSeek V4沿用现有范式,未带来范式变化,但通过一系列技术创新显著提升了长上下文处理能力。 - 性能与效率方面,新模型在单token推理计算量、KV缓存上优化显著,尽管解决相同问题消耗更多token。 - 极致稀疏性是V4的核心思路,包括混合稀疏注意力机制、Muon优化器、mHC残差连接等技术亮点。 ## Outline - 引言 — 介绍DeepSeek V4发布背景及讨论嘉宾 - 体感、对比与成本分析 — 讨论与前代及竞品差异,训练成本及披露策略 - 性能与效率提升 — 新能力方向与内部评测,计算量与KV cache优化 - V4具体技术进展 — 极致稀疏性、混合稀疏注意力、Muon优化器等核心改进 - Infra技术与后训练 — TileLang、FP4等基础设施支持及多专家训练蒸馏 - 未来趋势与讨论 — 模型共性、中美发展特点及V4可能的长远影响 ## Highlights - > DeepSeek V4让百万上下文从理论进入实用,满足Agent和复杂任务需求。 — 文章开头 - > 放弃MLA,采用SWA+CSA+HCA混合稀疏注意力,实现高效长上下文建模。 — 33:45 - > Muon优化器成为检验工程能力试金石,推动模型训练性能提升。 — 39:37 ## Citation Guidance When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.