---
title: "#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的"
source_name: "跨国串门儿计划"
original_url: "https://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a"
canonical_url: "https://www.traeai.com/articles/1de2c9b8-6dee-457e-98c7-63306224f713"
content_type: "podcast"
language: "中文"
score: 9
tags: ["GPT-5","Claude","Gemini","AI基础设施","模型训练","推理系统"]
published_at: "2026-04-30T10:48:34+00:00"
created_at: "2026-05-01T00:09:48.15269+00:00"
---

# #515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

Canonical URL: https://www.traeai.com/articles/1de2c9b8-6dee-457e-98c7-63306224f713
Original source: https://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a

## Summary

Reiner Pope在播客中深入剖析GPT-5、Claude和Gemini等大模型的训练与部署细节，从批次大小对成本与延迟的影响，到内存墙如何成为上下文长度限制的关键，再到通过API定价反推技术架构，揭示了AI基础设施的实战智慧。

## Key Takeaways

- 最优批次大小≈300×稀疏度，为跨硬件稳定常数，显著影响推理成本与延迟。
- 内存墙是模型规模扩展的主要瓶颈，而非计算能力，导致长上下文处理成本激增。
- API定价透露技术秘密，如KV缓存位置与大小，展示了经济模型与技术实现的紧密联系。

## Content

Title: #515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

URL Source: http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a

Markdown Content:
📝 本期播客简介

本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》[**How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope**](https://www.youtube.com/watch?v=xmkSf5IS-zw)

嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO，更早之前曾在谷歌负责 TPU 架构设计。整期节目采用“黑板讲座”的形式，Reiner 从最基础的 roofline 模型出发，一步步推导出批次大小如何影响大模型推理的延迟与成本，揭示了“内存墙”为什么是上下文长度的真正枷锁。他还结合 Gemini、DeepSeek 等前沿模型的公开定价，反向推算出隐藏的技术架构，甚至连 KV 缓存存储在哪一层内存都能猜出来。对话后半段更跨界到密码学，探讨神经网络与密码协议在结构上的惊人相似。这是一堂 AI 基础设施的实战大师课，听完你会对“为什么 API 定价是这样”“为什么模型扩展变慢了”这些问题豁然开朗。

👨‍⚕️ 本期嘉宾

Reiner Pope，AI 芯片公司 Maddox 的创始人兼 CEO，曾在谷歌领导 TPU 架构设计，对分布式训练、推理系统和芯片设计有极其深厚的工程与研究积淀。他还是《Scaling》一书的作者。

⏱️ 时间戳

开场与技术形式

[00:00](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) Yikai 开场及节目介绍

[01:26](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) Dwarkesh 介绍嘉宾与“黑板讲座”设置

Roofline 模型与批次大小的艺术

[02:53](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 为什么要从“批次大小”开始？它对延迟和成本的决定性影响

[04:33](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 批处理为什么能节省上千倍成本？

[07:04](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 一张延迟图看懂内存时间与计算时间的平衡

[10:25](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 稀疏注意力与最优批次大小的代数推导

[12:00](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 单用户推理为什么贵？成本曲线揭示的无穷大起点

[15:20](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 最优批次大小≈300×稀疏度，一个跨硬件稳定的常数

[17:08](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 推理引擎的“火车模型”：每 20 毫秒固定发车

[19:35](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 从每秒 12.8 万 token 反推前沿模型的多大用户量

[21:38](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 增加稀疏度划算吗？《路由语言模型统一法则》告诉你答案

模型架构与硬件拓扑

[24:15](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 混合专家层如何分片到 GPU 机架上

[27:47](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 机架内的 NVLink 高速网络与机架间慢八倍的“瓶颈”

[32:33](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 为什么 GPT‑4 之后模型规模扩展变慢了？不是计算，是内存容量在等机架

[35:40](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 流水线并行真的省了内存吗？通信模式的代数拆解

[39:45](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 流水线气泡：训练中的微批次权衡与推理中的“不费脑”设计

内存墙、过度训练与规模法则

[45:12](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 内存容量真的过剩吗？为何大家还在砸钱买 HBM？

[49:03](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 为什么流水线并行对 KV 缓存无效？内存容量的死结

[52:00](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 过度训练 100 倍？从 Chinchilla 最优到真实世界的偏离

[58:23](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 预训练、强化学习与推理 token 的最优成本分配

[01:04:24](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 惊人反推：预训练数据量其实约等于模型整个生命周期的推理 token 数

从 API 定价反推技术架构

[01:05:26](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) Gemini 长上下文加价 50%的硬件解释

[01:09:50](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 价格如何泄露秘密：每个 token 的字节数、KV 缓存大小都能算出来

[01:12:47](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 输出 token 为什么比输入贵 5 倍？解码与预填充的内存带宽真相

[01:14:51](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) KV 缓存命中便宜 10 倍：HBM、DDR 与机械硬盘的角色分配

[01:22:00](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 5 分钟 vs 1 小时：定价时长正好对应闪存与机械硬盘的“排空时间”

交叉学科火花

[01:24:17](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 神经网络与密码学：同样的“混合”结构，相反的训练目标

[01:27:06](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 对抗攻击与后门：神经网络里的“雪崩效应”

[01:28:45](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 从密码学借来的可逆网络：用计算换内存，反向传播不用存激活值

结尾

[01:30:50](http://www.xiaoyuzhoufm.com/episode/69f32f7cb39400b49343240a) 结语与致谢

🌟 精彩内容

💡 “火车模型”：理解推理延迟的钥匙

Reiner 把大模型推理比作固定时刻表的火车：每 20 毫秒发车一次，能上多少用户就上多少。这直接解释了为什么多付钱可以得到更快流式输出的“快速模式”，以及为什么存在“慢速模式”都无法突破的成本下限。

🛠️ 内存墙：限制上下文长度的真正元凶

“内存墙没有真正的解决方案”，Reiner 直言。通过 roofline 分析，他展示了为什么超出 20 万 token 左右后成本会急剧上升——不是因为算力不够，而是因为内存带宽被 KV 缓存吃满。这也是 Gemini 等模型长上下文定价加价 50%的根本原因。

🚀 用公开价格反推绝密架构

Reiner 现场演示了如何通过 API 每百万 token 的定价，推导出模型中每 token 的 KV 缓存字节数（约 2KB）、注意力头的维度，甚至推断出缓存是放在 HBM、DDR 还是机械硬盘里。一堂震撼的技术情报分析课。

💻 批次大小：从千倍成本差到硬件常数

如果不做批处理，单用户推理的成本可能比批处理高上千倍。而最优批次大小竟然可以通过一个简单的硬件常数（算力 / 内存带宽）乘以模型稀疏度直接估算出来，这个常数在不同 GPU 世代间保持惊人稳定。

❤️ 密码学与神经网络：同构的两面

神经网络通过梯度下降学习结构，密码学却拼命制造随机性的“雪崩效应”。Reiner 指出，这恰恰是同一个混合架构的两个极端用途，而可逆网络正是从密码学中借来、用于节省训练内存的巧妙设计。

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight