T
traeai
登录
返回首页
跨国串门儿计划播客1:32:44

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

9.0Score
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

播客收听

时长 1:32:44原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

本集要点

  • 最优批次大小≈300×稀疏度,为跨硬件稳定常数,显著影响推理成本与延迟。
  • 内存墙是模型规模扩展的主要瓶颈,而非计算能力,导致长上下文处理成本激增。
  • API定价透露技术秘密,如KV缓存位置与大小,展示了经济模型与技术实现的紧密联系。

节目简介

Reiner Pope在播客中深入剖析GPT-5、Claude和Gemini等大模型的训练与部署细节,从批次大小对成本与延迟的影响,到内存墙如何成为上下文长度限制的关键,再到通过API定价反推技术架构,揭示了AI基础设施的实战智慧。

结构提纲

AI 替你读一遍后整理出的核心层级。

  1. 介绍本期播客主题及嘉宾背景

  2. 探讨批次大小对延迟与成本的影响及优化策略

  3. 分析混合专家层分片、内存墙问题及流水线并行挑战

  4. 讨论内存容量限制、训练偏差与成本分配原则

  5. 依据公开价格推断模型内部结构与硬件配置

  6. 神经网络与密码学的结构相似性及其不同目标

思维导图

用一张图看清主题之间的关系。

正在生成思维导图…
查看大纲文本(无障碍 / 无 JS 友好)
  • GPT-5等大模型训练与部署揭秘
    • 批次大小与成本延迟
      • 最优批次大小策略
    • 硬件与架构设计
      • 内存墙与规模扩展瓶颈
      • 流水线并行与通信模式
    • API定价与技术洞察
      • KV缓存与内存层次定位
    • 交叉学科视角
      • 神经网络与密码学对比

金句 / Highlights

值得收藏与分享的关键句。

章节

  1. Yikai 开场及节目介绍

    Yikai 开场及节目介绍

  2. Dwarkesh 介绍嘉宾与“黑板讲座”设置

    Dwarkesh 介绍嘉宾与“黑板讲座”设置

  3. 为什么要从“批次大小”开始?它对延迟和成本的决定性影响

    为什么要从“批次大小”开始?它对延迟和成本的决定性影响

  4. 批处理为什么能节省上千倍成本?

    批处理为什么能节省上千倍成本?

  5. 一张延迟图看懂内存时间与计算时间的平衡

    一张延迟图看懂内存时间与计算时间的平衡

  6. 稀疏注意力与最优批次大小的代数推导

    稀疏注意力与最优批次大小的代数推导

  7. 单用户推理为什么贵?成本曲线揭示的无穷大起点

    单用户推理为什么贵?成本曲线揭示的无穷大起点

  8. 最优批次大小≈300×稀疏度,一个跨硬件稳定的常数

    最优批次大小≈300×稀疏度,一个跨硬件稳定的常数

  9. 推理引擎的“火车模型”:每 20 毫秒固定发车

    推理引擎的“火车模型”:每 20 毫秒固定发车

  10. 从每秒 12.8 万 token 反推前沿模型的多大用户量

    从每秒 12.8 万 token 反推前沿模型的多大用户量

  11. 增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案

    增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案

  12. 混合专家层如何分片到 GPU 机架上

    混合专家层如何分片到 GPU 机架上

转录

Yikai 开场及节目介绍

Dwarkesh 介绍嘉宾与“黑板讲座”设置

为什么要从“批次大小”开始?它对延迟和成本的决定性影响

批处理为什么能节省上千倍成本?

一张延迟图看懂内存时间与计算时间的平衡

稀疏注意力与最优批次大小的代数推导

单用户推理为什么贵?成本曲线揭示的无穷大起点

最优批次大小≈300×稀疏度,一个跨硬件稳定的常数

推理引擎的“火车模型”每 20 毫秒固定发车

从每秒 12.8 万 token 反推前沿模型的多大用户量

增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案

混合专家层如何分片到 GPU 机架上

机架内的 NVLink 高速网络与机架间慢八倍的“瓶颈”

为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架

流水线并行真的省了内存吗?通信模式的代数拆解

流水线气泡训练中的微批次权衡与推理中的“不费脑”设计

内存容量真的过剩吗?为何大家还在砸钱买 HBM?

为什么流水线并行对 KV 缓存无效?内存容量的死结

过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离

预训练、强化学习与推理 token 的最优成本分配

惊人反推预训练数据量其实约等于模型整个生命周期的推理 token 数

Gemini 长上下文加价 50%的硬件解释

价格如何泄露秘密每个 token 的字节数、KV 缓存大小都能算出来

输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相

KV 缓存命中便宜 10 倍HBM、DDR 与机械硬盘的角色分配

5 分钟 vs 1 小时定价时长正好对应闪存与机械硬盘的“排空时间”

神经网络与密码学同样的“混合”结构,相反的训练目标

对抗攻击与后门神经网络里的“雪崩效应”

从密码学借来的可逆网络用计算换内存,反向传播不用存激活值

结语与致谢

#GPT-5#Claude#Gemini#AI基础设施#模型训练#推理系统

节目笔记

📝 本期播客简介

本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》**How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope**

嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用“黑板讲座”的形式,Reiner 从最基础的 roofline 模型出发,一步步推导出批次大小如何影响大模型推理的延迟与成本,揭示了“内存墙”为什么是上下文长度的真正枷锁。他还结合 Gemini、DeepSeek 等前沿模型的公开定价,反向推算出隐藏的技术架构,甚至连 KV 缓存存储在哪一层内存都能猜出来。对话后半段更跨界到密码学,探讨神经网络与密码协议在结构上的惊人相似。这是一堂 AI 基础设施的实战大师课,听完你会对“为什么 API 定价是这样”“为什么模型扩展变慢了”这些问题豁然开朗。

👨‍⚕️ 本期嘉宾

Reiner Pope,AI 芯片公司 Maddox 的创始人兼 CEO,曾在谷歌领导 TPU 架构设计,对分布式训练、推理系统和芯片设计有极其深厚的工程与研究积淀。他还是《Scaling》一书的作者。

⏱️ 时间戳

开场与技术形式

00:00 Yikai 开场及节目介绍

01:26 Dwarkesh 介绍嘉宾与“黑板讲座”设置

Roofline 模型与批次大小的艺术

02:53 为什么要从“批次大小”开始?它对延迟和成本的决定性影响

04:33 批处理为什么能节省上千倍成本?

07:04 一张延迟图看懂内存时间与计算时间的平衡

10:25 稀疏注意力与最优批次大小的代数推导

12:00 单用户推理为什么贵?成本曲线揭示的无穷大起点

15:20 最优批次大小≈300×稀疏度,一个跨硬件稳定的常数

17:08 推理引擎的“火车模型”:每 20 毫秒固定发车

19:35 从每秒 12.8 万 token 反推前沿模型的多大用户量

21:38 增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案

模型架构与硬件拓扑

24:15 混合专家层如何分片到 GPU 机架上

27:47 机架内的 NVLink 高速网络与机架间慢八倍的“瓶颈”

32:33 为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架

35:40 流水线并行真的省了内存吗?通信模式的代数拆解

39:45 流水线气泡:训练中的微批次权衡与推理中的“不费脑”设计

内存墙、过度训练与规模法则

45:12 内存容量真的过剩吗?为何大家还在砸钱买 HBM?

49:03 为什么流水线并行对 KV 缓存无效?内存容量的死结

52:00 过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离

58:23 预训练、强化学习与推理 token 的最优成本分配

01:04:24 惊人反推:预训练数据量其实约等于模型整个生命周期的推理 token 数

从 API 定价反推技术架构

01:05:26 Gemini 长上下文加价 50%的硬件解释

01:09:50 价格如何泄露秘密:每个 token 的字节数、KV 缓存大小都能算出来

01:12:47 输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相

01:14:51 KV 缓存命中便宜 10 倍:HBM、DDR 与机械硬盘的角色分配

01:22:00 5 分钟 vs 1 小时:定价时长正好对应闪存与机械硬盘的“排空时间”

交叉学科火花

01:24:17 神经网络与密码学:同样的“混合”结构,相反的训练目标

01:27:06 对抗攻击与后门:神经网络里的“雪崩效应”

01:28:45 从密码学借来的可逆网络:用计算换内存,反向传播不用存激活值

结尾

01:30:50 结语与致谢

🌟 精彩内容

💡 “火车模型”:理解推理延迟的钥匙

Reiner 把大模型推理比作固定时刻表的火车:每 20 毫秒发车一次,能上多少用户就上多少。这直接解释了为什么多付钱可以得到更快流式输出的“快速模式”,以及为什么存在“慢速模式”都无法突破的成本下限。

🛠️ 内存墙:限制上下文长度的真正元凶

“内存墙没有真正的解决方案”,Reiner 直言。通过 roofline 分析,他展示了为什么超出 20 万 token 左右后成本会急剧上升——不是因为算力不够,而是因为内存带宽被 KV 缓存吃满。这也是 Gemini 等模型长上下文定价加价 50%的根本原因。

🚀 用公开价格反推绝密架构

Reiner 现场演示了如何通过 API 每百万 token 的定价,推导出模型中每 token 的 KV 缓存字节数(约 2KB)、注意力头的维度,甚至推断出缓存是放在 HBM、DDR 还是机械硬盘里。一堂震撼的技术情报分析课。

💻 批次大小:从千倍成本差到硬件常数

如果不做批处理,单用户推理的成本可能比批处理高上千倍。而最优批次大小竟然可以通过一个简单的硬件常数(算力 / 内存带宽)乘以模型稀疏度直接估算出来,这个常数在不同 GPU 世代间保持惊人稳定。

❤️ 密码学与神经网络:同构的两面

神经网络通过梯度下降学习结构,密码学却拼命制造随机性的“雪崩效应”。Reiner 指出,这恰恰是同一个混合架构的两个极端用途,而可逆网络正是从密码学中借来、用于节省训练内存的巧妙设计。

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

问问这篇内容

回答仅基于本篇材料
    0 / 500

    Skill 包

    领域模板,一键产出结构化笔记
    • 播客学习包

      把一集播客 / 视频提炼成可二次创作的学习笔记:关键时间点、金句、开放问题、行动项。

      • · 听后概要(3 句以内)
      • · 关键时间点
      • · 金句摘录(3-5 条)

    导出到第二大脑

    支持 Notion / Obsidian / Readwise
    下载 Markdown(Obsidian 直接拖入)