---
title: "BestBlogs 周刊第 91 期：基建周"
source_name: "Gino Notes"
original_url: "https://ginonotes.com/posts/bestblogs-weekly-issue-91"
canonical_url: "https://www.traeai.com/articles/d1fa68d3-91e1-410a-8c33-9ff2583e8f1f"
content_type: "article"
language: "中文"
score: 8.5
tags: ["智能体","大模型","Cloudflare","Anthropic","OpenAI"]
published_at: "2026-04-19T00:00:00+00:00"
created_at: "2026-04-19T13:30:47.876991+00:00"
---

# BestBlogs 周刊第 91 期：基建周

Canonical URL: https://www.traeai.com/articles/d1fa68d3-91e1-410a-8c33-9ff2583e8f1f
Original source: https://ginonotes.com/posts/bestblogs-weekly-issue-91

## Summary

Cloudflare 推出智能体原生基建，Anthropic 和 OpenAI 同步升级执行层，模型正演变为新一代操作系统。

## Key Takeaways

- Cloudflare 通过 Agent Week 补齐智能体所需的计算、存储、编排与路由，实现边际成本趋零的智能体部署。
- Claude Opus 4.7 在编码与视觉能力上显著提升，并首次在训练中主动限制网络能力以测试安全护栏。
- OpenAI 将 Codex 扩展至全系统操作，支持桌面自动化与多插件协同，推动智能体从工具走向基础设施。

## Content

Title: BestBlogs 周刊第 91 期：基建周

URL Source: http://ginonotes.com/posts/bestblogs-weekly-issue-91

Published Time: 2026-04-19

Markdown Content:
![Image 1: 周刊播客](https://media.ginonotes.com/podcasts/bestblogs-issue-91-podcast.png)[🎙️在小宇宙上收听周刊播客](https://www.xiaoyuzhoufm.com/episodes/69e4176e1d989496e7f14a42)

翻完第 91 期的二十篇精选，我发现过去三期周刊其实在讲同一条进化曲线。第 88 期是智能体式思考，第 89 期是智能体工程化，到这一期变成了基建周。思考、纪律、基建，一层一层往下沉。两个月之前我们还在追问谁的模型更强，这一期翻完只剩一个感觉，模型不是不重要，但今天更重要的是怎么把模型装进一台能被真正用起来的机器里。

本期编辑导语里有一句话定调很准。「当智能体从 demo 毕业成需要基建的生产系统，整个技术栈都在被重建。」Cloudflare 一周内做了一整场 Agent Week，把智能体需要的计算、存储、编排、路由全部补齐。同一周 Anthropic 发布 Claude Opus 4.7，OpenAI 把 Codex 解放到整台电脑和浏览器。腾讯云开发者和腾讯科技两家同时做了 Hermes Agent 的深度拆解，这个两个月前才出场的开源项目已经攒了 22K Star。张小珺的《全球大模型季报》第九集里，广密抛出一句话，「模型正在成为新一代的操作系统」。

![Image 2: BestBlogs 周刊第 91 期](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-1.png)

本期 BestBlogs 2.0 也正式开启内测，**首批 177 人申请、100 人已邀请**。上线 6 天基于内测反馈连发了 5 个小版本。基建周这个主题刚好和我们这一周的产品动作形成了一种有趣的呼应，我们在小尺度上做的事情，和整个行业在大尺度上做的事情，其实是同一件事。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#cloudflare-agent-week%E6%8A%8A%E6%99%BA%E8%83%BD%E4%BD%93%E9%9C%80%E8%A6%81%E7%9A%84%E4%B8%9C%E8%A5%BF%E4%B8%80%E6%AC%A1%E6%80%A7%E8%A1%A5%E9%BD%90)Cloudflare Agent Week：把智能体需要的东西一次性补齐

本周最值得细读的一组内容来自 Cloudflare。他们这一周不是在发一个产品，而是在发一整套基础设施。

要理解 Cloudflare 这一波为什么重要，得把时间线稍微拉开。过去一年多他们的 AI 基建是步步为营的。Workers AI 把模型跑到了边缘节点；Vectorize 做向量数据库；D1 做边缘 SQLite；Queues 做消息队列；R2 做对象存储；AI Gateway 做推理网关；Agents SDK 做智能体框架；Durable Objects 做有状态的无服务器单元；最近还推出了 Containers on Workers，让容器能跑在边缘。零散看每个都是点状产品，拼在一起是一整套以 Worker 为核心的边缘云。

![Image 3: Cloudflare Agent Week](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-2.png)

这一周的 Agent Week，本质上是把这些散点产品向智能体场景做了一次集中升级和重新组合。**Sandbox 沙盒正式 GA**，给了智能体一个能跑任意代码的计算环境。**Durable Object Facets 做数据库细粒度切片**，给每个 AI 生成的应用一份自己的 SQLite。**Project Think 把这些原语打包成一个智能体框架**。**AI Gateway 从一个简单代理升级成统一推理层**。计算、存储、编排、路由，一周之内四件事全部到位，整套边缘云从通用平台转型成了智能体原生平台。

[Project Think 这篇文章](https://www.bestblogs.dev/article/960fb5f2)的核心洞察很锋利。传统的一对一智能体模型，也就是每个用户配一个长时间运行的智能体，用容器来扩展成本高得吓人，你付钱让容器空转，只是为了等用户偶尔回来。Cloudflare 的方案是把智能体放进 Durable Objects 里，每个智能体有自己的隔离边界，但闲置时的成本为零。官方原话是：「你可以构建『每个客户一个智能体』或『每个任务一个智能体』或『每个邮件处理任务一个智能体』，生成一个新智能体的边际成本实际上为零。」这种经济模型对中小团队友好到可怕，两三个人的创业公司，也能部署得起百万量级的智能体。

在这个底层上，Project Think 堆了几个关键原语：

*   **纤程持久化执行**：`runFiber()` API 让智能体能把自己的执行状态写成检查点，平台重启或驱逐也能活下来。一个跑几分钟的智能体循环，在无服务器环境里也能稳定完成。
*   **沙盒代码执行**：通过 `@cloudflare/codemode`，智能体可以直接写一段 TypeScript 程序扔进隔离的 V8 环境执行，一次代码执行完成原来要几十次工具调用的事。官方判断：「模型更擅长写代码来使用一个系统，而不是玩工具调用游戏。」
*   **执行阶梯**：从轻量工作区沙盒，到能装 npm 依赖的环境，再到能跑浏览器自动化的完整操作系统级沙盒，逐级放开权限。
*   **自我编写扩展**：`ExtensionManager` 允许智能体在运行时写一个新的 TypeScript 工具、声明权限、打包 npm 依赖、动态加载进自己的工具，形成一个真正的自我改进闭环。

同期发布的 [AI Gateway 升级](https://www.bestblogs.dev/article/79ff2031)把自己定位成「专为智能体设计的统一推理层」。**单一接口访问 12 家供应商的 70+ 模型**，支持一行代码切换、自动故障转移、跨供应商的成本监控。还集成 Replicate 的 Cog 技术，允许自带模型部署。这个定位非常精准，你今天做生产级智能体最头疼的一件事就是多模型治理，Claude 跑规划、GPT 跑代码、Gemini 跑多模态、本地小模型跑路由，组合的延迟、成本、故障恢复如果要自己写，真的是一张复杂度地狱网。

Cloudflare 文章里有一句值得记：「一个在你笔记本电脑休眠时就会死亡的编码智能体，那只是一个工具。一个能持久存在的智能体，那开始看起来像基础设施。」

顺带一提，这一波动作不是孤立的。AWS 这两个月在推 Bedrock AgentCore 和 Step Functions 的 AI 升级；Vercel 推 AI SDK 4 和 Fluid Compute；Supabase 推 AI Edge Functions。云厂商这一轮普遍在把自己重塑成智能体原生云，但 Cloudflare 把完整度和一致性做得最彻底，一周之内把四层都补齐，动作又快又整齐。执行节奏本身就是一种信号，基建之争已经开打。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#claude-opus-47-%E4%B8%8E-codex-%E5%8D%87%E7%BA%A7%E6%89%A7%E8%A1%8C%E5%B1%82%E7%9A%84%E5%8F%8C%E5%90%91%E8%BF%9B%E5%8C%96)Claude Opus 4.7 与 Codex 升级：执行层的双向进化

基建补齐之后，看执行层。Anthropic 和 OpenAI 同一周各自放了大招。

![Image 4: Claude Code vs Codex](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-3.png)

先说 Anthropic。[Claude Opus 4.7 正式发布](https://www.bestblogs.dev/article/3b1c0638)。要看清它的位置，得把 Claude 4 系列时间线拉长。**4.5 在去年 11 月**（暗工厂级模型的起点），**4.6 在 12 月**（也就是 Block 后来拿来裁员的那个版本），**4.7 这一周**，他们差不多每两个月一次迭代，而且每次都不是挤牙膏。中间 Anthropic 还把 Claude Code 这个命令行工具做得越来越深。3 月底源码意外曝光那一次震动了整个圈子，社区挖出几个未发布的隐藏功能：Team Mode 团队协作模式、后台守护进程 KAIROS、灵感来自睡眠巩固的 dream 任务，这些都反过来印证了 Anthropic 把智能体当一个完整操作系统来做。

这一周的 4.7 不是常规升级。官方说在一个包含 93 项任务的编码基准上，**相比 4.6 提升了 13%**。**视觉分辨率拉到 2,576 像素，差不多是 4.6 的 3 倍**，能精准解析高密度的架构图和代码截图。新增了 `xhigh` 的努力程度选项，开发者可以在推理深度和延迟之间做更细粒度的权衡。定价保持不变，**每百万输入 Token 5 美元，每百万输出 Token 25 美元**。由于分词器更新和思考深度增加，实际 Token 消耗会上升 1.0–1.35 倍。

这次发布里有一个很独特的设计：**Claude Opus 4.7 的网络安全能力被有意限制了**。Anthropic 在文章里写得很直白，这个版本的网络能力不如他们内部还在测的 Mythos Preview 先进，训练中甚至尝试了差异化降低这些能力的方法。他们把 4.7 作为新一轮护栏的试验场，用它的经验去准备未来 Mythos 级别模型的安全发布。这种战略性的保守在顶级模型发布里比较少见，它意味着安全设计本身也成了工程迭代的对象，不是在模型跑出来之后贴一层审查，而是在训练目标里就做了裁剪。这个思路和他们过去在 Constitutional AI、ASL 分级响应、MCP 协议上的一贯动作是同一条路线，把安全工程做成系统而不是贴纸。

OpenAI 这边动作更激进。官方博客标题叫 [Codex 几乎无所不能](https://www.bestblogs.dev/article/d8c375d8)。这次升级把 Codex 从代码编辑器里解放出来了。它能操控桌面光标、直接打开应用、在应用内浏览器里处理网页任务。**整合插件和 MCP 服务器超过 90 个**，JIRA、CircleCI、Microsoft Suite 都打通了。开发者可以直接让 Codex 审查 PR、连接 SSH 远程开发机、调用 GPT Image 1.5 生成图像，还加了记忆功能记住偏好和过往上下文。

OpenAI 过去半年的智能体动作值得并在一起看。先是 ChatGPT Atlas 浏览器，让 GPT 能看也能操作网页；再是 Sora 2 把视频生成做成工作流；然后 GPT 5.4 和 5.5 把长程任务能力做厚；现在 Codex 又补齐桌面操作。串起来看，OpenAI 的智能体战略其实是以 Codex 为核心的，GPT 负责推理和生成，Atlas 和 Codex 是两个操作代理，一个在浏览器里工作，一个在计算机里工作。

这两家的路径是互补的。Anthropic 用 Claude Opus 4.7 把执行层做得更稳、更准、更有护栏。OpenAI 用 Codex 把智能体的操作面扩大到整个工作流。把它们放到 Cloudflare 的基建上看，一个完整堆栈正在形成：最底层是 Cloudflare 这种持久化、低成本的运行时；中间层是 Claude 4.7 这种有严格护栏的推理引擎；最上层是 Codex 这种跨应用、跨环境的操作代理。**这个堆栈的形状决定了未来两三年应用层创业的天花板。下一波真正的机会在这三层之间的缝隙里，不在那层本身。**

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#hermes-%E4%B8%A4%E4%B8%AA%E6%9C%88%E6%8E%A5%E6%A3%92-openclaw%E5%BC%80%E6%BA%90%E6%99%BA%E8%83%BD%E4%BD%93%E7%9A%84%E5%B7%A5%E7%A8%8B%E5%85%9C%E5%BA%95)Hermes 两个月接棒 OpenClaw：开源智能体的工程兜底

闭源这边在卷执行层，开源这边也没闲着。这一周开源智能体最大的事是 Hermes。两个月前 Nous Research 发布的这个开源项目，**已经攒了 22K Star**，被业内认为是接棒 OpenClaw 的新顶流。腾讯云开发者和腾讯科技这一周分别做了深度拆解。

![Image 5: Hermes 接棒 OpenClaw](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-4.png)

开源智能体赛道过去一年是两次换代。第一代是去年上半年以 AutoGPT 为代表的探索期，搞了一堆炫酷 demo 但没人用。第二代是下半年到今年年初的 OpenClaw，真正把开源智能体带进生产环境。但 OpenClaw 一直有个问题，对模型能力过于乐观，交给它的任务失败率较高，用户需要经常介入调整。Hermes 是第三代，两个月就以工程兜底的方式解决了这个问题。**从 AutoGPT 到 OpenClaw 到 Hermes，第一代靠愿景，第二代靠架构，第三代靠工程纪律。**

[腾讯云开发者那篇](https://www.bestblogs.dev/article/2adc9c3e)偏源码级，核心拆的是 Hermes 的 Skills 闭环系统。Skills 可以理解成智能体学到的可复用技能，就像程序员工作里积累的工作流 SOP。闭环覆盖经验提取、知识存储、智能检索、执行验证、自动改进五个阶段，让智能体能像人类专家一样积累经验，把成功做法写成标准操作流程，在使用中持续修订，甚至可以分享给其他智能体。

文章里有几个工程决策很有教育意义：

*   **用户消息注入而不是改系统提示词**：保护了提示词缓存（用户消息那一层变了不会触发上游缓存失效），API 成本降了好几十倍。代价是牺牲了一点指令跟随的可靠性。
*   **写入后扫描而不是扫描后写入**：避免了 TOCTOU 竞态条件，扫描和写入之间如果有窗口期，恶意代码能钻空子。
*   **90+ 威胁模式正则扫描 + 结构性检查 + 来源信任分级**：官方把这套东西叫做「Skills 生态的免疫系统」。

[腾讯科技那篇](https://www.bestblogs.dev/article/71f5de13)更偏产品哲学。作者有个判断我非常同意，Hermes 的成功不是靠功能碾压 OpenClaw，两个项目功能高度重合，**真正的差异是 Hermes 把决策复杂度封装进了底层的确定性规则里**：调用 5 次工具触发一次 Skill 生成，对话满 15 轮触发一次记忆反思。这些硬编码规则用确定性换取了稳定性。文章里还有一个有意思的观察，Hermes 的技能自进化并不是完全无需人类介入。技能进化后是以 Pull Request 的形式提交的，必须有人审核合并。所谓的「自主进化」其实是有限自主加人类兜底。

这篇文章里有一个大胆判断值得单独拎出来：「Hermes 押的不是今天的系统有多完美，而是在提前做一场局，用工程化方案在技术将将够用的时候先占住生态位。等到底层模型能力质变那天，Hermes 已经攥着真实用户、技能生态和记忆底座站在终点了。」这个思路适用于所有中间层的开源项目。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#%E4%BB%80%E4%B9%88%E6%89%8D%E7%AE%97%E6%99%BA%E8%83%BD%E4%BD%93%E7%9A%84%E8%AE%B0%E5%BF%86%E4%BB%8E%E6%B5%AE%E4%B9%8B%E9%9D%99%E5%88%B0-notion-token-town)什么才算智能体的记忆：从浮之静到 Notion Token Town

Hermes 讲了怎么存经验，但更深一层的问题是，什么才算智能体的记忆。这一周有两篇文章把这个问题讲透了，一篇偏理论，一篇偏实践。

![Image 6: 智能体的记忆](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-5.png)

理论那篇来自公众号[浮之静](https://www.bestblogs.dev/article/2e49e0d0)，标题就叫《浅谈 Agent Memory》。作者给了一个我觉得特别锋利的定义：**记忆不是存取，而是对过去的持续再解释。** 他直接开怼一种常见误解：「如果你的 Agent Memory 只做到『存聊天记录 + 向量检索』，那它拥有的不是记忆，只是一个带搜索功能的垃圾箱。」

文章有几个拆解特别有价值：

*   **记忆和 RAG 的本质区别**：RAG 解决「模型不知道但资料库里有」的问题，处理静态知识访问；记忆处理「系统如何把互动中形成的偏好、事实变化、错误教训，组织为能持续影响未来行为的状态」。两者处理的问题层级完全不同。
*   **原始材料和派生材料的权衡**：原始材料保真但散碎，派生材料紧凑但容易信息漂移。好的记忆系统必须同时持有两者，并建立可回溯路径。
*   **高质量的遗忘**：遗忘不是删除，而是对失效信息影响链的「谱系清算」，防止旧版本困住系统。
*   **记忆最终会固化为技能**：也就是程序性记忆的外化，实现从「记得」到「会了」的跃迁。

实践那篇来自 [Latent Space 对 Notion 的深度访谈](https://www.bestblogs.dev/article/663e10aa)，标题是 _Token Town_，副标题是「5 次重构，100+ 工具」。正文 12 万字，是我最近读过最实诚的一篇 AI 产品回忆录。Notion 的 AI 工程负责人 Sarah Sachs 和 Simon Last 讲了他们从零开始做自定义智能体的完整历程，**5 次重构，每一次都踩中了当时模型能力的真实边界**。

他们总结的一条规律我很受用：**做 AI 产品要驾驭模型能力的河流而不是逆流而上，区分清楚什么是产品问题，什么是基础模型的限制**，如果是前者去改产品，如果是后者去等模型，不要搞混。

他们有个观点和浮之静那篇严丝合缝：**软件工程的未来不仅仅是编写代码，而是监督智能体的外部系统**。他们把愿景叫做软件工厂，智能体负责制定规范、编码、测试、调试、维护，人类工程师监督严格的验证循环并保留关键的不变量。这和 Hermes 的 PR 审核机制、和浮之静所说的记忆治理层，其实讲的是同一件事，**智能体的自主性必须搭配一套人类能介入的治理结构**。

Notion 那篇里还有一个实践很值得抄作业。他们专门设立了一个叫「模型行为工程师」的角色，这个人不写产品代码，专门写评估。评估分两种：回归测试和前沿测试。前沿测试是有意设计成大多数时候会失败的，**只有 30% 的通过率才合理**，它跟踪的不是当下能力，而是能力发展的轨迹。这是一个挺精致的组织设计。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#minimax-agent%E5%9B%BD%E5%86%85%E5%9B%A2%E9%98%9F%E7%9A%84%E7%94%B5%E8%84%91%E6%93%8D%E4%BD%9C%E5%B7%A5%E7%A8%8B%E5%AE%9E%E8%B7%B5)MiniMax Agent：国内团队的电脑操作工程实践

国内这边值得重点聊的是 MiniMax。这一周他们发了一篇文章，标题很直接，[《这次我们重新设计了 Agent 操作电脑的方式》](https://www.bestblogs.dev/article/810d6b64)。

![Image 7: 国内团队的电脑操作工程实践](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-6.png)

两个大更新：**Pocket**（远程口袋）让智能体通过 IM 软件远程调度你电脑上的任务；**Computer Use**（电脑操作）让智能体用视觉识别直接操控本地图形界面软件，从设计工具到内部系统到系统偏好设置都能碰。

文章里最值得学习的是他们的四个工程决策：

1.   **桌面操作拆成 4 个独立工具域**：Desktop Control、Window Manager、Browser Engine、Clipboard。不同任务的最优执行路径不一样，一个万能工具不如四个专用工具。
2.   **统一多屏坐标系**：模型不直接输出像素坐标，而是输出一个 0 到 1 之间的相对位置，由系统根据当前屏幕分辨率换算为真实坐标。模型不需要知道用户用的是什么屏幕，操作精度在所有设备上保持一致。
3.   **「截图 → 验证 → 行动」循环**：每一步操作完立刻截图，让模型看一眼「刚才那一步真的做到了吗」。失败了进诊断重试，显著降低多步任务的失败率。
4.   **IM 远程授权**：关键操作（如删文件）会暂停推送到用户的 IM 对话里等授权，保证用户对每一个关键动作的知情权和控制权。

这四个决策放在一起看，国内团队的工程化能力一点不比硅谷差。把一个看似简单的「操作电脑」需求，拆解到这个颗粒度，是需要踩过相当多坑才能形成的经验。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#%E6%A8%A1%E5%9E%8B%E5%B1%82%E7%9A%84%E4%B8%93%E4%B8%9A%E5%8C%96%E4%BB%8E-gemini-%E5%88%B0-gpt-rosalind)模型层的专业化：从 Gemini 到 GPT-Rosalind

这一周多个模型的发布不约而同地往两个方向走：原生支持智能体工作流，以及垂直领域专业化。

![Image 8: 大模型走向专业化](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-7.png)

Google DeepMind 一周连发两款。第一款是 [Gemini 3.1 Flash TTS](https://www.bestblogs.dev/article/900e1709)，新一代表现力语音模型。引入了「音频标签」机制，用自然语言就能精细控制语音风格，覆盖 70+ 种语言，集成 SynthID 水印。**在 TTS 排行榜评测上拿到 1,211 Elo 分数**。第二款是 [Gemini Robotics ER 1.6](https://www.bestblogs.dev/article/4eb6dbde)，机器人推理模型，强化了空间指向、任务成功检测、工业仪表识别，Google 还把它和波士顿动力合作。Google 最近半年在机器人方向持续下注，从原版 Robotics 到 Robotics ER 到今天的 1.6，每一代都在把具身推理和大模型的常识能力做更深的融合。

OpenAI 发了一个垂直领域模型，[GPT-Rosalind](https://www.bestblogs.dev/article/75fbc2d8)，名字来自发现 DNA 结构的 Rosalind Franklin。这是专门给生命科学研究打造的推理模型，集成了 50+ 专业数据库，能做从文献检索到实验设计的全流程自动化，在多个生物医学基准上超过了通用大模型。OpenAI 还给它配了一个免费的 Codex 生命科学插件，能打通 50+ 科学工具。这一步是 OpenAI 做垂直模型战略的延续，在 GPT 5 系列通用升级之外，他们开始往科学、法律、金融这些有严重专业门槛的领域派专门的模型。

Stripe 这一期的创始人访谈邀请了 [ElevenLabs 的 CEO Mati](https://www.bestblogs.dev/article/e677471)。**ElevenLabs 的年化收入已经到 4.5 亿美元**，从诞生到这个规模只用了大概 3 年。Mati 的判断很务实：在复杂业务场景下，级联架构（多个模型串起来）短期内仍然优于端到端的单一模型，企业客户看重的是可靠性而非单一性能的极致。他还透露了他们的组织哲学，「极度扁平化 + 高能动性人才」。团队几乎没有中层，每个人对自己负责的模块有完整决策权。这种组织设计和后面 Keith Rabois 要讲的「枪管理论」其实是同一个意思。

把这些放在一起看，顶级模型公司正在从比拼通用能力，转向针对具体智能体场景和专业领域做深度优化。**通用大模型的地基已经差不多了，接下来的竞争会在一个个具体的场景里展开。**

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#%E6%88%98%E7%95%A5%E5%8F%99%E4%BA%8B%E5%B1%82%E7%9A%84%E7%BB%9F%E4%B8%80%E6%A8%A1%E5%9E%8B%E5%8D%B3-os%E7%94%B5%E5%AD%90%E5%88%B0-tokenai-%E5%BF%85%E9%A1%BB%E6%B0%91%E4%B8%BB%E5%8C%96)战略叙事层的统一：模型即 OS、电子到 Token、AI 必须民主化

模型和基建讲完，上升一层看战略。这一周有三期访谈很值得听。

第一期是[张小珺《全球大模型季报》第 9 集](https://www.bestblogs.dev/article/9009cf6)，嘉宾广密。他抛出一个核心判断：**Coding 是 AGI 的第二幕，重要性堪比 GPU**。逻辑是 AI 从 Chatbot 第一幕进入 Agent 第二幕之后，Coding 能力不仅能自动化大量知识工作，它的反馈闭环还能显著加速模型智能的泛化，所以 Coding 是新的加速器。

他对硅谷御三家的对比相当锋利。**Anthropic 凭借对 Coding 的早期专注、All in 策略和数据驱动文化完成了反超**；OpenAI 因为 ChatGPT 成功陷入路径依赖，对 Coding 的战略优先级判断偏了；Google 在 C 端和多模态投入过重，暂时掉队。这个对比和过去几个季度市场份额变化是吻合的，去年这个时候 Anthropic 在企业级市场份额还是第三，今年已经追到和 OpenAI 贴身肉搏。**Anthropic 财年营收去年 8 月破 50 亿、12 月冲到 80 亿，Claude Code 这个命令行工具贡献了非常大的比例**。广密还抛出了那句话：「领先的模型公司未来可能演变为支撑全球应用生态的新一代操作系统」。放在 Cloudflare 这一周补基建的语境里看，这句话听起来就不像比喻了。

第二期是 [Dwarkesh Patel 对黄仁勋的访谈](https://www.bestblogs.dev/article/53dcb78)。问题很尖锐，TPU 对英伟达到底有没有威胁？黄仁勋的回答：英伟达的核心价值是「把电子转化为 Token」，这件事融合了艺术、工程和科学，极难被商品化。**CUDA 的护城河不是原始性能，是装机量、可编程性和生态丰富度**，开发者选 CUDA 是因为它在任何地方都能跑。

对中国出口管制这一段，黄仁勋给了一个值得细品的判断：**极端孤立不会让中国退步，反而会迫使中国发展出完整的非美技术栈，最终美国会失去一个能施加影响的标准制定权**。从一个有利益相关的企业 CEO 嘴里讲出这种话，是难得的坦诚。

第三期是 [Sam Altman 的博客](https://www.bestblogs.dev/article/f448dbe6)。背景很沉重，他的住所遭到了燃烧弹袭击。这篇博客不是讲业务，是他对 AI 未来的个人反思。核心观点：发展 AI 是促进人类繁荣的道德义务，但这个力量必须被民主化，不能集中在少数实验室手里。他的原话是，「**由少数 AI 实验室来决定我们未来的形态，这是不对的。**」

还有一段罕见的自我批评，他坦率承认在 OpenAI 扩张期间有回避冲突的倾向，错误处理了董事会冲突。他对抵制 Elon Musk 单方面控制的要求感到自豪，但对自己内部的处理方式并不自豪。一个美国顶级科技公司的 CEO 公开写出这种话，是有分量的。

三篇放在一起看，**战略叙事层正在统一**，模型即操作系统、硬件厂商即能源调度器、AI 必须民主化，这些说法指向的都是一件事：AI 正在从技术议题升级为社会基础设施议题。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#%E9%80%9F%E8%A7%88pm-%E8%A7%92%E8%89%B2%E6%B6%88%E4%BA%A1ai-%E7%A4%BE%E4%BA%A4%E4%B8%8E%E5%85%B6%E4%BB%96)速览：PM 角色消亡、AI 社交与其他

几个本周值得关注的其他内容：

**Lenny's Podcast 邀请了 Keith Rabois**，讨论 [AI 时代的残酷真相](https://www.bestblogs.dev/article/ee15307)。核心判断：**传统产品经理角色正在过时**，现在的核心技能更像 CEO，决定构建什么和为什么，再加上感知每周技术上变得可能的事物。他还提了一个挺新颖的「枪管 vs 弹药」框架：枪管是那些能独立把一个想法推到成功的人，弹药是支持者。公司的并行执行能力由枪管数量决定，雇更多弹药只会增加协调成本。

**AI 社交这条线有两个有意思的数据点**。[张小珺对谈自然选择创始人 Tristan](https://www.bestblogs.dev/article/731e652)，聊 AI 社交产品 Elys。核心判断：社交范式正在从低维的「标签匹配」转向高维的「Context 流动」，每个人通过累积记忆和审美构建数字分身，让分身在虚拟空间完成低熵预交互，然后提升真人在现实世界的连接效率。这个思路和前面讲的 Agent Memory 其实是同一套底层逻辑。

另一个数据点来自[腾讯研究院 T-ask 调研](https://www.bestblogs.dev/article/d7c0fabb)，样本是 2,903 名 18-40 岁的中国青年网民。数据挺震撼：**98.8% 的受访者使用过 AI 社交产品，超过七成产生了情感联结**。最反直觉的数据是，当产生「难以启齿」的想法时，**选择向 AI 倾诉的比例是 56.0%，选择真人的只有 14.4%**（AI 的占比是真人的近 4 倍）。报告给的原因是 AI 提供「无评判、无社交后果的绝对安全感」。

## [](http://ginonotes.com/posts/bestblogs-weekly-issue-91#bestblogs-20-%E5%86%85%E6%B5%8B%E4%B8%80%E5%91%A8%E5%9F%BA%E5%BB%BA%E4%B9%9F%E6%98%AF%E6%88%91%E4%BB%AC%E8%87%AA%E5%B7%B1%E5%9C%A8%E5%81%9A%E7%9A%84%E4%BA%8B)BestBlogs 2.0 内测一周：基建也是我们自己在做的事

最后聊聊 BestBlogs 2.0 这一周。**首批 177 人申请、100 人已邀请**，剩下的下周补完。上线 6 天里基于内测反馈连发了 5 个小版本，用户能感知的主要动作：早报音频后台持续播放加图文双视图、公共早报支持 RSS 订阅、中英双语独立早报、Pro 邮件早报正式上线。

**2.0 这次的设计理念其实和本周周刊的基建主题是同构的**。我们没有给它多堆新功能，而是把底层架构重做了一遍，从「内容聚合工具」升级为「阅读工作流系统」。老版本的核心问题是它假设用户会逐篇浏览，所有设计都围绕列表和卡片展开。新版本假设用户时间稀缺，所以重点做的是**如何帮用户在过载的信息流里用最少的时间做出最稳的判断**。这个底层假设一变，每个功能的形态都会跟着变，比如早报从单篇推送升级为双视图加音频版本，订阅从单一列表升级为公共质量池加个性化流。

做产品十几年了，这一周最大的感受是一句老话，**关起门打磨远不如把产品交到真实用户手里每天迭代**。举几个例子：早报有个小问题是用户反馈的，音频在 iOS 后台切出去就断流，我们当天修了；有人问为什么 Pro 邮件早报要独立发一份，我们在第二版里加了场景说明，区分浏览版和通勤版；还有人提到中英双语切换不够顺手，我们在第四版里把语言偏好直接挂到订阅关系上。这些问题单靠我们内部再怎么测也很难全部命中，真实用户一用，漏洞一小时内就能冒出来。

* * *

再回到本周主题。Cloudflare 把基建补齐、Anthropic 把护栏做稳、OpenAI 把操作面放大、Hermes 用工程兜底卡位、Notion 用软件工厂重定义协作、浮之静分享智能体记忆的本质、MiniMax 用四个工具域重塑电脑操作、Google 和 OpenAI 往垂直场景派模型、广密把模型定义成新一代操作系统、黄仁勋把硬件战略讲成「电子到 Token 的艺术」，**你会发现一条很清晰的共同动作：大家都在把那些还在论文里、还在 demo 里的东西，一层一层落地成可以交付给真实用户的系统**。

这就是这一期周刊我想留下的关键词，**基建是那件把想法变成产品的事**。做技术的人容易被前沿指标吸引，但真正改变行业的动作往往发生在基础设施、工程纪律、治理机制这些不那么闪亮的地方。九十一期最大的启发对我来说就是这一条：**该慢下来的地方慢下来，该沉下去的时候沉下去。**

本期完整的 20 篇精选文章可以在 [BestBlogs.dev](https://www.bestblogs.dev/newsletter/issue91) 上查看。

保持好奇，我们下周见。

![Image 9: 基建是那件把想法变成产品的事](https://media.ginonotes.com/images/20260419_bestblogs_weekly_issue_91/bestblogs-issue-91-8.png)
