[AINews] Open Models, Model Labs vs Agent Labs, and What's Untrainable — Sarah Guo

Latent Space

Latent Space2026年6月11日

[AINews] Open Models, Model Labs vs Agent Labs, and What's Untrainable — Sarah Guo

8.5内容质量

TL;DR · AI 摘要

Sarah Guo在文章中探讨了开源模型、Model Labs与Agent Labs的差异，并指出意图是AI领域最难训练的部分。

核心要点

开源模型的采用在2026年显著增长，得益于Cursor、Notion等工具的推动。
Agent Labs通过解决实际问题，如整合客户工作流程，难以被复制。
意图是AI领域最难训练的部分，因为它无法通过基准测试或模型训练来获取。

结构提纲

按章节快速跳转。

§引言
文章回顾了AI领域近期的发展，并引入Sarah Guo的观点。
·开源模型的采用
文章指出，2024年对开源模型持悲观态度，但2026年其采用率显著增长。
·Model Labs vs Agent Labs
Agent Labs通过解决实际问题，如整合客户工作流程，难以被复制。
·可验证的基准测试
文章指出，当前的基准测试可能很快失去价值，且无法准确衡量模型能力。
·意图的重要性
意图是AI领域最难训练的部分，因为它无法通过基准测试或模型训练来获取。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI模型与Agent Labs的对比
- 开源模型的采用
  - 2024年悲观，2026年增长
  - Cursor、Notion推动增长
- Model Labs vs Agent Labs
  - Agent Labs解决实际问题
  - 难以复制
- 意图的重要性
  - 意图难以训练
  - 无法通过基准测试获取

金句 / Highlights

值得收藏与分享的关键句。

An application earns its place in the untrainable corner by doing unglamorous work : arranging a company’s private reality so a model can act on it, handing the model the tools to act, working with th
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
The most cited benchmark score of the year is a map of territory about to be worthless , and a notice of who is about to lose the right to say what counts as good.
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
Intent is an even scarcer input than compute.
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#模型#Agent Labs#开源#技术趋势

打开原文

[AINews] 开源模型、模型实验室与代理实验室，以及不可训练的领域 —— Sarah Guo

AINews：工作日精选

一个安静的日子让我们反思一篇优秀的文章

2026年6月11日

Sarah Guo 是播客的朋友，也是人工智能领域的女王，她在我们与 Satya 的跨界播客（Gokul Rajaram 在此有精彩的回顾）之后，在她的 Substack 上写了一篇优秀的文章。请阅读她的文章，然后回来阅读我的反应：

这一框架（基于可读性，如果你还不熟悉，这也是一个值得了解的概念）同时涵盖了我们在 Satya 播客上讨论的许多主题，也涵盖了 Latent Space 在过去两年中讨论的主题：

开源模型的地位：2024 年，我们对开源模型的采用持极度悲观态度，但到了 2026 年，通过我们与 Pmarca、Cursor 和 Notion 的播客，我们的观点发生了转变。

代理实验室与模型实验室：Sarah（Cognition 的投资者）呼应了“细节决定成败”这一观点：“一个应用之所以能进入不可训练的领域，是因为它做了不起眼的工作：安排公司内部的现实，使模型可以据此行动，为模型提供工具，与客户合作改变其员工的现实。能够实现这种翻译的公司很难被复制——而且这种翻译永远不会结束。集成和维护的持续时间与合作关系一样长，由那些将领域专业工程师和工具与客户放在一起的团队所赢得。”

免费可验证的基准：为什么像 Anthropic 这样的实验室在 Fable 发布时迅速采用了 FrontierCode，以及 Sarah 同意这一点，即使与我们意见一致，她也认为：“今年被引用最多的基准分数是一张即将变得毫无价值的领土地图，也是一份通知，说明谁将失去定义什么是好的权利。”

她最后提到了意图：“更困难的是进攻，即选择首先构建什么。这就是我整年寻找的东西，我可能只找到了三次。模型在这方面没有帮助。它会执行你指向它的任何任务，但无法告诉你值得指向什么，而你无法对这一点进行基准测试，因此无法训练它。这也是为什么现有公司不会接受一切：它们保留现有的地盘，而下一个东西则来自在我们之前找到用途的人。也许意图比计算资源更加稀缺。”

2026年6月9日至6月10日的AI新闻。我们检查了12个Reddit子版块、544个Twitter账号，没有进一步的Discord信息。AINews的网站可以搜索所有过去的期数。提醒一下，AINews现在是Latent Space的一部分。你可以选择是否接收电子邮件通知！

企业关注的范围从安全性扩展到了数据保留和用户锁定：构建者指出，据报道，Fable/Mythos 模型在某些设置中带有 30 天的提示/数据保留，并且无法选择退出，这立即排除了零数据保留的环境以及欧洲部分地区。请参见 @GergelyOrosz 关于提示历史保留和不透明模型更改的讨论，以及 @scaling01 关于零数据保留不兼容性的问题。多位实践者反复强调的第二课是：将前沿 API 视为不稳定的依赖项，保持模型的可移植性，并通过评估和工具持续验证输出，正如 @dbreunig、@omarsar0 和 @yacineMTB 所主张的那样。

Anthropic 将争议与一项政策推动相结合：在遭到批评后，Dario Amodei 发表了《人工智能指数增长政策》（“Policy on the AI Exponential”），认为人工智能的进步正在超越制度，呼吁加强前沿领域的监管；Anthropic 同时宣布了相关举措，并提出了政府在阻止不安全发布中应发挥的作用。请参见 @DarioAmodei 和 @AnthropicAI。社区对这种紧张局势显而易见：同一家公司因不透明的私人控制而受到批评，现在却在倡导更强的公共控制。

Fable 5 在争议中表现出的基准实力和产品性能

Fable 5 在代理和编码任务上表现强劲：即使是对 Anthropic 政策持批评态度的人也承认该模型本身非常优秀。社区报告称，它在各种评估中表现领先或接近领先：Agent Arena 显示其总体排名第一，尤其在确认任务成功和用户称赞方面有较大的优势，尽管在可控性方面较弱；@mchlhess 表示它“完全碾压”了他的基准测试；@JasonBotterill 指出其在 SimpleBench 上达到了 81.9%；@lvwerra 报告其在 CADGenBench 上排名第一；@scaling01 强调了其在计算机使用方面的出色表现；@LechMazur 指出其在 PACT 谈判中排名第一。

构建者报告了实质性的实际收益，但并非普遍如此：一些从业者描述了在长期编码和创意任务中实现了显著的生产力提升，包括游戏生成和困难的错误修复，例如 @kimmonismus、@walden_yan 和 @hrishioa。与此同时，其他人报告了模型行为不稳定、使用成本高昂或在特定任务上的表现不如 GPT-5.5，例如 @Sentdex 和 @QuixiAI。从时间线得出的总体结论是：Fable 5 在许多代理编码任务上可能是最先进的，但信任问题和产品限制正在显著影响其采用率。

分发和集成进展迅速：Perplexity 通过 @perplexity_ai 和 @AravSrinivas 为 Computer for Pro/Max 用户添加了 Claude Fable 5 作为协调模型。Apple 开发者通过 @ClaudeDevs 获得了 Foundation Models 框架对 Claude 的支持，用于多步骤推理、更长的上下文和代码使用。社区行为也表明，在遭到批评后，出现了向 OpenAI/Codex 的替代压力，包括 @dylan522p 报告使用份额从 Anthropic 向 OpenAI 转移。

Google 发布 DiffusionGemma 以及对扩散 LLMs 的重新关注

Google 在 Apache 2.0 许可下发布了 DiffusionGemma：该系列中最重要的开源模型发布是 DiffusionGemma，这是一个基于 Gemma 4 的实验性 26B MoE 扩散文本模型，其权重在 Apache 2.0 许可下开放。与自回归的下一个 token 生成不同，它同时生成并优化文本块，据称在合适的硬件上输出速度可提升至原来的 4 倍，每秒可生成 1000 多个 token。详见 @Google、@GoogleDeepMind、@googlegemma 和 @sundarpichai。

系统层面的成果立即落地：此次发布不仅作为研究成果，还标志着基础设施的进步。@vllm_project 表示，DiffusionGemma 是第一个原生支持于 vLLM 的扩散大语言模型，引用数据表明在单个 H200 上使用 FP8 时，批量大小为 1 时输出速率达到 1200 多 token/秒。@danielhanchen 展示了通过 llama.cpp 本地运行 DiffusionGemma 的方式，使用 GGUF 格式；@UnslothAI 强调了在 18GB 级别的硬件上本地执行的可行性；而 @_philschmid 总结了推理的资源需求，包括 38 亿个活跃参数和 256-token 块去噪。

为什么研究人员关注：扩散式文本生成重新引发了关于迭代优化、约束编辑、中间填充和错误纠正的讨论。多个反应将其视为非顺序解码和优化密集型任务的有前景的研究方向，而非一个产品化的竞争对手；详见 @omarsar0、@mervenoyann 和 @dbreunig。

工具、基础设施和基准：围绕实际工作负载的更多结构

基准测试正从基于偏好的方法转向基于轨迹的代理指标：@arena 详细介绍了 Agent Arena 的方法论，该方法通过挖掘长周期轨迹来获取目标信号，如 bash 错误、工具幻觉和“疯狂”行为，而不是依赖于每一步的人类偏好。这是代理评估的一个重要方向，特别是在任务涉及数十个工具调用和 30 分钟轨迹的情况下。

内存、编排和环境控制持续成熟：多个发布针对代理周围缺失的系统层。@Teknium 推出了基于 GUI 的 Hermes Agent 配置文件，并通过 @Teknium 后续推出了 Write Gate 批准控制，用于内存/技能更新。@weaviate_io 描述了 Engram 中使用组、主题和范围的结构化代理内存。@bromann 主张将客户端/浏览器能力引入代理循环中。@FactoryAI 在 Factory Desktop 上推出了 Missions。

检测、路由和社区工具：@perceptroninc 推出了 Agentic Detection，使用多调用缩放/推理循环进行密集的模糊视觉检测，而不是使用一次性检测器；@vllm_project 强调了 Inferoa，这是一个围绕推理经济优化的社区代理工具；@Azaliamirh 介绍了 DeLM，这是一个去中心化的多代理框架，据报道，使用 Gemini 3-Flash 时，其在 SWE-bench Verified 上的准确率达到了 65.7%，成本不到集中式替代方案的一半。

分布式 Shampoo 与 Muon 仍是一个活跃的优化线程：一个技术上有趣的子线程显示，经过超参数调整并启用伪逆稳定化后，调优后的 Meta DistributedShampoo 在类似速度跑任务中与 Muon 的强基线相匹配。@ arohan 报告称使用普通包 + 调整后验证损失约为 3.2766，而 @kellerjordan0 则反驳称不能称之为“普通”，因为关键的稳定化标志未被记录。这里的有用信息不是“宣布胜者”，而是优化器比较仍然高度敏感于隐藏的实现细节和数值计算。

晚期交互检索获得了更好的内核：@tonywu_71 发布了 late-interaction-kernels，这是用于 ColBERT/ColPali/LateOn 的 MaxSim 融合 Triton 内核，声称在内存占用仅为 PyTorch 一小部分的情况下，数值上与 PyTorch 等效。这在训练和部署多向量检索模型时都应该很重要。

科学和多模态建模：@giffmana 强调了新的研究工作，显示在某些探测任务中，扩散视频模型比 V-JEPA/VideoMAE 更好地线性编码物理信息，挑战了“视频生成模型是愚蠢的物理模拟器”的常见观点。在生物科技领域，@edunov 介绍了 DeCAF-Pearl，这是一个据称比 Pearl 快约 5 倍同时保持质量的流图共折叠模型。在架构研究方面，@ZyphraAI 在 Apache 2.0 许可下发布了 Zamba2-VL，将混合 SSM-Transformer 的想法扩展到 VLMs。

高互动推文（按互动量）

政策 / 治理：@DarioAmodei 的“人工智能指数级增长的政策”是互动量最高的技术/政策帖子，将前沿人工智能的进展速度描述为比机构反应速度更快。

安全 / 安全失败模式：@jsrailton 引起了广泛关注，指出恶意软件作者嵌入核/生物文本以触发 LLM 拒绝并逃避 AI 恶意软件分析——这是攻击者利用安全行为的具体例子。

开源模型：@googlegemma 和 @Google 在 DiffusionGemma 上的推文是最大的纯模型发布帖子。

研究访问规范：@drfeifei 简洁地陈述了学术界的广泛共识：科学进步需要访问最佳工具，包括人工智能。

模型能力信号：@mchlhess 表示 Fable 5 “完全摧毁”了他的基准，成为最常被引用的能力背书之一。

AI Reddit 回顾

/r/LocalLlama + /r/localLLM 回顾

1. 开源权重模型发布：North Mini Code 和 DiffusionGemma

使用 7 天免费试用继续阅读

订阅 Latent.Space 以继续阅读这篇文章并获得 7 天的免费访问完整文章存档的权限。

开始试用

已经是付费订阅者？