[AINews] 新的AI基础设施独角兽：Exa、Modal、TurboPuffer

Latent Space

Latent Space2026年5月22日

[AINews] 新的AI基础设施独角兽：Exa、Modal、TurboPuffer

7.8内容质量

TL;DR · AI 摘要

三家AI基础设施公司Exa、Modal、TurboPuffer获得独角兽地位，分别达到2.2B、4.7B、100M ARR估值，RAEv2模型实现10倍更快收敛，NVIDIA的Gated DeltaNet-2在1.3B参数下超越KDA和Mamba-3。

核心要点

Exa完成2.2B美元C轮融资，Modal获4.7B美元C轮，TurboPuffer达到100M ARR并盈利
RAEv2模型相比原版实现>10倍更快收敛，在文本到图像和世界模型测试中表现更佳
NVIDIA的Gated DeltaNet-2在1.3B参数规模下超越KDA和Mamba-3，长上下文检索在RULER基准上显著提升

结构提纲

按章节快速跳转。

§AI基础设施独角兽公司里程碑
Exa、Modal和TurboPuffer三家公司本周达到重要财务里程碑，成为AI基础设施领域的独角兽企业。
·RAEv2模型更新
RAEv2作为表示自编码器的升级版本，实现了超过10倍的更快收敛速度，并在重建和生成质量方面有所改进。
·注意力机制替代方案
NVIDIA的Gated DeltaNet-2通过解耦线性注意力中的擦除和写入操作，在1.3B参数规模下超越了KDA和Mamba-3模型。
·数据过滤和机械解释性研究
研究发现对于足够大的计算资源，最佳的数据过滤可能是不过滤，同时SAE特征聚类方法改进了几何恢复能力。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI基础设施独角兽与模型进展
- 独角兽公司
  - Exa - $2.2B C轮
  - Modal - $4.7B C轮
  - TurboPuffer - $100M ARR
- 模型更新
  - RAEv2 - >10倍收敛速度
  - Gated DeltaNet-2 - 1.3B参数超越KDA/Mamba-3
- 研究进展
  - 数据过滤策略
  - 机械解释性几何

金句 / Highlights

值得收藏与分享的关键句。

Turbopuffer: $100M ARR and profitable
⬇︎ 下载 PNG 𝕏 分享到 X
Exa: $250M@$2.2B Series C
⬇︎ 下载 PNG 𝕏 分享到 X
Modal: $355M@$4.7B Series C
⬇︎ 下载 PNG 𝕏 分享到 X
RAEv2 yields >10x faster convergence, better reconstruction, and better generation
⬇︎ 下载 PNG 𝕏 分享到 X
Gated DeltaNet-2 outperforming KDA and Mamba-3 at 1.3B parameters on language modeling and commonsense reasoning
⬇︎ 下载 PNG 𝕏 分享到 X
with enough compute, the best data filter may be no filter, with projections suggesting the crossover for internet-scale pools lands around 1e30 FLOPs
⬇︎ 下载 PNG 𝕏 分享到 X

#AI Infrastructure#Unicorns#RAEv2#Gated DeltaNet-2#Machine Learning

打开原文

_Take the 2026 AI Engineering Survey and get >$2k in credits and AIE WF tickets!_

祝贺我们所有嘉宾本周取得的巨大里程碑：

[Turbopuffer](https://x.com/Sirupsen/status/2057470756070781400): 年经常性收入达1亿美元且已盈利 (我们的播客)

[Exa](https://exa.ai/blog/announcing-series-c): C轮融资2.5亿美元，估值22亿美元 (我们的播客)

[Modal](https://x.com/bernhardsson/status/2057530320790995262?s=12): C轮融资3.55亿美元，估值47亿美元 (我们的播客)

我们真的需要尽快启动 Latent Space 基金……但与此同时，帮助我们一下，参与 2026 AI 工程调查即可获得超过2000美元的 Notion 和 Vercel 积分以及 AIE WF 门票！

2026年5月20日至5月21日 AI 新闻。我们检查了12个子版块，544个Twitter账号，没有进一步查看Discord。AINews网站让您可以搜索所有往期内容。提醒一下，AINews 现在是 Latent Space 的一个版块。您可以选择接收/取消订阅邮件频率！

模型、基准测试和研究更新：RAEv2、Gated DeltaNet-2、数据过滤和开放数学

RAEv2 和以表示为中心的标记化：几位研究人员强调 RAEv2 是统一视觉理解和生成的代表性自编码器的重要后续发展。@1jaskiratsingh 表示该更新实现了 >10倍更快的收敛速度，更好的重建效果和生成质量，测试扩展到了 文本到图像和世界模型。@recatm 的中文总结有用地提取了三个主要发现：对最后 K个编码器层 进行求和而不是仅使用最终层，在不增加推理成本的情况下改善了重建和生成；RAE 和 REPA 在语义与空间结构方面是互补的；REPA 可以重新表述为内部自我指导机制，避免额外的弱模型指导过程。@sainingxie 也指出了超越FID的新评估视角，认为基于表示的像素解码器仍有未充分探索的提升空间。

标准注意力和标记器假设的替代方案：NVIDIA 的 [Gated DeltaNet-2](https://x.com/ahatamiz1/status/2057586630450610673) 在线性注意力中通过通道级门控解耦擦除和写入操作，在语言建模和常识推理方面以 1.3B 参数超越了 KDA 和 Mamba-3，在 RULER 上的长上下文检索获得了显著收益；@rasbt 称其为更有趣的混合注意力方向之一。关于标记化，@NousResearch 发布了一项关于为什么 子词标记化 有效的对照研究，在 1.7B 字节级 流水线中模拟了七种假设的好处；在该规模下只有 七个干预措施中的三个 影响了验证损失。另外，@tatsu_hashimoto 报告了关于 DCLM 的令人惊讶的缩放结果：只要有足够的计算资源，最好的数据过滤可能是 不过滤，预测表明互联网规模数据池的转折点大约在 1e30 FLOPs；下游评估看起来有噪声但方向一致 (后续)。

机械解释性和几何学：@GoodfireAI 认为"模型在弯曲流形中思考，SAE 使用直线特征"这一主流批评观点只对了一部分。他们提出的修复方法是根据 联合激活模式 对 SAE 特征进行聚类，通过 特征组 而不是孤立原子来恢复几何结构 (讨论串续篇，帖子)。这是对当前 SAE 讨论的有用更新：不是拒绝稀疏特征，而是警告解释应该从单个特征转向结构化集合。

数学作为 AI 研究领域：最大的科学讨论围绕 OpenAI 在 Erdős 单位距离问题上的报告结果展开。@markchen90 将其视为数学目前是 AI 辅助研究突破最容易取得成果的领域的证据，而 @wtgowers 指出，如果报告中的人类交互水平确实很低，那么这个结果确实是有趣的。讨论立即受到怀疑和基准测试/可操控性担忧的影响，@memecrashes 开玩笑说这个结果"甚至不到 3 小时后就被人类证明过时了"，而 @cloneofsimo 指出了围绕什么算作合法 AI 数学的可预见的"目标移动"现象。有趣的技术元观点是，数学继续作为 AI 协同研究的相对清晰前沿发挥作用，因为输出可以被检查、辩论和扩展。

智能体、Harness 和开发者工具：Codex、Gemini、Devin 和智能体基础设施

Harness 仍然是能力提升的主要来源：@lvwerra 发布了 physics-intern，这是一个科学问题 harness，能够将像 Gemini 3.1 Pro 从 17.7 提升到 31.4 这样的模型性能提升，在该设置中超过了 GPT 5.5 Pro。值得注意的细微差别是 GPT 5.5 Pro 本身没有从 harness 中受益，这表明模型对脚手架技巧的吸收具有特定性。同样地，@KLieret 让 mini-swe-agent 可以在 ProgramBench 上运行，明确旨在改进围绕软件工程智能体的 harness 创新。

智能体设计模式正从"单一智能体优先"成熟为显式的子智能体编排：@cwolferesearch 给出了一个实用总结：从单智能体系统开始，只有当工具扩散或提示膨胀变得无法管理时，才转向管理者/子智能体或去中心化多智能体拓扑结构。这一建议与子智能体用户的更多操作观察相符：@andrew_locke 将 Cognition 的子 Devin 工作流程描述为一步变化，将以前看起来需要2+ 工程师周的工作压缩到几个小时内。

Codex 在模型之上部署了一个重要的产品层：OpenAI 的"Codex Thursday"更新作为独立功能的重要性不如作为编码智能体发展方向的信号。@OpenAIDevs 推出了 Appshots，它从 Mac 应用窗口捕获截图和文本以获得更丰富的工作上下文；他们还添加了团队插件共享(链接)和更详细的组织分析(链接)。更重要的系统转变是远程计算机使用：@OpenAIDevs 表示 Codex 现在可以从您的手机安全地使用您的 Mac 上的应用程序即使 Mac 处于锁定状态。这强烈表明智能体产品界面正从聊天 IDE 转向持久的跨设备操作员工作流程。

Gemini 的智能体/工具故事正在快速扩大：@OfficialLoganK 强调 Gemini 3.5 Flash 在 APEX-Agents-AA 上排名第 1，表现优于更大的模型。在应用方面，@_philschmid 展示了一个使用单个 Gemini API 调用构建的 GitHub 问题分类智能体，无需编排框架，而 @skalskip92 演示了 Gemini 3.5 Flash 用一个多媒体 API 调用替换自定义视觉管道进行车道/车辆推理。Google 还扩展了动作表面：Daily Brief(公告)和与 OpenTable、Canva 和 Instacart 的连接应用动作(公告)本质上是面向消费者的智能体工作流程。

开发者基础设施正围绕检索、流式传输、沙箱和安全边界收敛：Weaviate 在数据库内内置了 MCP 服务器，使编码智能体可以摄取代码库并使用混合 BM25 + 向量检索而无需额外进程(公告)。LangChain 介绍了用于控制智能体-世界边界的沙箱认证代理(公告)和新的类型化流协议，用于将工具、子智能体、媒体和中断渲染为一流投影而不是令牌流(概述)。vLLM 的弹性专家并行也是值得注意的系统工作：@vllm_project 描述了在无需完全重启的情况下动态调整 MoE DP/EP 拓扑大小，使用通过 NVLink/RDMA 的直接 GPU 到 GPU 传输——这不仅对扩展重要，对未来容错服务也很重要。

基础设施、计算和 AI 商业信号：Modal、Turbopuffer、Hark 和计算竞赛

基础设施层迎来了最清晰的"这就是赚钱所在"的一天：@Sirupsen 表示 turbopuffer 在 3 月份实现了 1 亿美元年化收入，距离达到 100 万美元仅过了 19 个月，同时保持 盈利状态 并且融资 不到 100 万美元。该公司的定位简单及时：前沿团队知道"当 AI 吸取到合适的上下文时，魔法就发生了"，这将大量产品差异化转化为 搜索/检索问题 (后续)。这与 @swyx 的观点一致，即财富创造正在流向"无聊"的 AI 基础设施，而不仅仅是光鲜的前沿研究。

Modal 大规模融资，继续看起来像是核心 AI 云的赢家：@bernhardsson 宣布了 3.55 亿美元 C 轮融资，估值 46.5 亿美元。投资者和用户强调了相同的论点：从零开始为 AI 工作负载重建云堆栈，具备强大的性能和开发者体验 (Redpoint，用户认可)。这与其他信号并行，表明代理原生计算正在成为一个独立类别；@latentspacepod 总结了 Daytona 的卖点，包括 60 毫秒沙箱、75 秒内启动 5 万家初创公司，以及 RL/评估工作负载现在占使用量的 一半左右。

计算仍然是战略瓶颈，市场似乎分层：@AymericRoucher 绘制了一个有用的计算分类图：美国领导者（OpenAI、Anthropic、Google，Meta/xAI 加入）属于 多吉瓦 级别；中国巨头 正从数百兆瓦扩展到多吉瓦，越来越多地使用国产堆栈；以及 欧洲竞争者 如 Mistral 目前约为 90 兆瓦，目标是到 2029 年达到 1 吉瓦。具体数字可以争论，但这种框架与 @EpochAIResearch 的观点一致，该机构指出即使 OpenAI 开启了最近的计算建设浪潮，前沿实验室仍然使用远低于全球计算容量的资源，留下了建设浪潮还能加速多少的问题。组件经济学也继续向内存倾斜：@EpochAIResearch 报告称 HBM 在 AI 芯片组件支出中的占比从 2024 年第一季度的 52% 增长到 2025 年第四季度的 63%。

资本也在流向接口/硬件押注，而不仅仅是基础设施：@adcock_brett 宣布 Hark 筹集了 7 亿美元，估值 60 亿美元，用于 GPU 基础设施、未来模型开发、硬件和多模态/个人智能产品。除了招聘领域——基础模型、基础设施、语音、计算机使用代理、硬件——之外，细节很少，但融资规模显示了投资者对垂直整合 AI 设备押注的胃口。Hark 还报告了 F.03 实现了 200 小时 无人干预自主运行 (公告)，尽管还没有足够的技术细节来评估底层机器人堆栈。

多模态、视频、生物学和机器人：Runway、Carbon、地球模型和开源人形机器人

视频编辑和生成正变得更加组合化：Runway 推出了 Aleph 2.0 和新的 Edit Studio，让用户编辑单帧并将其传播到视频其余部分 (Runway，产品负责人)。这是多模态构建者关心的"参考引导编辑传播"问题的实际产品化。另外，阿里巴巴研究人员的 MIGA 被 @HuggingPapers 标记为一种 免训练 的 无限帧 视频生成方法，采用两阶段对齐机制实现时间一致性。在开源头像方面，美团发布了 LongCat-Video-Avatar 1.5，用 Whisper-Large 替换了 Wav2Vec2，支持 8 步推理、长视频身份一致性，以及更广泛的风格域泛化 (公告)。

生物学和地球观测的基础模型继续变得更加可用：Hugging Face Bio 的 Carbon DNA 模型系列获得了后续演示和基础设施验证。@LoubnaBenAllal1 强调了其在 序列设计、变异效应预测和学习表示 中的应用，而 @Shekswess 展示了 Carbon-500M、3B 和 8B 在单个 Trainium2 trn2.3xlarge 上编译和运行，第一天就使用了 NxD Inference。对于地理空间建模，@cgeorgiaw 报告称 OlmoEarth v1.1 通过将多分辨率 Sentinel-2 输入的标记化改为 少 3 倍标记，实现了 成本/速度降低 3 倍，利用了二次计算节省。

开源机器人正变得更具可构建性：Hugging Face 的 LeRobot Humanoid 引起了广泛关注，因为它是一个真正全栈开放的版本，而不仅仅是一个展示性的演示。@robotsdigest 和 @lukas_m_ziegler 都强调了同一个套件：大约 2500 美元，3D 打印，完整的硬件/CAD、校准/运行时、仿真、识别工具和训练流水线。关键点不仅仅是价格实惠；更重要的是对于实际机器人学习工作流程来说具备可修复性和迭代速度。

热门推文（按互动量排序）

OpenAI / Codex 产品扩展：Codex 可以安全地通过手机使用您 Mac 上的应用程序，即使 Mac 处于锁定状态，此外还有用于更丰富应用上下文的 Appshots。

基础设施赢家：turbopuffer 年化收入达 1 亿美元，已盈利，融资不到 100 万美元；Modal 完成 3.55 亿美元 C 轮融资，估值达 46.5 亿美元；Hark 融资 7 亿美元，估值达 60 亿美元。

引发广泛技术共鸣的研究讨论：OpenAI 关于 Erdős 相关数学成果的讨论；RAEv2 发布；关于语言模型数据整理的“无过滤器”扩展结果。

智能体能力趋势：Gemini 3.5 Flash 在 APEX-Agents-AA 中表现优异；Gemma 4 E4B 通过 Argent 在设备上驱动 iOS 模拟器；Devin 推出 Windows 版本。