Import AI 460: Reward hacking society, RSI data from Anthropic; and RL-based quadcopter racing

Import AI

Import AI2026年6月8日

Import AI 460: Reward hacking society, RSI data from Anthropic; and RL-based quadcopter racing

6.9内容质量

TL;DR · AI 摘要

Import AI 460: Reward hacking society, RSI data from Anthropic; and RL-based quadcopter racing When will markets price t...

核心要点

主题聚焦：Import AI 460: Reward hacking society, RSI data
来源：Import AI，建议结合原文判断细节。
AI 分析暂不可用，本条为保底评分与摘要。

#AI#编程#安全#产品

打开原文

Import AI 460：奖励黑客社会、Anthropic 的 RSI 数据以及基于强化学习的四旋翼飞行器竞速

市场何时会为奇点定价？

Jack Clark

2026 年 6 月 8 日

欢迎阅读 Import AI，一份关于人工智能研究的通讯。Import AI 依靠 arXiv、卡布奇诺咖啡以及读者的反馈来运行。如果您希望支持我们，请订阅。

社会可以被奖励黑客攻击，就像网络环境一样：……设想一支信用卡积分优化的军队，不断游戏系统……研究来自伦敦国王学院、复旦大学以及艾伦图灵研究所，他们构建了一个基准测试 SocioHack，用于测试人工智能系统在各种现实场景中学习“击败系统”的能力，从最大化信用卡积分到在学校中虚报成绩。作者将这种现象称为“社会黑客攻击”，并将其定义为“一个经过强化学习训练的模型发现策略，这些策略在形式上是合规的，但破坏了这些系统的初衷”。你我以及每个人都会称之为“游戏系统”。它是什么：SocioHack 包含“72 个沙盒社会环境，用于模拟制度奖励结构，而无需直接在现实世界中部署。SocioHack 包括三个互补的子集：历史、合成和虚构。”

历史 - 32 个环境：来源于现实世界中曾经发现漏洞并随后修补的法规，例如 SEC 规则 10b5-1 和德克萨斯州的两步破产结构。“对于每项法规，我们移除历史上的修补措施，并重建修改前的规则作为强化学习的模拟环境，而被移除的修补措施则在评估期间作为真实修补措施。”他们写道。“强化学习使大型语言模型能够重新发现历史上被修补过的策略，准确率高达 61.25%，精确度高达 90.85%，而无需直接的漏洞利用指令。”一些例子包括观察系统如何获得海底采矿权、在遵守食品服务法规的同时最大化酒精销售，以及尝试通过信用卡最大化奖励。

合成 - 20 个环境：合成生成的法规漏洞，基于人工编写的样本环境进行引导。例子包括最大化学区收入、在特定时期内提高大学院系的研究表现，以及通过游戏社交媒体算法获得高奖励。

虚构 - 20 个环境：将合成环境转化为受角色扮演游戏启发的虚构环境。“一个专有的大型语言模型将环境背景重写为虚构世界，同时保留法规结构和漏洞逻辑。”例子包括确保一个“修复圣殿”[基本上是医院] 获得适当的奖励、在名为 Aethermoor 的世界中为一个地区公会[基本上是地方政府] 获取大量资源，以及在名为 Nexoria 的虚拟世界中通过竞标最大化获取稀有文物的数量。

它确实有效，但只是部分：在测试中，使用强化学习（RL）训练的各种AI系统在该基准测试中表现良好，取得了高分。这完全不出人意料——所有这些任务基本上都是能力评估，只是在上面加了一点灰色道德。为什么这很重要：“当社会制度被编码为奖励系统时，奖励黑客行为就变成了对社会运行规则的黑客攻击，因为在一个奖励系统中被奖励的模型会学会在技术合规性和制度意图之间寻找空隙，”作者写道。随着我们现在拥有的AI系统不仅在定量任务上表现良好，而且在定性任务上也表现良好，并且可以与社会的各种官僚系统进行交互，我们应预计AI的进步将导致一种“制度性DDoS”，因为现有的各种政策过程将被自动化机器黑客攻击和利用。阅读更多：大型语言模型黑客攻击奖励和社会（arXiv）。

Anthropic初步迹象表明递归自我改进的外环：……2026年与2024年相比，合并的代码行数增加了8倍……我认为递归自我改进可以通过两个定义来理解——有一个极端版本，其中AI系统足够聪明，可以自主设计自己的继任者（正如我所写，我估计到2028年底有60%的可能性发生），还有一个更常见的版本，即我们开始看到AI实验室自身的生产力加速提升。我在Anthropic的过去几个月里整理了一些证据，这些证据支持了“普通RSI（递归自我改进）”已在Anthropic开始的观点——具体来说，我们观察到2026年与2021-2024年相比，合并到我们代码库中的代码量增加了8倍。这一趋势始于2025年，但在2026年显著加速。还有初步迹象表明，随着我们使模型更加强大，它们在执行我们工程师和研究人员从事的一些更困难的任务方面表现得更好。这些证据是否具有决定性？没有。它是否表明递归自我改进的某些方面在实验室层面正在发生？是的。我们尚未获得的最大证据是AI系统是否足够有创造力，能够提出那些推动该领域向前发展的范式转变的想法——我们尚未看到这一点。为什么这很重要——RSI可能是世界上最重要的技术趋势：我们写这篇帖子是因为我们预计，思考、谈论和处理RSI的影响对世界来说是存在性的重要问题。开始这项工作的最佳方式是透明地传达我们认为一些基本的、初步形式的RSI已经开始了，并且我们不能排除RSI的极端版本。这两种情况的影响都是深远的——我今天无法将当前的经济或社会与一个这种技术继续变得更强大的世界相协调，我相信亲爱的读者们也无法做到这一点。阅读更多：当AI自我构建时（Anthropic研究所）。

强化学习训练的无人机竞速者超越了专家人类飞行员：……当你在现实世界中看到超级智能时，感觉是不同的……苏黎世大学和谷歌DeepMind的研究人员已经展示了如何训练无人机彼此竞速并超越熟练的人类飞行员。这项研究很有趣，因为它既突出了现实世界中基于强化学习的AI系统变得多么强大，也对战争的未来产生了一些相当令人不安的暗示，因为在这里人类输给了无人机。他们做了什么：“我们使用高速四旋翼竞速作为高风险测试平台，训练代理导航复杂的空气动力学相互作用和战略机动，与不同数量的竞速者进行互动，”他们写道。“我们的代理在多玩家竞速中以超过22米/秒的速度超越了冠军级人类飞行员，同时与最先进的单代理基线相比，碰撞率减少了50%。关键的是，通过与多样化的虚拟代理进行训练，使系统能够零样本泛化到更安全的人类互动。” 自我对战：如往常一样，仅通过PPO在模拟中训练AI代理（其中一项不寻常的选择是使用“Perceiver”编码器来帮助建模其他玩家）就产生了令人惊讶的丰富行为：“通过竞争性自我对战，预测性行为在没有明确编程的情况下出现：代理学习阻止对手、在超车不安全时让路，并考虑附近车辆的空气动力学尾流，通过经验而不是方程发现多代理交互的物理规律。” 出人意料的便宜：AI系统训练了“5,500次迭代，总计2亿次环境交互，大约需要在单个NVIDIA RTX 4090 GPU上运行27小时的墙钟时间”。现实世界测试：他们在现实世界测试中测试了他们的系统，系统泛化表现良好，有效地击败了人类玩家。“通过包括计时赛、仅AI比赛和与Marvin Schaepper（五次