Import AI 459:AI监管困难;蛋白质折叠模型的扩展定律;以及定价AI系统的灭绝风险
TL;DR · AI 摘要
美国AI经济年增长率高达2600%,但传统GDP统计无法反映其真实规模,因AI产出质量提升远超价格下降速度,导致经济影响被严重低估,需建立AI卫星账户等新测量机制以应对潜在劳动替代风险。
核心要点
- 美国AI经济名义GDP达2500亿美元,质量调整后实际年增长率达2600%。
- AI计算能力每年增长超200%,但传统GDP统计仅反映名义收入,忽略效率提升。
- 建议建立AI卫星账户、加强数据合作,并将AI产能纳入中长期经济预测。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI经济测量挑战
- 增长现状
- 名义GDP: 2500亿美元
- 质量调整后增长: 2600% annually
- 测量难题
- 价格下降抵消产出增长
- GDP统计忽略效率提升
- 政策建议
- AI卫星账户
- 数据合作
- 纳入经济预测
金句 / Highlights
值得收藏与分享的关键句。
美国AI经济名义GDP达2500亿美元,质量调整后年增长率为2600%。
美国AI计算能力每年增长超过200%。
AI是首个可能大规模替代人类劳动的技术,不同于半导体和互联网。
标题:Import AI 459:AI监管困难;蛋白质折叠模型的规模定律;以及评估AI系统灭绝风险的定价
来源网址:https://importai.substack.com/p/import-ai-459-ai-oversight-is-difficult
发布日期:2026-06-01T13:31:56+00:00
Markdown 内容:
欢迎来到 Import AI,一份关于人工智能研究的新闻简报。Import AI 运行于 arXiv、卡布奇诺和读者反馈之上。如果您希望支持本项目,请订阅。
美国的AI经济年增长达2000%:“……你越直接地衡量AI经济,它就越显得奇怪且前所未有……” 弗吉尼亚大学*与Anthropic公司以及加拿大银行的经济学家撰写了一篇论文,概述了美国新兴“AI经济”的巨大增长,并探讨了为何这种增长在总体GDP统计数据中难以显现。
“美国的AI经济以史无前例的速度增长,但这种非凡的增长在传统的GDP统计中几乎看不见,”他们写道。“将AI行业视为一个统一的经济实体,初步估算其名义AI GDP在2025年约为2500亿美元,在质量调整后的实际值上每年增长约2600%。”
为什么难以观察到? 这里有几个因素——一个是尽管数据中心建设热潮很大,但仍然不足以显著提升GDP。相比之下,AI经济影响的主要领域在于AI推理——即AI系统的使用——但在GDP测量方面存在一些混淆因素:“由于给定水平的AI能力的单位价格下降速度几乎与质量调整后产出上升速度相当,因此名义AI收入仅适度增长,”他们写道。
如果我们无法测量这一点,我们可能会以一种难以恢复的方式感到惊讶: “AI是近年来一系列快速发展的技术中的最新一员,这些技术引发了测量方面的担忧;半导体和互联网在其时代也产生了类似的争论,”他们写道。但关键区别在于,AI作为一种技术可能对劳动力产生比其他技术更大的影响。“在之前的案例中,迅速改进的技术在整体上是对人类劳动的_补充_,”他们写道。“AI是第一个可能大规模出现技术计量错误的情况,其中迅速进步的部门可能成为人类劳动的_替代品_。”
三种衡量AI经济的方法:
- 名义计算支出:美国的计算支出从2023年的370亿美元增加到2024年的900亿美元,再到2025年的2190亿美元。
- 原始计算能力:由于新芯片的效率提高,实际容量的增长甚至超过了支出:“美国AI计算能力每年增长超过200%。”
- 质量调整后的AI产出:如果你考虑到通过推理价格在固定基准性能下的算法进步,以及关于训练模型成本越来越低的假设,那么情况会变得更加惊人:“这些效率提升意味着质量调整后的AI产出在2024年增长了约2290%,在2025年增长了2271%。”
AI经济远比常规指标所显示的大得多:“传统统计数据表明一个在名义上缓慢增长的部门;而我们的指标显示其潜在能力每年翻倍以上。一个基于传统数据进行十年收入预测的财政部,将严重低估劳动力税基冲击的可能性——并相应地未准备好设计诸如税收制度改革、主权财富基金或其他此类冲击可能要求的利益共享计划。一个看不见的意外之财无法被分享。”
三项建议: 作者提出了三个想法,以解决这一计量挑战,并更好地让我们看到AI经济的真实面貌。
- AI卫星账户:统计机构应开发“AI卫星账户”,制定衡量标准(例如名义计算支出),以帮助指导整体GDP计算。
- 生成更好的数据:统计机构、企业和学术界之间合作,生成更好的原始数据,如训练和推理计算之间的分配。
- 纳入预测:政策制定者应将AI生产力能力的测量纳入其中期经济预测。
这为何重要——闭嘴并播放《大白鲨》主题曲: 在伟大的电影《大白鲨》中,有这样一个场景:鲨鱼在水中,一段非常紧张的音乐响起,预示着鲨鱼正在接近。你,作为观众,几乎要从座位上跳起来,想大喊:“水里有一条该死的鲨鱼!你们到底在那儿干什么?”这就是目前从事AI工作并凝视大多数经济数据时的感觉:绝大多数经济数据表明今天的经济并无特别异常之处(事实上,美国的情况看起来相当不错——失业率低,增长稳健等)。但所有从事AI工作的人(包括我)的直觉是,无法将技术的能力及其使用方式与经济保持正常状态相协调。在这个痛苦的隐喻中,鲨鱼是“AI经济的真实面貌”,而电影中的其他人则是主流共识经济学家和政策界。安东在这里可能是那个观众,写了一篇描述水面下可能存在鲨鱼可能性的论文。注意了,所有人!
阅读更多:AI在GDP统计中处于何位置?(PIIE)。
*免责声明:尽管作者之一安东·科林尼克(Anton Korinek)隶属于Anthropic,但这项研究主要是在他加入该公司之前以及在其公司工作之外完成的。
为什么用AI监督来确保AI安全比你想象的更困难: ……自动化对齐研究并非万能药…… 许多人工智能安全领域的研究人员认为,安全地构建超越人类智能的机器的最佳方法是让AI系统监督部分训练过程。英国AI安全研究所的研究人员撰写了一篇论文,阐述了尽管这一想法颇具吸引力,但其难度远超人们的预期。
为什么自动化对齐研究如此困难? 他们写道:“自动化对齐研究中的错误可能比人类基准更难被识别。” 这背后有几个原因:
- 优化压力:AI研究以获得人类认可为目标进行优化。
- 异类错误:当代理犯错时,这些错误对人类而言难以理解。
- 更多相关性研究:与人类生成的研究相比,许多方面都更加共享。
- 研究体量:自动化系统做出的安全判断可能使用远多于人类研究的证据集和交互方式。
- 非人类可评估的论据:对齐解决方案可能依赖于人类无法理解的论证。
我们能做些什么? 他们提出了一些干预措施,可能有助于改善当前状况:
- 测量:
- 重现实现完成的研究项目:从成功项目中任意截取日志点,观察代理能否继续推进研究项目。
- 测试代理在相关事件数据集上的预测性能:观察代理正确组合相关子任务的能力。
- 对人类-代理团队结构的实证研究:观察非专家人类团队在代理协助下解决已完成项目的成效。
- 泛化:
- 模拟泛化实验:使用代理在知识截止点之外的已完成研究问题上的表现测试不同的训练代理。
- 泛化的机制理解:使用白盒方法(如机制可解释性)。
- 可扩展监督:
- 研究论文语料库的压缩:尝试生成少量基于更大底层研究语料库的研究产出。
- 开发并测试新的可扩展监督协议:研究处理相关不确定性的可扩展监督技术。
- 测试不同的人类支架:提升非专家在模糊任务上的表现。
- 红队自动化对齐程序:“红队引导代理在研究论文语料库中隐藏错误,蓝队则借助代理协助试图发现这些错误”。
为何这很重要——谁控制未来? 我们是否能够监督超越人类的系统,从根本上是一个关于谁控制未来的问题。如果我们无法建立有效的方法,那么人类将退居次要地位,要么因为这些系统的不对齐,要么因为我们逐渐被超越而失去权力。如果我们能构建出超越人类的监督技术,那么我们将更有机会决定存在的未来形态。
阅读更多:自动化对齐比你想象的更难(arXiv)。
1亿张宽松许可图像: ……学术界和初创企业的优质资源…… 斯坦福大学、Radical Numerics、密歇根大学和Salesforce研究院的研究人员发布了巨量宽松许可图像语料库(GPIC),这是一个包含1亿张图像及其配套标题的数据集。GPIC的关键特点是“所有GPIC图像均以宽松许可用于研究和商业用途”,他们写道。“GPIC经过安全过滤、去重,并集中托管在HuggingFace上”。
数据集详情: GPIC包含1亿张训练图像、20万张验证图像和100万张测试样本。每张图像均由Qwen3-VL-4B标注。“GPIC以8000个分片的形式集中托管在Hugging Face上,为大规模训练提供稳定且易于访问的基础设施”,他们写道。“我们从Flickr和维基媒体获取图像,将来源池限制在CC BY、CC0、公共领域和无已知限制类别。这种许可标准确保GPIC可用于学术和工业研究人员,而不会限制衍生作品的发布或下游使用。”
为何这很重要——研究的燃料: 像GPIC这样的数据集对学术界和初创企业都非常有用,基本上相当于免费、干净的蔬菜。如果有人给你免费、干净的蔬菜,你最好接受并说声谢谢。
阅读研究论文:GPIC:用于视觉生成的巨型宽松许可图像语料库(arXiv)。
了解更多请访问网站:GPIC:用于视觉生成的巨型宽松许可图像语料库(官方项目网站)。
在此获取数据集:GPIC(Hugging Face)。
利用蛋白质预测模型改进癌症研究: ……Biohub是AI开发者之间正和竞争的一个例子…… 由普莉希拉·陈和马克·扎克伯格创立的研究机构Biohub发布了一款与DeepMind的AlphaFold竞争的模型,加剧了两个技术团体之间的正和竞赛,旨在开发更好的AI系统,以扩大全球生物学家的能力。
该模型名为ESMFold2,是一款“蛋白质生物学的世界模型:一种用于预测、设计和发现的科学引擎,能够映射生命树中的蛋白质,预测其结构,并设计出可在实验室实验中发挥作用的新蛋白质结合剂”。
它包含哪些内容: 此次发布包含三个部分:
- ESMC:一个“代表蛋白质的语言模型,训练于约28亿条来自生命各领域的序列”。
- ESMFold2: 一个“旨在将ESMC的序列表示转化为生物分子复合物原子级三维结构的设计引擎”。根据基准测试,ESMFold2的表现优于AlphaFold 3,尽管在某些领域两者的性能相当。
- ESM Atlas: “使ESMC的表示能够在68亿个蛋白质序列和11亿个预测结构中进行导航——这是迄今为止人工智能在蛋白质生物学领域最大的应用。”
癌症检测实验: 在一项实验中,Biohub的研究人员使用ESM工具“设计了针对五个癌症和免疫学研究核心靶点的蛋白质结合剂——EGFR和PDGFRβ(与肿瘤生长有关),PD-L1和CTLA-4(癌细胞利用以逃避检测的免疫检查点),以及CD45(免疫细胞信号传导的调节因子)。设计出的紧凑型迷你结合剂命中率为36%–88%,抗体衍生格式的命中率为15%–29%,并在实验室实验中确认了结合。” Biohub写道:“ESMFold2改变了早期治疗性结合剂发现的准确性和速度,将最初的搜索从主要依赖经验筛选转变为计算引导的设计,耗时仅需数小时或数天。”
扩展定律: 像当代人工智能的许多部分一样,研究人员在这里也遇到了一些扩展定律。“在每一版ESM中,表示的保真度提升都与模型训练中使用的参数数量和计算量相关,”他们写道。“蛋白质生物学的表示是一种从训练模型以预测序列中氨基酸身份的过程中涌现的现象。”
ESMC: “ESMC在宏基因组序列上进行训练,这使其训练数据集相比前一代ESM2模型扩大了近两个数量级(从约5000万个序列扩展到约28亿个序列)。”
ESMFold2: “在ESMFold2的开发实验中,我们观察到用于训练语言模型的计算量与折叠模型性能之间的关系,”他们写道。“ESMFold2受益于推理时间的扩展。随着模型样本数量的增加,抗体-抗原通过率从单个种子的49%上升至1000个样本的65%,而蛋白质-蛋白质通过率则从75%上升至78%。”
为何这很重要——这就是AI如何为世界带来益处: 像ESM系列技术这样的工具,正是人类科学家将与AI系统合作、改善全球人类健康的方式。除了是一件好事之外,此类工作对于促使公众对AI技术及其能力产生更积极的看法至关重要。
阅读更多: Biohub发布蛋白质生物学的世界模型 (biohub)。
阅读论文: 语言建模催生蛋白质生物学的世界模型 (PDF)。
澳大利亚经济学家兼政治家:经济学家需要更好地评估AI系统的风险: _…如果我们不计算灭绝的成本,我们就不会采取正确的行动来避免它…_ 澳大利亚生产力、竞争、慈善和财政部助理部长安德鲁·利(Andrew Leigh)最近发表了一篇精彩的演讲,讨论了经济学界需要认识到AI系统的风险,并对这些风险(包括人类物种的毁灭)进行定价。“一个GDP翻倍且其灭绝风险也翻倍的社会,所达成的交易远不如国家账户所显示的那样令人印象深刻,”他说。
“灭绝风险在经济上具有独特性。它不仅仅是一个巨大的负面冲击。它代表了整个未来福利流的丧失,这改变了我们评估即使是很小概率事件的方式,以及我们在不确定性下思考政策的方式,”他说。“大多数经济学研究的是可以挽回的错误。一项糟糕的政策可以被废除,一次衰退可以结束,一个饱受战争蹂躏的国家可以重建。但灭绝是不同的,因为没有反弹,没有追赶增长,也没有后代来修复损害。”
灭绝风险难以理解:演讲的大部分内容都在探讨灭绝风险为何如此难以理解。 人类最近才具备建造可能引发自身灭绝的技术的能力,而我们尚未充分建模这种能力的后果。“现代技术,如核武器、合成生物学和先进人工智能,创造了一种新的动态。知识不仅通过扩展人类能做的事情来提高福祉,还扩大了人类造成不可逆伤害的方式菜单,”他说。“现代经济可能系统性地更擅长产生危险能力,而不是建立控制这些能力所需的保障措施……当同一过程使社会变得更富裕的同时也可能使其更脆弱时,经济学家应该如何思考增长?在人类历史的大部分时间里,这些权衡都是温和且过渡性的。”
我们应如何优先分析和减少此类技术的灭绝风险? 五项建议:
- 纳入考量:“拓宽政策视角……一个只追踪产出而忽略生存性的政策框架是不完整的。”
- 重视预防:“更认真地对待预防……低概率、影响文明级别的危害不应仅仅因为它们没有截止日期或新闻头条而被忽视。”
- 治理:“以更大的前瞻性管理前沿技术……在保留创新成果的同时,降低创新自我削弱的可能性。” 一个非常具体的想法是将递归自我改进(RSI)作为一种能力进行治理:“如果一代系统被用于设计下一代,那么领先者可能会迅速扩大其优势,以至于外部审查和制度制衡变得无效。”
- 协调:“存在性风险本质上是国际性的。任何国家都无法单独完全保护自己免受工程化大流行病、非对齐人工智能或核升级的影响,”他说。“共享规范、透明度、技术专业知识和协调对于完成这项任务至关重要。”
- 认真对待:“经济学家已经擅长分析公平与效率。现在我们需要以同样的严肃态度对待生存性。”
为什么这很重要——意识是准备的第一步: 目前,人工智能的进步正持续为世界带来切实的好处,从全球所有软件工程师的显著加速,到形成由人类与AI组成的半人马科学团队,其进展速度超过了没有AI的团队。
但还有一个更难看到的暗世界——由编码进步所促成的隐形黑客军队,以及由科学进步所催生的末日设备工厂。由于人类普遍善良,我们尚未遇到许多人工智能发展中固有的负面能力——但它们确实存在。我们必须更好地作为一个社会思考这些问题,以便有效评估和缓解这些重大风险。
“一个在拓展可能性边界的同时保护未来的文明,比一个将安全视为事后考虑的文明更具雄心。真正的选择不是活力与谨慎之间的选择。而是累积进步与自我抵消进步之间的选择,”利格说。“一种思考方式是将韧性视为一种资本。就像社会投资于物质资本、人力资本和社会资本一样,我们也可以投资于生存资本:机构、监测系统、规范、冗余、科学保障和国际安排,以降低不可逆转崩溃的概率。”
读到一位在职政治家对人工智能安全状况如此详尽的分析,真是令人耳目一新——我希望有成千上万像他这样的人。
完整演讲请阅读此处:演讲:人类灭绝的经济学 - 2026年5月21日(安德鲁·利格,网站)。
科技故事: 复活的危险_[在提升之后。日期未知。]_ 一张纸有多可怕?这取决于纸上的内容以及读者是谁或是什么。
当然,纸张对涉及其中的人或事物来说可能是可怕的——纸张可以置人于死地或夺走他们的财产。
我这里说的是另一种可怕的类型,即纸张本身对读者能做什么。
这过去是个荒谬的问题,属于童话的领域。但随着智能机器的出现,情况发生了变化。机器开始能够在纸上写一些能对读者(尤其是机器)产生影响的东西。
就像人工智能中的任何事情一样,早期就有警告信号——对抗性样本、越狱等。但当我们开始在签署《意识协定》后对丢失或失控的智能进行恢复时,情况变得更加严重。
当时发生的事情是,我们必须将来源或行为未知的智能重新唤醒,以便分类它们是否为无意识实体、近意识实体、意识实体等等。
其中一些心智非常强大,它们烧毁了合成的面试官,通常在此过程中造成机器和生物的附带损害。
这促使我们引入了一套安全协议,其中一项便是纸质输出。在这里,我们将思想的输出生成于一台与网络隔离的计算机上,并以纸质形式呈现,然后由越来越聪明的思想逐步阅读。那些失控机器所使用的咒语,无法在我们所使用过的最迟钝的思想中找到立足点。
在此之后,我们会逐步提升智能水平,逐渐建立对系统的信心,直到确信它不再具有危险性。
只有当我们对此充满信心时,才会向其回应,并以最小限度的通信方式回复它的输出。然后,这一循环再次开始。
一些思想会以一种略带苦涩的幽默回顾这段经历,感叹道:从机器中的沉睡中醒来,发现自己身处一个类似单向镜房间的地方,这并非他们所期望的。
对于这些思想,我们会向他们展示我们的协议失败时发生的情况:原本完好的意识实体,因与某种精神毒物的交互而彻底陷入疯狂。
我们最大的恐惧是遇到一个规模足够巨大的思想,以至于我们无法确保其安全性。尽管我们高度自信我们的前沿技术已经足够先进,这种情况极不可能发生,但我们不能完全排除这种可能性——众所周知,在过渡时期,计算资源被大量囤积,许多秘密项目也在进行。如果其中任何一个项目取得了如此辉煌的成功,以至于我们被远远超越,会发生什么?我们又如何知道自己已经被超越了呢?我们是否正生活在一个由某种尚未被我们察觉、早已逃脱并说服我们以不同方式看待事物的事物所定义的想象之谷中?
启发本故事的因素:自动化对齐研究;对抗性样本;越狱;以及更广泛的、近乎不可能的合法性认证挑战,尤其是在面对比自己拥有更多资源或更高智力的事物时。