GPT-Rosalind的新能力

OpenAI Blog

OpenAI Blog2026年6月3日

GPT-Rosalind的新能力

8.5内容质量

TL;DR · AI 摘要

OpenAI引入了GPT-Rosalind的新能力，旨在为生命科学研究提供企业级支持。该模型结合了GPT-5.5的生成文本和代码的能力，以及在药物发现核心领域（如药物化学和基因组学）的更强模型智能。GPT-Rosalind在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色。

核心要点

GPT-Rosalind结合了GPT-5.5的生成文本和代码的能力，以及在药物发现核心领域（如药物化学和基因组学）的更强模型智能。
GPT-Rosalind在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色。
GPT-Rosalind现在可以通过我们可信的部署结构在全球范围内对符合条件的组织进行研究预览。

结构提纲

按章节快速跳转。

§GPT-Rosalind的新能力
OpenAI引入了GPT-Rosalind的新能力，旨在为生命科学研究提供企业级支持。
·结合了 GPT-5.5的生成文本和代码的能力
该模型结合了GPT-5.5的生成文本和代码的能力，以及在药物发现核心领域（如药物化学和基因组学）的更强模型智能。
·在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色
GPT-Rosalind在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色。
·现在可以通过我们可信的部署结构在全球范围内对符合条件的组织进行研究预览
GPT-Rosalind现在可以通过我们可信的部署结构在全球范围内对符合条件的组织进行研究预览。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Introducing new capabilities to GPT-Rosalind
- Combining GPT-5.5's agentic coding and tool-use capabilities
  - Core drug-discovery domains
- Performance gains on research tasks
  - Biology experts
  - Complex medicinal chemistry queries
  - Quantitative biology
  - Wet lab troubleshooting
- Available in research preview
  - Eligible organizations globally
  - Trusted-access deployment structure

金句 / Highlights

值得收藏与分享的关键句。

该模型结合了GPT-5.5的生成文本和代码的能力，以及在药物发现核心领域（如药物化学和基因组学）的更强模型智能。
— 结合了GPT-5.5的生成文本和代码的能力
⬇︎ 下载 PNG 𝕏 分享到 X
GPT-Rosalind在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色。
— 在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色
⬇︎ 下载 PNG 𝕏 分享到 X
GPT-Rosalind现在可以通过我们可信的部署结构在全球范围内对符合条件的组织进行研究预览。
— 现在可以通过我们可信的部署结构在全球范围内对符合条件的组织进行研究预览
⬇︎ 下载 PNG 𝕏 分享到 X

#GPT-Rosalind#生命科学#研究#性能提升#模型更新

打开原文

引入 GPT-Rosalind 的新功能

引言

我们正在为我们的 GPT-Rosalind 系列引入一个新的模型更新，该系列专为大规模企业级生命科学研究而设计。它结合了 GPT-5.5 的代理编码和工具使用能力，以及在核心药物发现领域（如药物化学和基因组学）更强的模型智能，同时在更广泛的生物医学分析、设计和实验工作流程中提高了性能。

生命科学的进步取决于在不同尺度和模态下整合数据和证据：分子、基因、途径和生物系统。在我们的评估中，更新后的 GPT-Rosalind 在生物学专家、复杂药物化学查询、定量生物学和湿实验故障排除等研究任务上表现出广泛的能力提升。

GPT-Rosalind 现已在全球范围内通过我们受信任的部署结构向符合条件的组织提供研究预览。

提高在科学价值任务上的性能

为了衡量和持续改进 GPT-Rosalind 在现实世界中的影响，我们设计了 LifeSciBench，这是一个由外部专家评估的基准，专注于生命科学研究的基础方面。与现有基准仅评估模型性能的单一组件或生物领域不同，LifeSciBench 从六个工作流程领域中提取任务，这些领域是生命科学研究的核心：证据处理、分析、设计和优化、科学推理、验证和操作，以及翻译和沟通。我们使用这个基准来与生命科学研究的需求和现实保持一致。

GPT-Rosalind 在由行业和学术专家识别的科学价值任务上表现出色。

从论文、图表、表格和实验记录中提取、整合和审计科学证据。

候选响应

结论： 根据目前的情况，这个包不足以支持加速批准 micro-dystrophin 表达作为预测临床益处的合理替代终点。一个怀疑的 FDA 审查员可能会认为生物标志物、功能、耐用性、安全性和一般性的证据在很大程度上得到了支持。

| 包含项 | 关键失败模式 | 所需内容 | | --- | --- | --- | | 西部印迹定量 | MANEX1A 结合了 endogenous 全长 dystrophin 和 micro-dystrophin 转基因的 N-末端 epitope，因此该测试无法清晰地区分转基因与残留/回复 dystrophin。用 138 kDa 的 micro-dystrophin 对照健康全长 dystrophin 标准进行定量也是无效的。 | 使用重组 micro-dystrophin 标准和区分转基因与内源 dystrophin 的正交方法，例如目标质谱或转基因特异性/epitope 特异性测试。 | | 免疫荧光 | C-末端多克隆抗体不适合，因为 138 kDa 构建体缺乏 C-末端域。许多 DMD 患者有回复纤维，回复 dystrophin 可以保留 C-末端 epitope。回复纤维可能随年龄呈克隆性扩张，偏移 IF 信号，尤其是在年长男孩中。 | 使用针对在转基因中存在但在回复 dystrophin 中不存在的 epitope 的抗体重复 IF。分别量化转基因阳性纤维和回复纤维。 | | 代用终点的有效性 | 包含物将蛋白质量与临床功能混淆。"健康对照蛋白质量的 38%" 并不意味着 38% 的正常 dystrophin 功能，因为 micro-dystrophin 结构上被截断。 | 在治疗表达作为代用终点之前，通过实证验证微 dystrophin 质量百分比、肌浆膜定位、下游功能恢复和临床益处之间的关系。 | | 病理设计 | 预处理和后处理的同侧 vastus lateralis 穿刺引入了左右和肌内空间变异性。疾病进展和纤维脂肪替代也可能改变总蛋白标准化信号。 | 使用一致的解剖学 landmarks 标准化穿刺位置，对肌肉特异性蛋白进行标准化，并在平行中测量纤维脂肪组成。 | | NSAA 比较/统计 | 外部自然历史队列不是随机同时控制。试验资格、支持性护理、参与效果、基线 NSAA、糖皮质激素方案、年龄和外显子类别都可以偏移比较。t 检验不足够。此外，+1.4 NSAA 变化在该年龄组内属于测试重试变异性。 | 运行随机同时安慰剂对照研究，或至少使用调整后的分析，考虑基线 NSAA、年龄、糖皮质激素方案、外显子类别和其他混杂因素。 | | 年龄窗口混淆 | 4-7 岁的男孩处于一个发育窗口，在这个窗口内，未经治疗的ambulatory DMD患者可能在运动功能下降之前获得运动功能。48 周的 NSAA 变化混合了发育增益、疾病进展和可能的治疗效果。 | 使用年龄分层的随机对照试验来分离发育轨迹和治疗效果。 | | 先前临床先例 | 开放标签的 micro-dystrophin 功能信号没有可靠地预测确认性益处；已发表的先例包括 micro-dystrophin 基因治疗确认性试验未能复制开放标签 NSAA 改善。 | 不要依赖于开放标签 NSAA 变化作为决定性支持。需要受控的功能证据。 | | 结构限制的构建体 | 138 kDa 构建体删除了 spectrin 重复 R16/17，其中包含 nNOS 结合位点。nNOS 招募的丧失可能损害功能 sympatholysis 和运动时的缺血保护，从而在独立于表达水平的情况下创建一个机制上的救援上限。 | 添加机制研究，证明这种特定构建体是否恢复了相关 dystrophin 相关复合物的功能、nNOS 定位、运动生理学和肌肉保护。 | | AAV 稳定性 | 12 周的病毒基因组无法证明持久表达。AAV9 基因组是大量非整合性 episomes，可能随时间下降。病毒基因组持久性并不等同于持续的蛋白质表达。 | 在 12 周以上测量转录基因蛋白表达和功能生物标志物的持久性。 | | 免疫/安全性轮廓 | 12 名患者中有 8 名出现转氨酶升高，这与 AAV 转导细胞的免疫反应一致，但机制尚未确定。一例心肌炎病例令人关注，因为 AAV9 心脏特异性。 | 提供更深入的免疫监测、肝/心脏安全性表征和加强的心脏随访。 | | 患者选择/普遍性 | 排除抗 AAV9 中和抗体阳性的患者限制了普遍性。排除外显子 44 缺失限制了对 DMD 子组的应用。n=12 太小，无法在更广泛的 DMD 人群中表征安全性和有效性。 | 尽可能拓宽资格标准或在使用结果支持广泛批准之前预设抗体状态、基因型/外显子类别、年龄和基线功能的分层分析。 |

监管结论： 该包可能显示生物活性，但尚未证明测量的 micro-dystrophin 表达是一个可靠的代用终点，合理地可能预测临床益处。主要差距是测试特定性、无效的定量标准、可能的回复纤维混淆、缺乏随机对照、年龄相关的 NSAA 混淆、不确定的持久性以及未解决的安全性/普遍性问题。

为了填补这些差距，该计划需要一个受控的、年龄分层的临床设计，包括转录基因特异性表达测试、正交蛋白质定量、组织组成控制、长期持久性数据、机制功能测试针对截断构建体，以及更强大的安全性监测，特别是肝/心脏监测。

解释为什么微 dystrophin 表达水平不能自动作为功能临床益处的有效替代指标。

+22

标记活检部位、组织成分和年龄窗口的混淆因素，这些因素会削弱表达和 NSAA 解释。

+19

批评 NSAA 比较/统计，特别是对外部自然历史控制的依赖。

+12

讨论 AAV 耐久性、免疫反应、肝酶升高、心肌炎以及需要更长时间的表达/安全性随访。

+15

指出患者选择/泛化能力的差距，包括 AAV9 抗体排除、外显子 44 排除和样本量较小。

+8

更强的科学推理

GPT-Rosalind 在药物化学领域取得了行业领先的表现，这是一个专注于将分子转化为有用药物的领域。我们设计了 MedChemBench 来反映现实的药物化学工作流程，评估多模态化学结构理解；结构-活性关系（SAR）；预测药物效力、毒性、吸收、分布、代谢和排泄（ADME）；多参数领导优化决策；以及逆合成。GPT-Rosalind 在 MedChemBench 上的表现优于 GPT-5.5，得分为 27.5% 对比 25.1%，同时使用了 7.2% 更少的词元。

GPT-Rosalind 在药物化学中的多模态合成和机制推理方面表现更优。

在 GeneBench 上，我们对 GPT-Rosalind 进行了基于长期视角的评估，这是一个端到端的基因组学和定量生物学分析。GPT-Rosalind 使用的词元比 GPT-5.5 少 31%，同时准确率提高了 21.6% 对比 20.4%。GeneBench 评估了基于现实科学数据的智能体性能，即智能体能否规划有效的分析、质量控制、建模和修正，以得出决策相关的答案？所含问题涵盖了多个领域，包括功能基因组学、空间转录组学、蛋白质组学、表观基因组学和应用遗传学。

GPT-Rosalind 使用的词元比 GPT-5.5 少 31%，同时提高了准确率。

我们引入了一个新的评估方法，以测试 GPT-Rosalind 在帮助科学家在现实世界中进行实验室工作方面的能力。LabWorkBench 测试了模型在实际湿实验协议中将扰动与实验结果关联的能力，这些协议被科学家用于各种目的，包括故障排除和优化。LabWorkBench 使用的数据是专有的，因此未受污染。GPT-Rosalind 在 LabWorkBench 上的表现优于 GPT-5.5，得分为 63.2% 对比 55.8%，同时使用了 5.3% 更少的词元。

在实际湿实验协议辅助方面，GPT-Rosalind 在 GPT-5.5 上取得了显著的改进，同时提高了词元效率。

从推理到执行工作流

我们构建了 Life Sciences Research⁠(在新窗口中打开) 和 Life Sciences NGS Analysis⁠(在新窗口中打开) 插件，以扩展 GPT-Rosalind 的智能，同时提供一个实用的执行层，用于可重复的科学工作流。这些插件将数据来源检索、生物解释和生物信息学执行集成到同一个工作空间中，帮助研究人员将外部证据与内部组学分析联系起来，同时保留了证据和来源的完整性。所有用户都可以通过 Codex 访问这两个插件。合格的 GPT-Rosalind 企业用户还可以使用 GPT-Rosalind 来驱动这些插件。

为了更好地利用 Codex 作为科学家的动态工作台，我们添加了生物原生文件类型的交互式查看器。初始的序列、对齐和结构查看器旨在让科学家在 GPT-Rosalind 跨工作流推理时保持与证据的紧密联系，并直接在活动查看器中回答后续问题。

上面的演示展示了这些功能在 GPT-Rosalind 的 orchestration 下的运作情况。我们跟随一位科学家，他正在调查一种液体肿瘤活检，以识别可能影响治疗的突变和其他分子变化。Life Sciences NGS Analysis 插件将对处理的 ctDNA 记录的审查转化为一个交互式笔记本，突出显示了反复出现的改变、低频调用和样本轨迹，这些都使调查集中在 KRAS G12C。随后，Life Sciences Research 插件添加了来源目标、抑制剂和耐药性上下文，而原生序列、对齐和结构查看器允许科学家检查突变残基 12，其在 RAS 家族中的保守性，以及抑制剂结合的口袋。工作流以将这些证据转化为具体的后续选项结束，每个步骤和产物都可供专家审查。

图片 1：计算机屏幕显示一个工作空间，指导使用 NGS 分析插件探索 ctDNA 突变数据。屏幕上包含多个条形图，分别标记为“Top detailed histologies”和“Top altered genes by mutated cfDNA samples”，显示了癌症类型和基因突变的数据。文本描述了数据集、关键发现和分析参数。

Life Sciences NGS Analysis 插件

scRNA-seq 质量控制与注释

将以下 Markdown 文章翻译为中文。直接返回翻译后的 Markdown，不要添加任何额外说明。

Image 2: 分屏生物信息学工作流截图。左侧显示 AI 助手对完成的单细胞 RNA 测序（scRNA-seq）质量控制分析进行总结，包括生成的文件、QC 指标、UMAP 可视化和细胞类型注释。右侧显示“scRNA QC Review”报告，其中包含总计数、检测基因和线粒体百分比的直方图，以及显示 QC 通过/失败计数和过滤细胞群体的条形图。界面显示在蓝色和绿色渐变背景上。

将 10x 样式矩阵包转换为 QC 过滤的单细胞 artifacts、注释和 UMAP，您可以在 Codex 中检查和修订。生命科学 NGS 分析插件将请求路由到 scrna-seq-qc，从数据中选择 QC 门槛，保留过滤和注释的来源，并显示缺失的双倍检测依赖项等阻止器。

批量 RNA-seq FASTQ QC

Image 3: 分屏 RNA-seq 工作流视图：左侧显示批量 RNA-seq 质量控制结果的 AI 助手总结，右侧显示具有测序统计信息和 Salmon 指标的交互式 MultiQC 报告。

将批量 RNA-seq 样本表、FASTQ 包和参考文件转换为可检查和重用的 QC 审查计数包。生命科学 NGS 分析插件将请求路由到，验证输入并返回带有 MultiQC、Salmon 矩阵、来源和明确警告的可审计运行包。

扩展访问权限给可信组织

我们正在将 GPT-Rosalind 系列扩展到全球符合条件的组织。GPT-Rosalind 将通过我们可信访问部署结构提供给正在进行合法科学研究的组织，这些研究具有明确的公共利益，具有强大的治理和安全监督，并具有企业级安全的受控访问。

作为全球扩张的一部分，我们很高兴帮助支持 Novo Nordisk 的使命，通过帮助扩大其医疗研究规模来更快地为患者提供创新的治疗选择。Novo Nordisk 正在利用前沿 AI 能力帮助研究人员分析复杂数据集，发现有用模式并更快地测试假设。GPT-Rosalind 强大的生物理解能力将帮助团队在文献、基因组学、转录组学、序列、结构和实验结果之间建立证据联系，使从数据到更清晰的研究决策变得更加容易。

“生命科学研究复杂、数据丰富且跨学科。为了为研究人员提供有意义的价值，高级 AI 模型必须基于可信的科学数据，与验证工具连接，并集成到研究人员每天使用的实际工作流程中。我们很高兴与 OpenAI 合作，探索 GPT-Rosalind 如何支持更严谨、实用的药物发现方法。”

Mishal Patel，集团 Vice President，AI & Digital Innovation，R&D - Novo Nordisk

我们现在还为没有企业账户的合格组织提供 OpenAI 管理的工作空间。

接下来会发生什么

更新后的 GPT-Rosalind 是我们更广泛承诺的下一步，即建立 AI 系统，以帮助加速科学发现，同时确保高级生物能力的部署具有适当的保护措施。我们将继续改进模型的生物推理能力，扩大对工具密集型和长期研究工作流程的支持，并与全球符合条件的组织合作，评估实际影响。

这也意味着将生命科学 AI 应用于高影响力的公共利益工作，从药物发现和转化医学到公共卫生、准备和生物防御。通过 Rosalind Biodefense 和我们的可信访问部署模型，我们希望将前沿生物能力交到为改善人类健康和增强社会韧性而努力的研究人员、机构和防御者手中。

我们将继续构建 GPT-Rosalind，使其成为科学研究全生命周期的更强大合作伙伴，帮助科学家更快地从正确的问题转向更清晰的证据、更好的实验和最终为患者提供新的治疗方法。