观看一组智能体解决理论物理难题令人着迷——Physics-Intern 实现新突破
Physics-Intern 框架通过多智能体协作将 Gemini 3.1 Pro 在 CritPt 基准上的表现从 17.7% 提升至 31.4%,创下理论物理推理新 SOTA。
入选理由:Physics-Intern 使用多智能体协作框架解决复杂理论物理问题。
人物
别名:Thom_Wolf
AI 领域的专家,发布了关于 AI 生成工程构件的最新动态。
已跟踪 7 条高相关材料
最近变化
2026-06-08 · 形状相似度用于评估整体几何结构的匹配程度。
为什么值得关注
Thomas Wolf 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
watching a team of agents tackling a hard theoretical physics problem is quite mesmerizing - self-co...
Thomas Wolf(@Thom_Wolf) · 7.8 分
Physics-Intern 框架通过多智能体协作将 Gemini 3.1 Pro 在 CritPt 基准上的表现从 17.7% 提升至 31.4%,创下理论物理推理新 SOTA。
I'm very excited about this extension to the celebrated Terminal-Bench to science. If you're a scie...
Thomas Wolf(@Thom_Wolf) · 7.5 分
Thomas Wolf is excited about the extension of Terminal-Bench to scientific fields, known as Terminal-Bench Science. This benchmark evaluate...
4/ Why three metrics? The metrics are designed to capture different classes of errors. Shape simil...
Thomas Wolf(@Thom_Wolf) · 7 分
文章提出三种评估指标,分别用于衡量几何形状、接口匹配和拓扑结构的正确性,强调它们各自不可替代。
已收录 7 条与 Thomas Wolf 相关的内容,按评分排序。
Physics-Intern 框架通过多智能体协作将 Gemini 3.1 Pro 在 CritPt 基准上的表现从 17.7% 提升至 31.4%,创下理论物理推理新 SOTA。
入选理由:Physics-Intern 使用多智能体协作框架解决复杂理论物理问题。
Thomas Wolf is excited about the extension of Terminal-Bench to scientific fields, known as Terminal-Bench Science. This benchmark evaluates AI models' ability to control tools via the command line to achieve scientific goals. It's open for contributions of real scientific workflows until August 2026, aiming to improve AI models' assistance in research work.
入选理由:Terminal-Bench Science evaluates AI models' performance in handling scientific workflows through command-line tools.
AI 正在超越文本、图像和代码,工程构件成为新的模型输出类型,需要新的评估工具。本文介绍了 CADGenBench,一个用于评估 AI 生成 3D 工程零件能力的基准。
入选理由:AI 生成的 3D 工程零件目前尚无法达到功能性标准。
文章提出三种评估指标,分别用于衡量几何形状、接口匹配和拓扑结构的正确性,强调它们各自不可替代。
入选理由:形状相似度用于评估整体几何结构的匹配程度。
Codex 可用于重构游戏,替代付费购买。
入选理由:13 岁的用户使用 Codex 重构游戏以避免付费。
2026年趋势是朋友间随意分享个性化的生命/工作仪表盘和AI配置,类似于青少年携带魔法卡集到学校。
入选理由:2026年社交趋势是朋友间分享个性化生活/工作仪表盘和AI配置
该推文仅包含表情符号和指向外部图片的链接,未提供实质性的技术内容、架构分析或工程实践指导,信息密度极低,无法为工程师提供有价值的阅读参考。
入选理由:原文仅为社交媒体状态更新,缺乏可提取的技术深度或原理说明。