Disagreement among frontier LLMs on real-world fact-checks
TL;DR · AI 摘要
前沿大语言模型在现实世界事实核查中存在显著分歧,67%的案例中模型间未达成一致。
核心要点
- 在1000个事实核查案例中,67%的案例中至少有一个模型与多数意见不一致。
- 34%的案例中,模型间的分歧超过两个等级,表明实质性判断差异。
- Krippendorff's α为0.639,表明模型间存在非随机但有限的一致性。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 前沿LLM事实核查分歧
金句 / Highlights
值得收藏与分享的关键句。
在67%的案例中,至少有一个模型与多数意见不一致。
34%的案例中,模型间的分歧超过两个等级,表明实质性判断差异。
Krippendorff's α为0.639,表明模型间存在非随机但有限的一致性。
Lenz Research · Snapshot v1.0 · 数据截至2026年5月21日
67%
在真实事实核查中,顶级AI模型对答案存在分歧的比例。
1,000条声明,由5个前沿大语言模型评估。
Jordanov, Kosta · Lenz Research · [kosta@lenz.io](mailto:kosta@lenz.io)
我们向五个顶尖前沿大语言模型展示了1,000条近期的真实用户声明,并要求每个模型给出判断结果。这些不是带有公开答案的基准测试项目——它们是用户提交给事实核查平台的真实待验证声明。每条声明只能有一个正确的判断类别,因此如果专家组存在分歧,则至少有一个模型的判断根据这四个等级的标准存在标签不一致的情况(真实 / 大体真实 / 误导性 / 虚假)。在67%的声明中,专家组出现意见分裂。
关键发现
- 67%的声明(672/1,000;95%置信区间:64%-70%)至少有一个前沿模型反对专家组多数意见——或者根本无法形成多数意见。
- 34%的声明(343/1,000;95%置信区间:31%-37%)涉及最分歧的两个前沿判断之间存在2个及以上等级差异——这是对答案实质性的分歧,而不仅仅是校准偏差。
- 克里彭多夫α系数(序数)=0.639,基于5名评分者对1,000项声明的评估——非随机但有限度的一致性。
- 专家组在明确结论上达成共识;分歧发生在中间等级。 在328条全体一致的声明中,只有4条被全体判定为“误导性”,没有一条被全体判定为“大体真实”。
- 某些模型倾向于极端判断(真实/虚假),其他模型则分散在中间两个等级。
目录
- 前沿模型分歧频率
- 实质性分歧 vs 细节分歧
- 模型间一致性分析
- 单模型行为(判断分布 + 与其他模型的一致性)
- 详细结果(按领域、多数判断、全体一致)
- 数据
- 方法论
- 可复现性
- 局限性
- 常见问题解答
- 伦理与数据使用
- 版本记录
- 附录:专家组分歧示例声明
1 前沿模型分歧频率
在67%的声明(672/1,000;95%置信区间:64%-70%)中,前沿专家组未能达成一致——至少有一个模型反对多数判断,或者根本无法形成严格多数。具体分布如下:
对于每条声明,我们观察了五个前沿判断,并询问:是否存在至少三个模型选择同一答案(严格多数)?如果是,剩余模型中有多少持异议?如果没有明确多数出现(判断分散在三个或四个不同等级),该声明会被归类到“模型分裂,无多数”行。这类声明不太可能出现在任何带标注的训练语料库中——没有可供模式匹配的权威答案,也没有基准排行榜作为参照。
下文提及的“多数”和“反对多数”并不等同于客观真理。多数判断有时可能是错误的,个别持异议的模型有时可能是正确的。我们仅将多数作为衡量分歧的结构性参考点,而非正确性的替代指标。
| 前沿判断模式 | 声明数量 | 占语料库比例 | | --- | --- | --- | | 全部5个一致(全体一致) | 328 | 33%(95% CI:30%-36%) | | 1个反对 | 224 | 22%(95% CI:20%-25%) | | 2个反对 | 316 | 32%(95% CI:29%-35%) | | 模型分裂,无多数(如2-2-1或2-1-1-1) | 132 | 13%(95% CI:11%-15%) | | ≥1个反对(含分裂) | 672 | 67%(95% CI:64%-70%) | | ≥2个反对(含分裂) | 448 | 45%(95% CI:42%-48%) |
专家组一致性: 克里彭多夫α系数(序数)=0.639(n=1,000条声明,5名评分者)。这表明非随机但有限度的一致性:模型判断具有结构性而非随机性,但不足以将专家组视为可互换的单一裁判。序数α是针对有序分类量表(真实/大体真实/误导性/虚假)的标准克里彭多夫变体。详见第7.5节 统计分析关于指标选择的说明。
模型错误率下限。 对于每条声明,四个判断等级中恰好有一个是正确答案。如果我们假设专家组中最受欢迎的等级是正确答案(最乐观的假设),那么各模型错误判断的最低数量为:
- ≥1个模型错误占67%的声明(任何非全体一致的专家组)
- ≥2个模型错误占45%的声明(3-2、3-1-1或无多数分裂)
- ≥3个模型错误占13%的声明(无等级达到多数,最多只有2个可能正确)
放宽“最受欢迎即正确”的假设只会增加这些计数,不会减少。实际错误率可能更高:即使在33%的全体一致案例中,也可能存在共同盲点。
并非所有分歧都是平等的。"真"与"大部分真"的分歧属于置信度校准偏移;而"真"与"假"的分歧则属于答案本身的实质性分歧。我们通过计算每项主张对应的5个判定结果中最大配对桶间距来衡量这种差异,其中判定结果按以下顺序排列:真(0)→ 大部分真(1)→ 误导性(2)→ 假(3)。
| 距离 | 解释 | 主张数量 | 占比 | | --- | --- | --- | --- | | 0 | 完全一致(所有5个判定结果相同) | 328 | 33% 30–36% | | 1 | 细微差异(如真↔大部分真) | 329 | 33% 30–36% | | 2 | 实质性分歧(真↔误导性 或 大部分真↔假) | 132 | 13% 11–15% | | 3 | 极端对立(真↔假) | 211 | 21% 19–24% | | ≥2桶间距(实质性或极端对立) | 343 | 34% 31–37% |
注释。 桶间距基于真/大部分真/误导性/假的序数尺度计算;等距假设是一种简化处理。2桶间距仍可能反映评分标准模糊、时间框架差异或对"误导性"的不同解读。我们将其作为粗略的"实质性 vs 细微差异"指标,而非误差量级度量。
3 模型间一致性
最高同行一致性:Gemini 3 Pro × Gemini 3 Pro + Search(75%) —— 不出所料,因共享基础模型。最低一致性:Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search 和 Gemini 3 Pro × Sonar Pro(53%) —— 三组并列垫底。
各前沿模型对语料库中所有主张的判定标签匹配率:
| | GPT-5.4 | Claude Opus 4.7 | Gemini 3 Pro | Gemini 3 Pro + Search | Sonar Pro | | --- | --- | --- | --- | --- | --- | | GPT-5.4 | — | 65% 62–68% | 65% 62–68% | 60% 57–63% | 60% 57–63% | | Claude Opus 4.7 | 65% 62–68% | — | 53% 50–56% | 53% 50–56% | 58% 55–61% | | Gemini 3 Pro | 65% 62–68% | 53% 50–56% | — | 75% 72–77% | 53% 50–56% | | Gemini 3 Pro + Search | 60% 57–63% | 53% 50–56% | 75% 72–77% | — | 58% 55–61% | | Sonar Pro | 60% 57–63% | 58% 55–61% | 53% 50–56% | 58% 55–61% | — |
4 各模型行为分析
从两个角度观察同一五款模型:各模型的判定分布(4.1),以及各模型与其余四者的多数意见匹配率(4.2)。
4.1 判定分布
某些模型倾向于两极化判定(真/假),其他模型则更均匀分布于中间两类。 这反映了模型决策倾向与具体主张的交互作用——由于缺乏基准真相,我们无法区分两者。下表显示各模型分配给各判定类别的主张占比,单元格下方标注了95% Wilson置信区间。
| 模型 | 真 | 大部分真 | 误导性 | 假 | | --- | --- | --- | --- | --- | | GPT-5.4 | 42% 39–45% | 16% 14–19% | 12% 10–14% | 30% 28–33% | | Claude Opus 4.7 | 38% 35–41% | 26% 23–29% | 19% 17–22% | 17% 15–20% | | Gemini 3 Pro | 54% 51–57% | 3% 2–4% | 3% 2–4% | 40% 37–43% | | Gemini 3 Pro + Search | 52% 49–55% | 4% 3–5% | 9% 7–11% | 35% 32–38% | | Sonar Pro | 35% 32–38% | 23% 21–26% | 16% 14–18% | 26% 23–28% |
4.2 与其他评审的一致性
五款模型与同行多数意见的匹配率介于69%至81%之间。这是模型间的协同表现,而非正确性评估——此处不设基准真相,且每行的可评估样本量不同。
各模型判定与其余四者严格多数意见(≥3/4)的匹配率。仅当其余四者存在≥3/4多数时,该主张才被纳入统计。
| 模型 | 与同行多数意见匹配率 | 可评估样本量 | 不可评估样本量 | 类别 | | --- | --- | --- | --- | --- | | GPT-5.4 | 81% 78–84% | 650 | 350 | 参数化模型 | | Claude Opus 4.7 | 70% 67–74% | 691 | 309 | 参数化模型 | | Gemini 3 Pro | 77% 74–80% | 683 | 317 | 参数化模型 | | Gemini 3 Pro + Search | 76% 73–79% | 693 | 307 | 检索增强 | | Sonar Pro | 69% 66–73% | 675 | 325 | 检索增强 |
5 详细结果
5.1 领域内前沿分歧
分母为各领域内的主张总数("Claims"列)。
| 领域 | 主张数量 | 存在分歧 | 实质性分歧(≥2桶间距) | 无多数意见 | | --- | --- | --- | --- | --- | | 金融 | 75 | 67% 55–76% | 39% 28–50% | 20% 13–30% | | 综合 | 179 | 68% 60–74% | 40% 33–48% | 12% 8–17% | | 健康 | 171 | 71% 64–78% | 29% 23–36% | 12% 8–17% | | 历史 | 131 | 53% 44–61% | 24% 17–32% | 13% 8–20% | | 法律 | 48 | 77% 63–87% | 40% 27–54% | 19% 10–32% | | 政治 | 168 | 70% 62–76% | 38% 31–46% | 8% 5–13% | | 科学 | 151 | 68% 60–75% | 36% 29–44% | 21% 15–28% | | 科技 | 77 | 69% 58–78% | 31% 22–42% | 8% 4–16% |
5.2 判定类别下的同行一致性
当评审团选择中间类别时,几乎从未达成共识。 "大部分真"和"误导性"的多数意见最多只有5%的完全一致率,而"真"和"假"的多数意见则有43–47%的完全一致率。
这一现象与另一真实语料库研究(包含17,856条PolitiFact主张的Llama-3单家族消融实验,Schwab等人2025)结论一致:事实核查模型的误差集中于细微标签——尽管方法论不同(单家族消融 vs 前沿模型评审团)。
分母为各判定类别下存在严格≥3/5多数意见的主张数量。揭示评审团对各判定区间的信心程度。
| 多数意见类别 | 可评估样本量 | 完全一致(5/5) | 多数意见(3-4/5) | | --- | --- | --- | --- | | 真 | 438 | 47% 42–51% | 53% 49–58% | | 大部分真 | 76 | 0% 0–5% | 100% 95–100% | | 误导性 | 74 | 5% 2–13% | 95% 87–98% | | 假 | 280 | 43% 37–49% | 57% 51–63% |
从另一个角度看——在328项所有五款前沿模型达成一致的主张中,各判定类别的分布情况:
| 一致裁决 | 主张数量 | 占比(置信区间) | | --- | --- | --- | | 真实 | 204 | 62% (57–67%) | | 大体真实 | 0 | 0% (0–1%) | | 误导性 | 4 | 1% (0–3%) | | 虚假 | 120 | 37% (32–42%) |
6 数据集
1,000条主张——这是事实核查平台收到的最新真实用户提交,已通过排除标准下所有筛选条件。所有主张均不早于2026年2月15日。除非另有说明,本页面所有指标均以此数据集为分母;若使用不同分母(例如裁决存在严格≥3/5多数支持的主张),会在表格内注明。
来源说明
这些主张来自事实核查平台Lenz。我们选择该数据集是因为它代表了有机的真实世界事实核查请求,而非人工编排的基准测试项。本研究未使用Lenz自身的裁决结果——仅测量前沿模型间的分歧,不涉及Lenz与前沿模型的对比。
主张标准化
CSV文件中的atomic_claim字段并非用户的原始提交内容。它是经过Lenz的框架化步骤处理后的结果,去除了情感语言和偏见,将输入转化为单一中立、可验证的命题,并锚定至提交日期。前沿模型的评分基于框架化后的主张,而非原始文本。例如,用户提交*"加拿大当局因基督徒引用圣经而将其关押!!!"*会被转化为*"截至2026年4月4日,加拿大当局因个人基督教信仰而将其公开引用圣经的行为定罪关押。"*
排除标准
数据集排除以下内容:
- 用户标记为私密的主张
- 平台员工、内部账户或API提交的主张(仅包含真实用户网页端提交)
- 编辑状态为
pending(尚未审核)或hidden(经编辑审核下架或被Lenz PII筛查自动标记) - 近似重复主张——OpenAI
text-embedding-3-small嵌入向量余弦距离≤0.2的主张对会被合并为单条记录。时间敏感主张以较新者为准,其他情况则保留Lenz上浏览量更高的主张 - 至少一个前沿模型未能生成可解析裁决的主张(即使重试一次)。此类残余错误主要来自Gemini的Grounded Search API返回的畸形响应,其余为罕见的Anthropic拒绝响应。仅五模型均成功的主张被纳入队列
- 超过180天的旧主张(采集时应用时效窗口)
7 方法论
7.1 模型选择
选取五款前沿模型,覆盖两种能力维度:
- 参数化(纯训练模式):GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)
- 检索增强型:Gemini 3 Pro + Search(Google)、Sonar Pro(Perplexity)
7.2 提示模板
每条主张附带与提交日期匹配的截止日期标签,要求模型从四个选项中选择裁决:
分类此主张(截至<日期>):"<标准化主张>"
仅输出一个标签:True、Mostly True、Misleading 或 False。
无需解释,不得附加限定词。采用usr_v2版本提示模板,未提供"Abstain"选项(强制选择保持模型间比较对称性)。无法解析的输出不会重新归类,含任何解析错误的主张将被排除出完整数据集。
7.3 LLM调用配置
所有五款模型使用相同的系统占位符(.)和用户提示模板(usr_v2)。未启用结构化输出、工具调用、随机种子、top-p或logit偏差控制。采集器根据支持情况请求确定性解码(temperature=0.0);GPT-5.4和Claude Opus 4.7因提供商限制未设置温度参数。输出长度上限:GPT-5.4、Claude Opus 4.7和Sonar Pro为16个标记,Gemini系列为1024个标记(开发期间发现较低上限引发提供商错误)。Gemini 3 Pro + Search启用Google Search基底;Sonar Pro通过Perplexity搜索支持API实现检索增强。可解析输出需严格匹配四个标签之一(经规范化处理)。
7.4 评分机制
无LLM评分员参与。 所有测量结果直接来自五款前沿模型对同一主张的裁决标签一致性比较,未使用参考标签或地面真相。
7.5 统计分析
抽样框架与推断目标。 数据集包含该事实核查平台最近1,000条符合条件的主张(按§6筛选规则),非概率抽样亦非全样本枚举(存在更早但被排除的合格主张)。报告的威尔逊95%置信区间基于假设:各主张独立采自该平台相同筛选规则下的潜在主张流。这些区间不代表对“所有现实事实核查”的覆盖率声明。
非独立同分布注意事项。 Lenz 的主张并非独立同分布:用户围绕新闻事件提交内容,筛选过程偏向特定主题,且单个用户常在一次会话中提交多个相关主张。若采用更诚实的聚类模型(例如聚类引导法),真实采样变异性可能比 Wilson 报告的结果更大。我们展示的置信区间是精度下限,而非保证覆盖范围。
每项报告率的 95% 威尔逊置信区间。 我们采用威尔逊得分区间 [1] 而非 Wald(正态近似)区间,因其在小样本量时表现更优,并能处理边界情况(p=0/n, p=n/n)而不产生零宽度退化区间。这是现代机器学习评估文献的事实标准。威尔逊置信区间出现在 §1、§2、§3、§4.2、§5 和 附录 中每个比率旁;显示的界限是精确值,而非以原始点估计为中心。
评分者间可靠性——克里彭多夫α(序数级)。 判定等级(真/大部分真/误导性/假)属于序数尺度,因此我们使用克里彭多夫α进行序数级测量 [2],而非弗莱斯κ(后者将类别视为标称变量,会低估一致性——“真↔大部分真”的单桶差异远小于“真↔假”的极化分裂,序数指标反映了这一点)。α值作为面板级单一数值与 §1 结果表一同呈现。
不进行模型间显著性检验。 我们报告配对一致率及 95% 威尔逊置信区间作为描述性统计,而非将其视为模型排行榜。配对显著性检验对比较目标和候选集敏感:例如,同行多数一致是配对主张级结果,但每个模型的严格多数判定主张集合各不相同。
参考文献。
[[1]](https://lenz.io/research/llm-disagreement) Wilson, E.B. (1927). "概率推断、继承律与统计推断." _美国统计协会杂志_ 22, 209–212.
[[2]](https://lenz.io/research/llm-disagreement) Krippendorff, K. (2004). "内容分析中的可靠性:常见误解与建议." _人类传播研究_ 30(3), 411–433.
8 可重复性
完整按主张数据:下载 CSV。每行对应一个主张——包含主张ID和URL、原子主张文本、五个前沿判定结果、最大配对桶距离、领域和创建日期。严格矩形格式,无前置注释。claim_url列可追溯至 Lenz 上的原始主张页面;若用户删除或私有化主张,部分页面可能不可用。
PDF 文档:下载 PDF。适用于离线阅读、引用或预印本托管的浏览器无关渲染版本。通过快照清单中的哈希固定 (pdf_sha256),确保 /v1.0/pdf 在重新部署时字节级一致。
此快照为 v1.0,数据截至 2026 年 5 月 21 日。存档 URL /research/llm-disagreement/v1.0 永久提供 v1.0 快照——即使基础 URL 升级到未来版本,仍保持引文稳定性。
采集器提示版本:usr_v2。评分依据:五个前沿判定结果的直接解析标签匹配。未使用大语言模型评分器,无参考判定基准。
永久记录与引用:doi.org/10.5281/zenodo.20344847。Zenodo 存储库通过永久 DOI 镜像 PDF 文档,支持学术论文和预印本引用。
9 局限性
- 鸽巢率是对评分标准不一致性的下限估计,而非针对特定主张做出绝对的“模型X在事实上错误”的判断。四个类别{真实、基本真实、误导性、虚假}中只能有一个是正确的分类,因此任何分歧至少意味着一个不一致的结论——但我们并不声称知道哪个模型在哪个主张上出错。
- 分类间距序数性。§2将真实/基本真实/误导性/虚假视为等距序数尺度。这是一种简化处理。两个分类之间的差距可能反映评分标准的模糊性、时间框架差异或对“误导性”的不同解读——未必代表事实上的更大错误。
- 结论模糊性部分源于任务属性,而非仅由LLM特性决定。 在一个公开的真实世界事实核查语料库(AVeriTeC,4,568个通过多轮评审标注的主张,涵盖50家事实核查机构)中,标注者间一致性系数κ=0.619——显著但远非完美。本页展示的部分前沿分歧反映了这些标签本身对任何评估者的固有难度,而不仅仅是对LLM而言。
- §4.2中的资格过滤器(其他四家需达到≥3/4多数)排除了其他四家意见分裂的主张。_eligible_n_随行变化;披露的计数明确体现了这一点。
- 领域分层反映了源平台的流量模式,而非对可事实核查主张的均匀采样。
- 这是一个快照,冻结于特定日期及特定模型版本。前沿LLM具有非确定性,即使使用相同模型和提示重新运行也会产生略有不同的结果;使用更新模型或不同提示则会显著改变数值。因此我们为快照版本化并提供存档URL。
- 检索增强型模型可能在推理时查阅了外部资料。我们无法控制或审计它们获取的具体内容。
10 FAQ
为何不进行Lenz与前沿模型的对比?你们是事实核查平台。
有意义的准确性比较需要人类标注的基准真值。我们正在开展后续研究(见下文),将对语料库中的每个主张进行人工标注,并比较前沿专家组和Lenz自身结论与这些基准标签的匹配度。在该研究发布前,我们宁愿不公布Lenz的相对准确性,也不愿发布无法真正回答“谁更正确”的比较。本文仅测量无需基准真值即可量化的内容:前沿专家组在现实主张上的行为表现。
此前有人测量过前沿LLM的分歧吗?
Yang & Wang (2026)表明,在MMLU-Pro和GPQA测试项中,即使聚合准确率相当,顶级前沿模型仍存在16-38%的分歧,并证明切换下游科学再分析中的标注模型会导致估计治疗效应符号反转。在经过严谨人工标注的真实主张验证领域,经典参考文献是AVeriTeC(4,568个经多轮标注的事实核查主张,覆盖50家机构,标注者间一致性κ=0.619)。更大的事实核查语料库也存在——例如,17,856个来自单一Llama-3消融实验的PolitiFact主张。
为何不使用AVeriTeC等标准事实核查基准,而是构建新语料库?
两点原因。首先,AVeriTeC、PolitiFact等公开语料库已存在多年,几乎肯定出现在当前前沿模型的训练数据中——在这些数据上测量的分歧会混淆真实推理分歧与记忆重现。Lenz的语料库是结构性新鲜的:过去180天内真实用户的提交,仅在lenz.io索引,从未与其他公共训练集中的权威结论配对。其次,现有语料库分布较窄(主要为美国中心主义政治主张,通常经过新闻价值筛选),而真实用户查询范围更广——Lenz的主张涵盖健康、科学、金融、历史、科技和法律问题,均采用相同的四分类评分标准。
如何避免基准污染——模型是否见过这些主张?
这些是近期真实用户提交,而非SimpleQA、TruthfulQA、FActScore等公开数据集中的精选测试项。某些主张可能在主题上与训练数据重叠,但未像基准测试项那样与标准答案配对。检索增强型模型仍可能从实时网络中找到资料——包括Lenz自身的公开主张页面——但这并非受控污染审计。
为何选择这五种模型?
包含三种前沿参数化模型(GPT-5.4、Claude Opus 4.7、Gemini 3 Pro)和两种检索增强型模型(Gemini 3 Pro + Search、Sonar Pro)。这种划分是刻意设计的——覆盖生产级AI系统中常见的两种推理模式。
为何采用四分类而非五分类(含弃权)?
初步收集数据显示,部分前沿模型常拒绝回答困难主张,而另一些则始终给出结论。若设置弃权分类,跨模型比较将变得不对称——某模型的“我不回答”与另一模型的“自信但错误”会被归入不同类别,尽管两者都携带认知权重。我们强制所有模型使用相同的四选项,使测量的分歧聚焦于结论本身,而非回答意愿。
是否会重新运行此实验?
这是冻结快照(v1.0,截至2026年5月21日的数据)。存档URL /research/llm-disagreement/v1.0将永久指向该版本。当v2发布时(包含更多主张、更新模型版本或方法论变更),将附带清晰的变更日志;v1.0仍保留在其存档地址。
后续计划是什么?
我们正在开展一项配套研究,对语料库中的每个声明进行人工标注,并利用这些标注作为基准,同时评估五种前沿模型和Lenz自身的结论。这项工作的重点并非排名榜单,而是绘制分歧的结构图谱:前沿模型组与人类共识系统性偏离的具体领域、Lenz与两者均产生分歧的场景、各单一模型及Lenz如何与同一人类参考标准对齐,以及驱动各类分歧的声明类别(评分标准模糊性、时间框架差异、领域专业化程度、校准漂移)。当前论文指出前沿模型在现实世界声明上存在分歧;后续研究将在同一语料库中,以人类标注为参照,揭示分歧的具体表现形式。
11 伦理与数据使用
仅使用面向公众的声明字段:原子化声明文本和声明创建日期。不包含任何个人数据。私人声明和员工声明已按§6规定排除在外。前沿模型仅接收声明文本和截至日期——未提供提交者身份信息或分析信号。
若某条声明被提交者后续私有化或删除,我们可将其从当前快照及未来下载版本中移除。CSV文件在下载时自快照生成,因此从快照中移除声明即可通过单次更新同步清除公共页面上的记录。
12 版本日志
- v1.0(2026年5月21日,代码
a6b78be):初始冻结快照。仅包含前沿模型间分歧数据,未包含Lenz与前沿模型对比内容。
附录:前沿模型分歧示例声明
该语料库中分歧最显著的二十条声明,其最高评级与最低评级之间的跨度最大。这些案例不仅存在分歧,且分歧具有实质性意义——至少有一个模型的结论与另一模型相差两个及以上评级层级。
按最大两两桶距离(降序)排序,无多数意见案例优先打破平局,随后按声明ID的稳定哈希值排序。结果确定性——页面每次加载显示相同示例,直至下一次快照更新。
在本语料库中67%的真实用户事实核查案例中,五种最强前沿大语言模型存在分歧。若依赖单一模型,则会继承这种分歧。
Snapshot v1.0 · 数据截止日期:2026年5月21日 · 代码a6b78be。引文稳定存档:/research/llm-disagreement/v1.0。完整逐条声明CSV:data.csv。PDF:pdf。DOI:10.5281/zenodo.20344847。