ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

美团技术团队

美团技术团队2026年6月10日

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

8.5内容质量

TL;DR · AI 摘要

美团在ACL 2026发布六篇论文，涵盖代码评测、业务流程评估、数学推理、模型优化等方向，揭示大模型在复杂任务中的能力短板与优化路径。

核心要点

CoreCodeBench评测基准有效率达78.55%，揭示模型在不同任务类型上的能力错配。
SOP-Maze评测显示，大模型在复杂业务流程任务中表现吃力，存在路线盲区、对话脆弱性等问题。
AMO-Bench基准测试中，最强模型在高中数学竞赛中的准确率仅52.4%，暴露推理能力不足。

结构提纲

按章节快速跳转。

§引言
介绍ACL会议及美团在该会议中发布的六篇论文的总体方向。
·CoreCodeBench：代码智能评测基准
提出CoreCodeBench，通过细粒度任务评估大模型在代码生成、修复等场景中的能力。
·SOP-Maze：复杂业务流程评估
构建SOP-Maze评测基准，评估大模型在复杂业务标准操作流程中的表现。
·AMO-Bench：数学推理挑战
提出AMO-Bench，测试大模型在高中数学竞赛中的表现，揭示其推理能力不足。
·MASPO：强化学习优化方案
提出MASPO方法，提升大模型推理的鲁棒性和样本效率。
·FLR：生成式推荐优化
提出FLR方法，提升生成式推荐任务中隐式推理的性能与语义透明度。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

ACL 2026美团论文精选
- 代码智能评测
  - CoreCodeBench
  - 细粒度任务生成
- 业务流程评估
  - SOP-Maze
  - 复杂SOP场景
- 数学推理优化
  - AMO-Bench
  - 高难度数学命题
- 模型推理优化
  - MASPO
  - 强化学习优化
- 生成式推荐
  - FLR
  - 分解式隐式推理

金句 / Highlights

值得收藏与分享的关键句。

CoreCodeBench的有效率达78.55%，显著优于现有方法。
— 第 01 节
⬇︎ 下载 PNG 𝕏 分享到 X
SOP-Maze显示，几乎所有最先进的模型在复杂业务流程任务中表现吃力。
— 第 02 节
⬇︎ 下载 PNG 𝕏 分享到 X
AMO-Bench测试中，最强模型在高中数学竞赛中的准确率仅52.4%。
— 第 03 节
⬇︎ 下载 PNG 𝕏 分享到 X
MASPO在多个数学推理基准上相比基线取得了更优的Avg@32与Pass@32表现。
— 第 04 节
⬇︎ 下载 PNG 𝕏 分享到 X
FLR在Amazon数据集上相比最强基线LatentR3平均提升3.2%。
— 第 06 节
⬇︎ 下载 PNG 𝕏 分享到 X

#ACL#大模型#自然语言处理#代码智能#数学推理

打开原文

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式 | 美团 · 技术团队

[

]

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

美团技术团队

2026-06-05

算法

大模型

国际顶会

论文

ACL（Annual Meeting of the Association for Computational Linguistics）是计算语言学和自然语言处理（NLP）领域的国际顶级学术会议。自 1962 年创办以来，ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会，汇聚了来自全球学术界和工业界的顶尖研究者。

本文解读了被 ACL 顶会收录的其中 6 篇论文，技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域，欢迎大家一起交流学习。

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

CoreCodeBench：通过细粒度仓库级任务解耦代码智能

论文下载： PDF

论文简介：本论文提出了 CoreCodeBench，一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架，从 12 个 Python 开源库自动生成 1,524 个结构化任务，涵盖开发、修复、测试驱动开发等多种软件工程场景，有效区分不同认知负载并动态调整任务复杂度。实验表明，其有效性达 78.55%，显著优于现有方法，揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测，模拟真实开发环境，具备高自动化、强鲁棒性和可复现性，为代码智能评测提供了更全面、精准的框架。

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

SOP-Maze：评估大语言模型在复杂业务标准操作流程上的表现

论文简介：随着大模型越来越多地被用作各领域的智能体，现有的评测大多关注它们遵循指令、做决策的能力，但真实业务场景往往涉及复杂的标准操作流程（SOP），而这方面的能力评估还没有被充分探索。为填补这一空白，研究者基于真实业务数据构建了 SOP-Maze，包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。

论文把 SOP 任务分成两大类：「侧根系统」（LRS）代表选项众多、需要精准选择的宽广型任务；「主根系统」（HRS）则强调带有复杂分支的深度逻辑推理。

实验结果显示，几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误：一是「路线盲区」（难以遵循流程）；二是「对话脆弱性」（无法处理真实对话中的细微之处）；三是「计算错误」（在复杂语境下的时间或算术推理出错）。

简单来说，这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测，既考验广度也考验深度，结果表明当前模型在这方面还有明显短板。

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

AMO-Bench：大语言模型在高中数学竞赛中仍面临挑战

论文简介：本文提出 AMO-Bench，一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和，本基准确保：

经专家验证达国际奥数（IMO）或更高难度；

完全原创以杜绝数据污染；

仅需最终答案，支持自动评测。

对 26 款大模型的评测显示，最强模型准确率仅 52.4%，多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力，大模型推理能力仍有巨大提升空间。

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

思维的进化：通过推理动态分析追踪大语言模型的过度思考

论文简介：论文研究大语言模型长链推理中的过度思考现象，分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手：一是 thinking 长度与 content 长度之间的补偿关系，二是语义表示从探索到收敛的轨迹变化。

基于这些现象，论文提出实例级 Reasoning Completion Point（RCP），用于区分答案形成前的有效探索和答案稳定后的冗余延伸，并进一步设计 RCP 检测器，在 AIME、GPQA 等任务上减少生成 token，同时基本保持模型准确率。

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

MASPO：统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理

论文简介： MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR（可验证奖励的强化学习）场景下，旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域，与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。

为此，MASPO 提出三大创新：

Soft Gaussian Gating 替代硬裁剪，保留有效梯度；

Mass-Adaptive Limiter 根据 token 概率动态调整约束，提升长尾探索；

Asymmetric Risk Controller 区分正负样本可靠性，谨慎处理噪声负样本。

实验证明，MASPO 在多个数学推理基准和不同模型规模上，相比基线取得了更优的 Avg@32 与 Pass@32 表现，展现出更好的鲁棒性和可扩展性。

06 Factorized Latent Reasoning for LLM-based Recommendation

基于分解式隐式推理的生成式推荐

论文简介：在生成式推荐任务中，现有的隐式推理方法通常采用单一隐向量来表征用户意图，这难以捕捉用户偏好中固有的多维性。

本文提出 FLR，将隐式推理分解为多个语义解耦的偏好因子，并引入轻量级多因子注意力模块，在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO，利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上，FLR 相比最强基线 LatentR3 平均提升 3.2%，其中 Games 子集提升达 10.26%，实现了隐式推理的语义透明化与性能提升。