美团 LongCat 开源 General 365:树立推理评测新标尺
美团技术团队2029 字 (约 9 分钟)
85
美团开源 General 365 基准测试,揭示大模型在通用推理上的真实能力边界。
入选理由:Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线
精选文章#大模型#推理评测#通用推理中文
产品
也叫:General365
美团开源的通用推理评测基准测试平台。
最近变化
2026-05-15 · Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线
General 365 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
已收录 1 篇与「General 365」相关的 AI 资讯和分析。
美团开源 General 365 基准测试,揭示大模型在通用推理上的真实能力边界。
入选理由:Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线
与「General 365」经常一起出现的 AI 术语。
💡 想追踪「General 365」的长期趋势?去 实体雷达 · General 365 查看详细分析和跨材料问答。