量子位2026年4月22日

神秘模型「大象」：仅100B拿下SOTA，Token效率超高！

8.5Score

用这条生成生成视频方案

AI 深度提炼

Elephant以100B参数规模在同级别模型中达到SOTA效果。
模型擅长代码生成与修复，减少冗余输出，节约Token。
实测显示其在高频任务中表现高效，适合工程实践。

#大模型#AI#蚂蚁

打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-22 18:29:00 来源：量子位

金磊发自凹非寺

量子位 | 公众号 QbitAI

神秘模型**Elephant**的面纱，终于被揭开了。

事情是这样的。

前一阵子**OpenRouters**在自家官方上提到了一个神秘模型Elephant Alpha，并且给到的评价是这样的：

仅**100B**大小，在同规模模型里是**SOTA**，还巨**省Token**。

话题一出，立即引来不少网友们的围观，他们纷纷开始猜测这又是哪家的模型。

不过非常微妙的一点是，这次网友们猜测的对象，统一地指向了中国大模型：

是MiniMax、Kimi、DeepSeek，还是什么新黑马？

量子位独家获悉了答案，只能说网友们猜对了一半——

**确实是来自中国的模型**；但玩家并未在他们给的选项里。

因为这头「大象」，出自**蚂蚁Inclusion AI 团队**之手。

很反差的一点是，「大象」不大，自带的只是100B大小、256K上下文窗口、32K输出的**敏捷**属性。

并且在整体体验下来之后，很直观的感受，就是它有点国产版Grok 4 Fast的味道，天生**干活圣体**。

来，咱们这就展开一波深度实测~

干活圣体，很省Token

针对「大象」的实测，我们是在OpenRouters上的**网页端**来展开。

并且会取日常工作较高频的工作内容来进行测试，只为证明一件事：「大象」干活，到底行不行。

**实测1：修Bug没有多余废话**

对于程序员群里来说，AI写代码已经不是什么新鲜事了。

但现在比较头疼的，就是怕AI唰唰唰地写了几百行代码，一跑全报错，再让它改，它又给你唰唰唰地重新生成几百行……

不仅效率低，还很费Token。

为此，我们在这个实测环节中给「大象」先安排了一个接地气的任务：

用HTML和原生JS写一个带表单校验的活动报名页，要求包含姓名、手机号、邮箱，并且手机号必须符合中国大陆格式。

△原速度展示

可以看到，「大象」在思考片刻后，以**极快的速度**将代码给生成了出来。

把整段代码保存为.html文件后，也是可以成功运行。

但这并不是重点，重点在于「大象」是否做到**修复**。

于是乎，我们接下来给刚才生成好的代码来一波**投毒**的操作：

把JS逻辑里定义提交按钮的变量 const submitBtn = document.getElementById(‘submitBtn’) 直接删掉。

如此投毒之后，控制台必定会爆出 Uncaught ReferenceError: submitBtn is not defined 的错误。

然后我们把这份代码再喂给「大象」，并简单地附上一句：

运行报错了，找不到变量。

不同于其它大模型，「大象」特别精准地找到了问题所在，然后用极简的方式给出了解法。

也正因为这种没有多余废话的回答，直接省去了Token的无用消耗。

**实测2：杂乱文档，会抓重点**

代码生成和修复还只能说是程序员工作圈子里的任务，但像**会议内容整理**，几乎是所有职场人都需要经历的事儿。

在这项测试中，我们特意准备了一份大约3000字的会议纪要，里面充满了口语化的表述，毫无意义的重复强调、部门之间关于排期的互相扯皮，甚至还有中途某人跑题聊起中午吃什么的外卖讨论：

然后我们把文件丢给「大象」并附上一句Prompt：

忽略所有寒暄和跑题内容。请基于这3000字，严格按照以下JSON 格式（包含：结论摘要、待办清单及责任人、一封用于抄送全员的跟进邮件草稿）输出结果。

「大象」给出的整理结果可以说是一目了然。

在剔除了无用信息之后，严格按照Prompt要求的那样，把会议内容给呈现了出来。

或许单看「大象」的结果不够明显，我们为此特意拿了Gemini-2.5-Flash-Lite做了下对比：

正所谓没有对比就没有伤害。

Gemini-2.5-Flash-Lite虽然也是实现了Prompt里的结构，但很明显一点就是，**太长**，也就意味着更多Token的消耗。

所以「大象」在会议整理任务上，Win Again。

**实测3：Agent任务，也是够快**

最后的实测，我们来上一道硬菜——**大火的Agent**。

我们用「大象」来模拟一个轻量级的Agent Loop：

读取一份包含四个月度数据的CSV销售报表 → 计算季度同比（需要调用数学逻辑） → 写一段简练的分析结论 → 自检数字是否准确。

从内容上来看，「大象」先是对数据做了快速分析和推理，并给出了初步结论；而后又完成了自检的工作，最终输出最终结论。

但更重要的还是速度：**只思考了10秒钟、输出2秒钟**。

由此可见，这个只有100B大小的「大象」，是真的做到了**快、准、省**。

而这一点，同样体现在**权威榜单**的评测中。

作为开发者圈层公认的模型测谎仪，**AI BENCHY**不看厂商宣传跑分，只聚焦指令遵循、响应速度、Token效率三大实战指标。

从AI BENCHY给出的结果来看，「大象」**输出Token**维持在了2500左右，说明每一分钱的API算力，都用在了刀刃上。

**平均响应时间**方面，「大象」平均时延被压制在了1秒左右，而其它选手则均是10-30秒的水平。

并且在最重要的输出质量上，它的一致性分数达到了9.6分（满分10分）！

因此，不论是从实测的体验，亦或是权威榜单的评测来看，「大象」已然是可以胜任日常绝大多数的工作了。

但也有不擅长的事

正所谓人无完人、模无完模。

「大象」毕竟走的是一条快、准、省的路线，所以它定然是在某些领域里有所妥协。

在我们的实测中，也发现了「大象」一些不太擅长的工作。

例如**复杂长链规划**，就是其中之一：

帮我主导一个出海东南亚市场的战略项目。请从市场调研开始，接着做竞品分析，然后给出渠道策略建议，最后帮我排一个半年的执行甘特图。

对于这个任务，「大象」直言无法执行。

因为它没有数据采集工具、没有分析工具、没有策略生成工具，也没有项目管理工具。

所以对于这类任务，我们不妨用**大模型规划 + 「大象」执行**的方式来操作。

再如，对于**非常非常新的知识**，「大象」也可能会心有余而力不足。

以及要求生成React 18新特性或刚更新的SDK代码时，「大象」可能会基于旧知识产生API幻觉。

所以如果你有这方面的需求，可以在Prompt中注入最新文档来解决。

最后，**Prompt过于模糊**，也会影响输出的质量。

例如跟「大象」说：

帮我写个好看的网页。

因此，在用「大象」的时候，我们还需切记，Prompt一定要细致、要有足够的约束力。

Agent 时代，“快、好、省”的小模型同样重要

其实，在这个时间节点发布这样一款主打**智效比**的模型，本身就是一种信号。

过去几年时间里，AI圈似乎都在比拼谁的模型更大、谁的训练成本更贵、谁在榜单上刷的分更高。

但行业走到今天，做加法的人太多了，需要有人站出来做减法。

因为Token浪费，已然成了行业高度重视的关键内容之一。

《财经》报道，全球企业级AI应用中，约有50%的Token正在被浪费。AI应用从对话转向执行后，Agent在复杂多轮任务中会不断累积历史文件、对话记录，大量冗余信息导致Token消耗指数级增长。

每一块钱都要花出响动，这是工程落地的铁律。而践行这条路线的，远不止百灵。

就在前不久，OpenAI连续发布了GPT-5.4 mini和GPT-5.4 nano两款小型模型，专为高频且对延迟敏感的任务设计。它们在保持了GPT-5系列优秀推理基因的前提下，实现了极高的吞吐量、极低的延迟和极具竞争力的性价比。

谷歌则通过开源小模型Gemma 4，以低成本、高推理力打入低端AI市场。Gemma 4的参数规模仅为同智力水平大模型的约二十分之一，过去需要花费上千万GPU成本才能跑动的模型，现在大概一张高阶显卡就能跑得动，成本差距将近十倍。

尤其是对于预算有限、算力资源匮乏、追求极致投入产出比的中小企业而言，无需为冗余Token支付高额算力成本，无需采购昂贵硬件部署大模型，轻量化的「大象」就能无缝承接代码开发、文档处理、数据复盘、轻量Agent执行等高频刚需工作。

在动辄消耗几十万Token的长文本办公场景中，响应压制在1秒内、少说废话的高效模型，正在成为AI从玩具跨越到生产力工具的坚实底座。

**快、准、省**，这三个看似接地气的字眼，正在成为AI高效上岗的标准。