智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录
TL;DR · AI 摘要
智谱发布GLM-5.1高速版API,实现400 tokens/s的全球最快大模型API速度,同时保持旗舰级能力,适用于AI编程、实时交互等高延迟要求场景。
核心要点
- GLM-5.1高速版API达到400 tokens/s,刷新全球大模型API速度纪录。
- 该模型在保持旗舰级能力的同时,实现了低延迟,适用于高延迟要求的场景。
- 通过推理引擎、调度系统和基础设施层面的优化,实现稳定生产级能力。
结构提纲
按章节快速跳转。
智谱宣布面向部分企业客户提供GLM-5.1高速版API,该API达到400 tokens/s的速度,刷新全球大模型API速度纪录。
GLM-5.1高速版不仅速度快,还保持了旗舰级的能力,适用于AI编程、实时交互等对延迟要求高的场景。
通过在推理引擎、调度系统和基础设施三个层面的系统级优化,实现稳定生产级的高速性能。
针对GLM-5.1的架构特点,重写核心推理路径,提升单卡吞吐能力。
通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟。
围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS的稳定可用性。
抛弃Runtime层的动态调度,在编译期将计算图静态编排为一个常驻GPU的persistent Engine Kernel,提升效率。
- ·应用场景
适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 智谱GLM-5.1高速版发布
金句 / Highlights
值得收藏与分享的关键句。
GLM-5.1高速版API达到400 tokens/s,刷新全球大模型API速度纪录。
首次在国产大模型中,将旗舰级能力与低延迟同时带入生产环境。
通过推理引擎、调度系统与底层基础设施三个层面的系统级优化,实现稳定生产级能力。
智谱 GLM-5.1 高速版 AI 模型发布,跑出全球最快速度 400 tokens/s - IT之家
App公众号投稿评论[顶部](javascript:; "顶部")
[](https://www.ithome.com/)[](https://img.ithome.com/app/songs/index.html)
- 日夜间 随系统 浅色 深色
- 主题色 黑色
- RSS订阅
- [收藏IT之家](https://www.ithome.com/0/953/717.htm# "IT之家")
注册[登录](javascript:;)
搜索
小米 YU7 GT 正式发布,38.99 万元起小米 17 Max 手机发布
广 告
智谱 GLM-5.1 高速版 AI 模型发布,跑出全球最快速度 400 tokens/s
2026/5/22 10:02:46 来源:IT之家作者:汪淼责编:汪淼
感谢IT之家网友 取什么名 的线索投递!
IT之家 5 月 22 日消息,智谱今日宣布面向部分企业客户提供 GLM-5.1 高速版 API“GLM-5.1-highspeed”。
该模型输出速度达到 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。

更重要的是,在过去,“快”往往意味着“小”,高速模型几乎总是轻量级模型。GLM-5.1 高速版打破了这一行业惯例,首次在国产大模型中,将旗舰级能力与低延迟同时带入生产环境。
GLM-5.1 高速版 API“GLM-5.1-highspeed”由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:
- 推理引擎层:针对 GLM-5.1 的架构特点,重写了核心推理路径,提升了单卡吞吐能力;
- 调度系统层:通过动态批处理、请求合并和 KV 缓存调度优化,降低高并发场景下的尾延迟;
- 基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保 400 TPS 不是一个“峰值”数字,而是稳定可用的生产级能力。
模型推理速度的理论上限由硬件决定,但真实系统通常距离物理极限仍存在巨大差距。核心问题在于推理框架的调度方式。当前主流框架仍以 operator / kernel 作为基本调度单元,每个算子都要经历“host 启动 → 读权重 → 计算 → 写回 → 同步”的严格完整链路。当推理进入单 token、小 batch、多卡 TP 的场景后,算子被切到微秒级,原本可忽略的调度、访存与同步开销会被迅速放大。
TileRT 的设计思路,是彻底抛弃 Runtime 层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。
- 在单卡之内,计算、异步 IO 与通信被全部拆解为 Tile 级微任务,整个推理过程只 Launch 一次 Engine Kernel,算子间的中间结果不再写回 Global Memory,而是经由 Register、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步被悉数压进同一个常驻 kernel。
- 在多卡尺度上,TileRT 进一步将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑。不同 GPU rank 不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同 worker。
GLM-5.1 高速版适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向智谱 MaaS 平台部分企业客户开放服务。
IT之家附模型链接如下:
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
投诉水文 我要纠错
文章价值 5.0 分 25人打分
25
0
[](https://connect.qq.com/widget/shareqq/index.html?url=https%3a%2f%2fwww.ithome.com%2f0%2f953%2f717.htm&title=%e6%99%ba%e8%b0%b1+GLM-5.1+%e9%ab%98%e9%80%9f%e7%89%88+AI+%e6%a8%a1%e5%9e%8b%e5%8f%91%e5%b8%83%ef%bc%8c%e8%b7%91%e5%87%ba%e5%85%a8%e7%90%83%e6%9c%80%e5%bf%ab%e9%80%9f%e5%ba%a6+400+tokens%2fs&summary= "分享到QQ")[](https://www.ithome.com/0/953/717.htm# "分享到微信")[](https://service.weibo.com/share/share.php?url=https%3a%2f%2fwww.ithome.com%2f0%2f953%2f717.htm&title=%e6%99%ba%e8%b0%b1+GLM-5.1+%e9%ab%98%e9%80%9f%e7%89%88+AI+%e6%a8%a1%e5%9e%8b%e5%8f%91%e5%b8%83%ef%bc%8c%e8%b7%91%e5%87%ba%e5%85%a8%e7%90%83%e6%9c%80%e5%bf%ab%e9%80%9f%e5%ba%a6+400+tokens%2fs "分享到新浪微博")
相关文章
- 智谱 AutoClaw 上线自进化机制与 Skill 商店,避免再次“踩坑”
- 智谱 GLM-5.1“Day0”上线华为云,在昇腾算力上实现 Layer 级 MOE 绝对均衡
- 智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1,同时提价 10%
- 智谱发布 GLM-5V-Turbo 多模态 Coding 基座模型,为龙虾安上眼睛
- 智谱 2025 年营收 7.24 亿元同比增长 131.9%,经调整净亏损 31.82 亿元
- 智谱 GLM-5.1 模型公布,所有 Coding Plan 用户均可调用
- 日榜
- 周榜
- 月榜
- [小米 YU7 GT 正式发布:38.99 万元起,“大满配”42.99 万元](https://www.ithome.com/0/953/623.htm "小米 YU7 GT 正式发布:38.99 万元起,“大满配”42.99 万元")
- [小米 17 Max 手机发布:8000mAh 电池、2 亿像素徕卡主摄,国补到手价 4299 元起](https://www.ithome.com/0/953/605.htm "小米 17 Max 手机发布:8000mAh 电池、2 亿像素徕卡主摄,国补到手价 4299 元起")
- [雷军豪言“再次挑战 Model Y”:小米 YU7 标准版发布,23.35 万元](https://www.ithome.com/0/953/614.htm "雷军豪言“再次挑战 Model Y”:小米 YU7 标准版发布,23.35 万元")
- [雷军回应只公布锁单数据:去年小米 YU7 三分钟大定超过 20 万辆,行业没有人信,觉得数据有问题](https://www.ithome.com/0/953/652.htm "雷军回应只公布锁单数据:去年小米 YU7 三分钟大定超过 20 万辆,行业没有人信,觉得数据有问题")
- [比亚迪第三代元 PLUS 上市:二代刀片电池 + 闪充、可选天神之眼 B,售价 11.99 万元起](https://www.ithome.com/0/953/618.htm "比亚迪第三代元 PLUS 上市:二代刀片电池 + 闪充、可选天神之眼 B,售价 11.99 万元起")
- [小米手环 10 Pro 发布:支持苹果生态、游戏模式,首销 399 元起](https://www.ithome.com/0/953/607.htm "小米手环 10 Pro 发布:支持苹果生态、游戏模式,首销 399 元起")
- [小米雷军回应 SU7 Ultra 纽北纪录被保时捷反超:祝贺保时捷破纪录,车企之间你追我赶才是更健康的态度](https://www.ithome.com/0/953/654.htm "小米雷军回应 SU7 Ultra 纽北纪录被保时捷反超:祝贺保时捷破纪录,车企之间你追我赶才是更健康的态度")
- [小米新品发布会一文汇总:YU7 GT 正式上市,手机 / 耳机 / 手环联袂登场](https://www.ithome.com/0/953/645.htm "小米新品发布会一文汇总:YU7 GT 正式上市,手机 / 耳机 / 手环联袂登场")
- [小米首款耳夹式耳机发布:IP57、单只耳机重 5.5g,首销 799 元](https://www.ithome.com/0/953/606.htm "小米首款耳夹式耳机发布:IP57、单只耳机重 5.5g,首销 799 元")
- [7 分 22 秒 755:小米 YU7 GT 刷新纽北 SUV 圈速纪录 14s,成为纽北史上最速 SUV](https://www.ithome.com/0/953/621.htm "7 分 22 秒 755:小米 YU7 GT 刷新纽北 SUV 圈速纪录 14s,成为纽北史上最速 SUV")
- [小米汽车生态周边上新:直流家用充电桩 20kW 首销 8999 元,车载桌板 299 元](https://www.ithome.com/0/953/626.htm "小米汽车生态周边上新:直流家用充电桩 20kW 首销 8999 元,车载桌板 299 元")
- [小米胡峥楠:纽北是高性能车试炼场,是被国际用户认可、同行尊重的必经之路](https://www.ithome.com/0/953/655.htm "小米胡峥楠:纽北是高性能车试炼场,是被国际用户认可、同行尊重的必经之路")
- [618 预热大促 520 小高潮开启:华为 MatePad Mini 悦读版 2058 元,30 秒速读攻略](https://www.ithome.com/0/951/577.htm "618 预热大促 520 小高潮开启:华为 MatePad Mini 悦读版 2058 元,30 秒速读攻略")
- [IT之家,十五岁~](https://www.ithome.com/0/950/954.htm "IT之家,十五岁~")
- [特斯拉监督版 FSD 官宣登陆中国](https://www.ithome.com/0/953/120.htm "特斯拉监督版 FSD 官宣登陆中国")
- [小米 YU7 GT 正式发布:38.99 万元起,“大满配”42.99 万元](https://www.ithome.com/0/953/623.htm "小米 YU7 GT 正式发布:38.99 万元起,“大满配”42.99 万元")
- [三大运营商回应“即将免月租”:联通推按量计费,移动电信暂无计划](https://www.ithome.com/0/951/378.htm "三大运营商回应“即将免月租”:联通推按量计费,移动电信暂无计划")
- [小米 17 Max 手机发布:8000mAh 电池、2 亿像素徕卡主摄,国补到手价 4299 元起](https://www.ithome.com/0/953/605.htm "小米 17 Max 手机发布:8000mAh 电池、2 亿像素徕卡主摄,国补到手价 4299 元起")
- [上市前被砍,小米 Air 超轻薄旗舰工程机规格曝光](https://www.ithome.com/0/951/399.htm "上市前被砍,小米 Air 超轻薄旗舰工程机规格曝光")
- [中国电信推出试商用 Token 套餐,最低每月 9.9 元](https://www.ithome.com/0/951/532.htm "中国电信推出试商用 Token 套餐,最低每月 9.9 元")
- [多家银行关停独立信用卡 App,告别“跑马圈地”阶段](https://www.ithome.com/0/951/525.htm "多家银行关停独立信用卡 App,告别“跑马圈地”阶段")
- [苹果 iPhone 17 Pro 系列降价 1000 元后,淘宝天猫搜索暴涨 7 倍](https://www.ithome.com/0/951/725.htm "苹果 iPhone 17 Pro 系列降价 1000 元后,淘宝天猫搜索暴涨 7 倍")
- [张雪机车 WSBK 捷克站再夺冠,斩获赛季第五冠](https://www.ithome.com/0/951/557.htm "张雪机车 WSBK 捷克站再夺冠,斩获赛季第五冠")
- [外媒上手特朗普 T1 手机:不再标榜“美国制造”,预估基于 HTC U24 Pro 改造](https://www.ithome.com/0/952/695.htm "外媒上手特朗普 T1 手机:不再标榜“美国制造”,预估基于 HTC U24 Pro 改造")
- [618 预热大促 16 日继续:小米 15 Ultra 立打 6 折享 12 期免息,30 秒速读首发期攻略](https://www.ithome.com/0/949/525.htm "618 预热大促 16 日继续:小米 15 Ultra 立打 6 折享 12 期免息,30 秒速读首发期攻略")
- [迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源](https://www.ithome.com/0/942/955.htm "迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源")
- [武汉大学就 OPPO 母亲节文案发声:极不认同内容表述和价值倾向](https://www.ithome.com/0/948/487.htm "武汉大学就 OPPO 母亲节文案发声:极不认同内容表述和价值倾向")
- [618 预热大促 520 小高潮开启:华为 MatePad Mini 悦读版 2058 元,30 秒速读攻略](https://www.ithome.com/0/951/577.htm "618 预热大促 520 小高潮开启:华为 MatePad Mini 悦读版 2058 元,30 秒速读攻略")
- [OPPO 就母亲节文案事件发布问责通告,中国区业务负责人段要辉职级直降两级](https://www.ithome.com/0/948/677.htm "OPPO 就母亲节文案事件发布问责通告,中国区业务负责人段要辉职级直降两级")
- [小米 MIX 5 手机曝光:真全面屏回归、磁吸镜头技术,登陆全球市场](https://www.ithome.com/0/946/089.htm "小米 MIX 5 手机曝光:真全面屏回归、磁吸镜头技术,登陆全球市场")
- [去掉机顶盒!我国一体化电视全国推广正式启动](https://www.ithome.com/0/942/695.htm "去掉机顶盒!我国一体化电视全国推广正式启动")
- [IT之家,十五岁~](https://www.ithome.com/0/950/954.htm "IT之家,十五岁~")
- [小米首款增程全尺寸 SUV 低伪装路试谍照曝光:前大灯组造型锐利、车头可见激光雷达凸起](https://www.ithome.com/0/946/462.htm "小米首款增程全尺寸 SUV 低伪装路试谍照曝光:前大灯组造型锐利、车头可见激光雷达凸起")
- [iPhone 17 Pro Max 换新低至 7999 元:苹果 618 零点开启,17 系列至高直降千元](https://www.ithome.com/0/950/631.htm "iPhone 17 Pro Max 换新低至 7999 元:苹果 618 零点开启,17 系列至高直降千元")
- [追觅 CEO 俞浩发文炮轰小红书“非常非常烂”:价值观和盈利模式都有毒,纯靠激发人性中的阴暗面来获取流量](https://www.ithome.com/0/943/729.htm "追觅 CEO 俞浩发文炮轰小红书“非常非常烂”:价值观和盈利模式都有毒,纯靠激发人性中的阴暗面来获取流量")
- [小米自研芯片玄戒 O3 曝光:主频突破 4GHz、能效核频率飙升 68%、GPU 频率提升约 25%](https://www.ithome.com/0/944/840.htm "小米自研芯片玄戒 O3 曝光:主频突破 4GHz、能效核频率飙升 68%、GPU 频率提升约 25%")
- ### 人工智能最热文章
- [宇树发布全球首款量产版载人机甲 GD01:可变形,售价 390 万元起](https://www.ithome.com/0/949/213.htm "宇树发布全球首款量产版载人机甲 GD01:可变形,售价 390 万元起")
- [中国电信推出试商用 Token 套餐,最低每月 9.9 元](https://www.ithome.com/0/951/532.htm "中国电信推出试商用 Token 套餐,最低每月 9.9 元")
- [阿里千问最强智能体模型 Qwen3.7-Max 发布](https://www.ithome.com/0/952/670.htm "阿里千问最强智能体模型 Qwen3.7-Max 发布")
- [宇树 G1 人形机器人在韩国佛门“受戒”:法名“迦悲”,需遵守不过度充电等戒律](https://www.ithome.com/0/947/274.htm "宇树 G1 人形机器人在韩国佛门“受戒”:法名“迦悲”,需遵守不过度充电等戒律")
- [腾讯张军官宣操作系统层级 AI 助手“马维斯”正式上工,Windows、Mac、安卓端同步上线](https://www.ithome.com/0/953/096.htm "腾讯张军官宣操作系统层级 AI 助手“马维斯”正式上工,Windows、Mac、安卓端同步上线")
- [腾讯马化腾称一年前以为上了 AI 的船结果发现漏水了,现在站上去但还坐不下去](https://www.ithome.com/0/949/906.htm "腾讯马化腾称一年前以为上了 AI 的船结果发现漏水了,现在站上去但还坐不下去")
- [中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型](https://www.ithome.com/0/947/625.htm "中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型")
- [阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI](https://www.ithome.com/0/952/041.htm "阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI")
- [AI 终端智能化分级国标出炉:L1~L4 等级,涉及手机、电脑、眼镜、电视、耳机等](https://www.ithome.com/0/947/582.htm "AI 终端智能化分级国标出炉:L1~L4 等级,涉及手机、电脑、眼镜、电视、耳机等")
- [腾讯 AI 设计智能体 Ardot 公测:一句话生成可编辑设计稿,一键转代码](https://www.ithome.com/0/951/677.htm "腾讯 AI 设计智能体 Ardot 公测:一句话生成可编辑设计稿,一键转代码")
- [“让 Token 消耗降低 61%”:腾讯开源 Agent Memory](https://www.ithome.com/0/950/415.htm "“让 Token 消耗降低 61%”:腾讯开源 Agent Memory")
- [马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造](https://www.ithome.com/0/952/106.htm "马斯克邀你体验 Cursor 最强 AI 模型:Composer 2.5 登场,基于 Kimi K2.5 打造")
软媒旗下网站:IT之家最会买 - 返利返现优惠券iPhone之家Win7之家Win10之家Win11之家
关于IT之家 |联系我们 |加入软媒 |WAP版 |网站地图 |Archiver
IT之家,软媒旗下科技门户网站 - 爱科技,爱这里。
Copyright © RuanMei.com, All Rights Reserved.
青岛软媒网络科技有限公司版权所有