智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s
来源:证券时报网作者:聂英好2026-05-22 12:23
字号
超大
标准

5月22日,智谱盘中一度涨超22%,截至发稿,智谱涨幅收窄至20%左右,报1219港元。消息面上,今日智谱宣布,面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”,其模型输出速度达到400 tokens/s,刷新当前全球大模型厂商API的速度上限。

这一速度意味着,一位写作者连续伏案数天才能写完的文字量,它在1分钟内便交付完毕;一名工程师埋头敲键盘3天才能完成的开发任务,它能在喝一杯咖啡的时间里完成。

在过去,“快”往往意味着“小”,高速模型几乎总是轻量级模型。据了解,GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中,将旗舰级能力与极致低延迟同时带入生产环境,无需再为响应速度牺牲模型质量。

过去一年,国内大模型的Coding(编程)能力快速提升,而Coding恰恰是AI应用中对速度较为敏感的场景之一。

通常,一个Coding Agent(智能体编程)任务往往需要经历数十轮模型调用,单轮响应只要慢上几秒,整体耗时就可能拉长十几分钟;面对长程任务的大型重构项目,每一步响应慢1秒,逐步累加又是几分钟的空等。

智谱方面表示,GLM-5.1高速版在完整保留GLM-5.1能力的基础上,第一次拥有“即问即答”的响应速度,带来的体感完全不同,模型开始真正成为一个可以实时协作的伙伴,和用户坐在一起盯着画布调参。

例如,用户使用GLM-5.1写代码像开启了10倍速,模型能够一边理解工程上下文,一边持续生成代码与修改方案,用户刚输入需求,函数、接口与调用链已经同步展开。

据智谱介绍,GLM-5.1高速版API“GLM-5.1-highspeed”由智谱GLM团队与TileRT团队联合打造,主要在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化。GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,现已面向智谱MaaS平台部分企业客户开放。

“我们将持续推进推理引擎的工程优化,进一步扩大高速模型的服务能力,让更多开发者与企业能够获得低延迟、高智能的生产级AI能力。”智谱表示。

责任编辑: 刘灿邦
声明:证券时报力求信息真实、准确,文章提及内容仅供参考,不构成实质性投资建议,据此操作风险自担
下载"证券时报"官方APP,或关注官方微信公众号,即可随时了解股市动态,洞察政策信息,把握财富机会。
用户评论
登录后可以发言
网友评论仅供其表达个人看法,并不表明证券时报立场
发表评论
暂无评论
时报热榜
换一换
    热点视频
    换一换