
前两天 APPSO 提到,大模型即将迎来史上最残酷的一个月,这就来了。
而Claude Opus 4.6 「不幸」成为背景板,一天之内被超越两次。
早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug,已经超过了绝大多数人类程序员。
可 Mythos Preview 暂时不对普通用户开放,与此同时,另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。
GLM-5.1 SWE-bench Pro 得分 58.4%,超过 Opus 4.6 的 57.3%,也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺:「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了!欢迎 GLM 5.1!」

全球第三,开源第一。虽然没等来 DeepSeek V4,但开源新一哥还是来了,依然是咱们国产大模型。
说实话,我第一反应是又来了,大模型的「榜单狂欢」,每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时,这次的剧本有什么不同呢。
APPSO 看完 GLM-5.1 的技术细节和体验后,带你看看这个模型是什么水平
GLM-5.1 最让人没想到的,不是跑分,是它能工作多久。
智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」,是真的从零开始,画架构、写代码、跑测试、修 bug,历时 8 小时整,执行了 1200 多步,最后产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。
全程没有人参与测试、审查代码。GLM-5.1 甚至给自己的代码写了回归测试,而且跑过了。
知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。
结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。
他的评价是:「GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但他也指出了问题:「超长上下文时容易幻觉爆炸,如果遇到 2 轮改不好一个问题,不要抱有侥幸,直接重开。」
去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。
智谱在技术报告里解释了关键突破点:以前的模型,包括 GLM-5,会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。
GLM-5.1 的训练目标就是突破这个瓶颈,让模型能够在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案。
向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询吞吐从 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。
这个过程中,模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。
在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代,最终取得 3.6 倍的几何平均加速比,显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有一个更有意思的测试:Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432,在开源模型中排名第一,接近 Claude Opus 4.5 的水平。
GLM-5.1 的技术规格值得细看:744B 参数的混合专家模型(MoE),每个 token 激活 40B 参数,28.5T tokens 训练数据,集成了 DeepSeek Sparse Attention(DSA)来降低部署成本同时保持长上下文能力。200K 上下文窗口,最大输出 131,072 tokens。
更关键的是,整个模型全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU 参与。在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。
开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验上没有任何差别,但成本从 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5,输出成本是 1/8。简单来说:接近 Opus 的能力,20% 的价格。
而且GLM-5.1 是开源的。MIT License,最宽松的开源许可证之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。
当然 GLM-5.1 也不是没有提升的空间,部分开发者反馈,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同类产品没太大优势。复杂任务甚至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。
这些问题都是真实存在的。GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。
GLM-5.1 的意义,不在于它比 Opus 4.6 强多少,而在于它证明了,在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。
你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI ,是开源的,是国产的,是任何人都可以用的。
附体验方式
1. 官方API接入
– BigModel 开放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai:https://docs.z.ai/guides/llm/glm-5.1
2. 产品体验
– GLM-5.1即将登陆Z.ai:https://chat.z.ai
3. 开源链接
– GitHub:https://github.com/zai-org/GLM-5
– Hugging Face:https://huggingface.co/zai-org/GLM-5.1
– ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1