Claude Opus 4.6 一天之内被超越两次，这次来自国产模型 | 爱范儿

前两天 APPSO 提到，大模型即将迎来史上最残酷的一个月，这就来了。

而Claude Opus 4.6 「不幸」成为背景板，一天之内被超越两次。

早上 Anthropic 发布了 Claude Mythos Preview，在 SWE-bench Pro 上拿下 77.8%，把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug，已经超过了绝大多数人类程序员。

可 Mythos Preview 暂时不对普通用户开放，与此同时，另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。

GLM-5.1 SWE-bench Pro 得分 58.4%，超过 Opus 4.6 的 57.3%，也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺：「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了！欢迎 GLM 5.1！」

clem

全球第三，开源第一。虽然没等来 DeepSeek V4，但开源新一哥还是来了，依然是咱们国产大模型。

说实话，我第一反应是又来了，大模型的「榜单狂欢」，每次发布会都是「史诗级进步」，各家模型在榜单上各领风数小时，这次的剧本有什么不同呢。

APPSO 看完 GLM-5.1 的技术细节和体验后，带你看看这个模型是什么水平

从 20 步到 1700 步，持续工作 8 小时

GLM-5.1 最让人没想到的，不是跑分，是它能工作多久。

智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」，是真的从零开始，画架构、写代码、跑测试、修 bug，历时 8 小时整，执行了 1200 多步，最后产出了一套功能完善的 Linux 桌面系统。

包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库，4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。

全程没有人参与测试、审查代码。GLM-5.1 甚至给自己的代码写了回归测试，而且跑过了。

知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目：用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词，每轮 1500-2000 字。

结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型，也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。

他的评价是：「GLM-5.1 大幅扩展了编程的适应范围，不再是前端 only 战神，也不只是 oneshot 样子货，是可以在复杂工况下充当编程主力。」但他也指出了问题：「超长上下文时容易幻觉爆炸，如果遇到 2 轮改不好一个问题，不要抱有侥幸，直接重开。」

去年年底，AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破点：以前的模型，包括 GLM-5，会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段，但无法在一条路走不通时主动切换策略。

GLM-5.1 的训练目标就是突破这个瓶颈，让模型能够在一个固定策略内进行增量调优，当收益趋于停滞时，主动分析 Benchmark 日志、定位当前瓶颈，然后跳转到结构性不同的方案。

向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代，把查询吞吐从 3108 QPS 一路推到 21472 QPS，提升了 6.9 倍。

这个过程中，模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由，再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降，因为模型在探索新方向时会暂时打破约束，随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在 KernelBench Level 3 优化基准上，GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代，最终取得 3.6 倍的几何平均加速比，显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel，运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化，覆盖了从高层算子融合到微架构级调优的完整技术栈。

KernelBench

还有一个更有意思的测试：Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务，需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432，在开源模型中排名第一，接近 Claude Opus 4.5 的水平。

744B 参数，零英伟达芯片，成本降低 97%

GLM-5.1 的技术规格值得细看：744B 参数的混合专家模型（MoE），每个 token 激活 40B 参数，28.5T tokens 训练数据，集成了 DeepSeek Sparse Attention（DSA）来降低部署成本同时保持长上下文能力。200K 上下文窗口，最大输出 131,072 tokens。

更关键的是，整个模型全部使用华为昇腾 910B 芯片训练，没有英伟达 GPU 参与。在算力被卡脖子的情况下，国产模型依然能做到全球第三、开源第一。

开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1，体验上没有任何差别，但成本从 1000 美元暴砍至 30 美元左右，降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5，输出成本是 1/8。简单来说：接近 Opus 的能力，20% 的价格。

而且GLM-5.1 是开源的。MIT License，最宽松的开源许可证之一。你可以拿去改，拿去商用，拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架，可以直接在本地部署。

当然 GLM-5.1 也不是没有提升的空间，部分开发者反馈，GLM-5.1 的推理速度只有 44.3 tokens/秒，在同类产品没太大优势。复杂任务甚至要一小时起步，哪怕 Pro 套餐额度是 Claude 的 15 倍，也可能不太够用。

这些问题都是真实存在的。GLM-5.1 不是完美的，但这不妨碍它成为一个里程碑。

GLM-5.1 的意义，不在于它比 Opus 4.6 强多少，而在于它证明了，在算力被卡脖子的情况下，国产模型依然能做到开源第一。而且它是开源的，任何人都可以用，任何人都可以改。

你睡觉的 8 小时，现在可以是 AI 上班的 8 小时了。而且这个 AI ，是开源的，是国产的，是任何人都可以用的。

附体验方式

1. 官方API接入
– BigModel 开放平台：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai：https://docs.z.ai/guides/llm/glm-5.1

2. 产品体验
– GLM-5.1即将登陆Z.ai：https://chat.z.ai

3. 开源链接
– GitHub：https://github.com/zai-org/GLM-5
– Hugging Face：https://huggingface.co/zai-org/GLM-5.1
– ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1