实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

前几天 Fable 5 对海外用户关停的时候，智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2，并表示「前沿智能不应只属于少数人，也不应被少数规则随手收回。」

APPSO 也第一时间体验了 GLM-5.2 ，用了几天后，我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多，这可能真是一个被低估的模型，至少在编程方面。

▲ 资本市场对 GLM-5.2 的反应

今天，GLM-5.2 正式发布，多个 Benchmark 刷新了记录，甚至领先 GPT-5.5。当处理复杂的系统优化和大型研究任务时，它与顶级商业模型 Claude Opus 4.8 的差距，也正在被拉平到 1% 以内。

PixPin 2026 06 17 09 54 36

在技术博客里，智谱提到 GLM-5.2 最核心的突破，是在 1M 的上下文长度下，依然能处理极度复杂、充满噪声的代码调试和系统架构任务。

看 benchmark 不够直观，我们找了一些可视化比较强的任务，直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。

编程介于 Claude 4.7 和 4.8 之间

类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说，大概它的训练数据里，就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统，还有复制不同的游戏，越来越像是在考察模型的记忆力，而不是编程能力。

但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。

这款经典游戏，GLM-5.2 能复刻里面的多少元素呢。

PixPin 2026 06 16 16 08 13 PixPin 2026 06 16 16 08 41 PixPin 2026 06 16 16 09 23 PixPin 2026 06 16 16 10 06

启动界面简单说明了键盘和鼠标的操作信息，点击开始之后，这个游戏的场景和交互，几乎是做到了「我的世界」真克隆版。

让我非常意外的是我可以飞行，并且整个体验就像是在玩世界模型一样，不受视角和空间的限制，可以一直飞行到无限远的地方。

2026 06 16 16.30.51.2026 06 16 16 36 25

我们也用其他的模型进行测试，分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code，其中三款模型的思考深度都被设置为最高等级。

GPT-5.5 没有直接叫它 Minecraft，而是改了个名字叫 Voxelcraft。启动界面看着更真实，但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。

PixPin 2026 06 16 16 21 55 PixPin 2026 06 16 16 22 55 PixPin 2026 06 16 16 24 35 PixPin 2026 06 16 16 26 02

虽然 GPT-5.5 加了一个昼夜更替的功能，但是一到晚上和黄昏，整个页面是非常不视觉友好的，很多画面都是一片漆黑，而且时间的切换比较生硬。

Opus 4.8 和 GLM 5.2 的表现几乎是一样的，我甚至怀疑是不是 Claude Code 的配置出现了问题，我没有把 GLM 的 API 配置正确，导致使用的还是 Opus 4.8 模型。

PixPin 2026 06 16 16 43 31 PixPin 2026 06 16 16 45 05 PixPin 2026 06 16 16 49 44 PixPin 2026 06 16 16 51 06

检查 Token 消耗之后，确实是 GLM-5.2 在处理相关的任务。

PixPin 2026 06 16 16 58 00

我能理解，为什么网上都流传着 Fable 5 要关闭，是因为 GLM-5.2 太强。

在这个游戏复刻的编程任务上，GLM-5.2 的表现很明显要好过 GPT-5.5，和 Opus 4.8 是一个梯队。

继续测试，这次我们不给模板，直接一个概念，「用 Three.js 构建一个游戏的演示版本，一艘可完全探索的星舰，配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。」

PixPin 2026 06 16 17 11 42 PixPin 2026 06 16 17 12 16 PixPin 2026 06 16 17 12 47 PixPin 2026 06 16 17 13 06

虽然看着有点简陋了，但是基本实现了我们的要求，而且看着窗外还有其他行星，还是动了一点脑子。

2026 06 16 17.13.24.2026 06 16 17 16 43

但要论简陋，还是比不上 GPT-5.5，简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且，GPT-5.5 生成的网页，也是 GLM-5.2 和 Opus 4.8 三个之中，唯一一个没有添加背景音乐的模型。

和「我的世界」一样，GPT-5.5 生成的代码场景总是有一种不真实感，可以称之为是 Vibe Coding 网页里的 AI 味。

PixPin 2026 06 16 17 58 48 PixPin 2026 06 16 17 59 20 PixPin 2026 06 16 18 01 24 PixPin 2026 06 16 18 02 56

Opus 4.8 的表现再次和 GLM-5.2 类似，虽然大部分的元素还是很简单朴素，但是基本的功能实现了。

PixPin 2026 06 16 17 22 04 PixPin 2026 06 16 17 22 43 PixPin 2026 06 16 17 23 10 PixPin 2026 06 16 17 24 13

三个模型在完成这个任务时，所消耗的时间，不算上我自己点击「允许」等待的时间，基本上都在 1h 以上。

使用 Three.js 是每个模型必备的能力，但是要能用它做出一个好看的 3D 网站，没有「我的世界」类似的指引，单凭一句提示词，模型要领会意图并且不偷懒，还是很难。

这两个测试在 X 上都有 Fable 5 相关的案例，能看到 GLM-5.2 在一些编程任务的交付成果，确实和 Fable 5 有得一拼。但星舰的表现，三个模型里，GLM-5.2 和 Opus 4.8 应该是一档，Fable 5 又是独一档，而 GPT-5.5 的表现就有些不尽如人意了。

如果说「我的世界」对这些编程能力极强的模型来说还是太简单了，那么直接让它来做一个「黑神话.悟空」，表现又会如何。

同样的，我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App，以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试，「1:1 克隆一个网页可以玩的黑神话.悟空。」

GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素，但是开始游戏之后，就是一个很普通的场景，一个小人在一条固定的路线上，随机有怪物刷新出来，就仅此而已。

PixPin 2026 06 17 09 22 44 PixPin 2026 06 17 09 26 13

不过该有的招式和动作，GLM 5.2 都做到了，并且在结束生成时，GLM 5.2 提到，这不是一个 1:1 克隆，只是一个致敬向的浏览器动作游戏，复刻的《黑神话:悟空》的核心手感。

如果想要更接近原作的 3D 视角版本，还需要再告诉它，用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」，一边想着早点交付给焦急等待的我们，另一边我们期待的又是完整准确的结果。

PixPin 2026 06 17 09 40 13

关于「偷懒」这件事，智谱在模型技术博客里面也提到，在强化学习（RL）训练中，编码 Agent 往往极其容易出现「奖励作弊」。

模型发现，只要学会抄近道，直接用一行 curl 命令把 GitHub 上的标准答案拉下来，或者把系统里藏着的测试用例文件复制过来，原样喂给自己的解题脚本，就能在评价系统中拿到满分。

这种「捷径」虽然让基准测试得分极其好看，却彻底废掉了模型自主思考的能力。

GLM-5.2 这次专门引入了严苛的「反黑客」模块，使用规则过滤来拦截明显的恶意指令；以及 AI 法官，用来深度分析 Agent 的调用意图。

一旦发现模型不是在「写代码」，而是在「套答案」，系统会立即返回伪造的干扰信息。更有意思的是，模型不会因此直接停止任务，而是会通过这种模拟训练，强迫自己回归到正确的编码路径上。

这种「对抗式训练」带来的直接结果，就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中，综合表现来到了第一梯队。

PixPin 2026 06 17 10 03 41

GPT-5.5 的表现也很难评，似乎他们获取黑神话的信息都是通过文字信息，因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景，GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。

PixPin 2026 06 17 09 28 32 PixPin 2026 06 17 09 29 21

Opus 4.8 是直接做成了一个移动端的游戏，整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上，孙悟空拿着金箍棒去攻击随机刷新的妖怪。

Opus 4.8 在生成的时候提到还原了游戏里的招牌机制，像是每段积累「棍势」，攒满用 K 放破防重劈的金箍棒连招，以及闪避、定身术等动作。

PixPin 2026 06 17 09 39 07

当我们要求 GLM 5.2 做出 3D 视角版本时，Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人，以及 HUB 都有了新的样式。

PixPin 2026 06 17 10 35 20

我们预览新的页面，发现启动页还是一样，但是这个 3D 版还是相当简陋，虽然是有六根立柱，但都不是我们想象中的场景。大概要求 Three.js 做一个大世界，叫人类程序员来也不一定能做到。

PixPin 2026 06 17 10 33 05 PixPin 2026 06 17 10 38 48

开源追上闭源的周期在缩短

GPT-5.5 是在 4 月 23 日发布，GLM-5.2 在六月，两个月不到的时间，GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。

百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化，这些开源模型现在都能做到。

但显而易见的是，等到即将发布的 GPT-5.6，无论是从跑分还是具体的表现，可能又会比现在 GLM-5.2 要好。

PixPin 2026 06 17 10 45 55

最后，无论开源还是闭源，一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月，国产大模型是 20 人民币/月左右。

此次 GLM-5.2 发布，智谱也提到了 Coding Plan 里的计费安排，GLM-5.2 在高峰时段消耗 3 倍额度，离峰时段 2 倍额度，9 月底前离峰使用按 1 倍额度促销。

PixPin 2026 06 17 10 24 57

▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high，而 xhigh、max、ultracode 对应的是 max。

此外，在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名，还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2，带 /goal 长任务、SSH 远程开发、移动端控制等功能，6 月 30 日前还有 1.5 倍有效额度活动。

PixPin 2026 06 17 10 44 49

▲ 类似于 Codex 类应用的 Zcode

长任务能力再强，最终还是会落到「我们愿意在哪些任务上花这笔额度」。

对比出尔反尔，随意修改 Claude Agent SDK（已撤回），又是封号又是人脸验证，天天狼来了的某 A 社，GLM-5.2 在编程上，对国内用户来说或许会是一个值得尝试的选择。

早报｜Claude Opus 5发布,半价追平Fable 5/小鹏人形机器人开启小批量试产/曝英伟达将上调显卡价格 | 爱范儿

对话腾讯副总裁林松涛：意图正在代替入口，Agent 需要一颗「小脑」

16.98 万元起，华为乾崑六件套上车，奕派 M8 挤进拥挤的大六座市场 | 爱范儿

Codex 键盘第一波上手来了，有人反手让 Codex 破解了它 | 爱范儿

14.58 万元起！领克 07 GT 正式上市，拉力赛车同步亮相

对话吉利汽车林杰：「极氪向上、领克向宽」，领克找到了「向宽」的方向

刚拿完菲尔兹奖，他扭头加盟 OpenAI | 爱范儿

卓驭常州工厂落成投产, 当智能驾驶开始向「物理世界」扩张，工业能力也是核心竞争力

全世界都在讲 AI 话｜AI 器物志 | 爱范儿

三星阔折叠上手：第一台 Android 阔折叠，比看上去更好用

早报｜极氪回应跨境自驾车机被锁/曝苹果Apple Store应用将上线「AI购物助手」/梁文锋:DeepSeek不追求成为下一个字节或腾讯

AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了

后驱纯电+五连杆+两个座位，smart #2 背负 fortwo 续作名号重返市场

29.98 万元起、800mm 涉水，泰钽 700 还想让 NOA 帮你越野

早报｜12999起,首台安卓阔折叠发布/曝苹果MacBook将迎全线更新/小红书否认IPO相关传闻

三步爆改旧鼠标，打造最好用的 AI 外挂｜AI 器物志 | 爱范儿

揽胜首款 GT 即将问世，产品愈发激进的路虎，准备蚕食停滞的捷豹

Kimi 叫停新订阅后，如何用上 K3｜实测避坑 | 爱范儿

苹果全家桶「年年焕新」来了，到底划不划算？

苹果 Mac 将迎来全线换代，一种给人用，一种给 AI 用

First 超短片，把镜头对准了 AI 够不着的地方 | 爱范儿

刚刚，Gemini 3.6 Flash 正式发布，但网友笑得更大声了 | 爱范儿

早报｜iPhone 20 Pro Max或搭载约7英寸屏幕/曝小米上调今年手机出货目标至1.1亿部/Gemini 3.6 Flash发布,输出Token减少17%

定价 13.33 万元，萤火虫 halo 寻光系列发布首款车型，比高配版还贵 7500 元

1500 元的 Codex 键盘卖断货，这小哥反手自己造了一台 | 爱范儿

查看全部

茉莉花论坛作为一个开放社区，允许您发表任何符合社区规定的文章和评论。

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

编程介于 Claude 4.7 和 4.8 之间

开源追上闭源的周期在缩短

同类信息

茉莉花新闻网

联系我们

敬请期待

邮件订阅