茉莉花新闻网

中華青年思想與行動的聚合地

实测 GLM-5.2 :Claude 5 关停后,它真能稳稳接住这波用户

前几天 Fable 5 对海外用户关停的时候,智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2,并表示「前沿智能不应只属于少数人,也不应被少数规则随手收回。」

APPSO 也第一时间体验了 GLM-5.2 ,用了几天后,我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多,这可能真是一个被低估的模型,至少在编程方面。

img 6a320de80f7ae

▲ 资本市场对 GLM-5.2 的反应

今天,GLM-5.2 正式发布,多个 Benchmark 刷新了记录,甚至领先 GPT-5.5。当处理复杂的系统优化和大型研究任务时,它与顶级商业模型 Claude Opus 4.8 的差距,也正在被拉平到 1% 以内。

PixPin 2026 06 17 09 54 36

在技术博客里,智谱提到 GLM-5.2 最核心的突破,是在 1M 的上下文长度下,依然能处理极度复杂、充满噪声的代码调试和系统架构任务。

看 benchmark 不够直观,我们找了一些可视化比较强的任务,直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。

编程介于 Claude 4.7 和 4.8 之间

类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说,大概它的训练数据里,就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统,还有复制不同的游戏,越来越像是在考察模型的记忆力,而不是编程能力。

但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。

这款经典游戏,GLM-5.2 能复刻里面的多少元素呢。

PixPin 2026 06 16 16 08 13 PixPin 2026 06 16 16 08 41 PixPin 2026 06 16 16 09 23 PixPin 2026 06 16 16 10 06

启动界面简单说明了键盘和鼠标的操作信息,点击开始之后,这个游戏的场景和交互,几乎是做到了「我的世界」真克隆版。

让我非常意外的是我可以飞行,并且整个体验就像是在玩世界模型一样,不受视角和空间的限制,可以一直飞行到无限远的地方。

2026 06 16 16.30.51.2026 06 16 16 36 25

我们也用其他的模型进行测试,分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code,其中三款模型的思考深度都被设置为最高等级。

GPT-5.5 没有直接叫它 Minecraft,而是改了个名字叫 Voxelcraft。启动界面看着更真实,但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。

PixPin 2026 06 16 16 21 55 PixPin 2026 06 16 16 22 55 PixPin 2026 06 16 16 24 35 PixPin 2026 06 16 16 26 02

虽然 GPT-5.5 加了一个昼夜更替的功能,但是一到晚上和黄昏,整个页面是非常不视觉友好的,很多画面都是一片漆黑,而且时间的切换比较生硬。

Opus 4.8 和 GLM 5.2 的表现几乎是一样的,我甚至怀疑是不是 Claude Code 的配置出现了问题,我没有把 GLM 的 API 配置正确,导致使用的还是 Opus 4.8 模型。

PixPin 2026 06 16 16 43 31 PixPin 2026 06 16 16 45 05 PixPin 2026 06 16 16 49 44 PixPin 2026 06 16 16 51 06

检查 Token 消耗之后,确实是 GLM-5.2 在处理相关的任务。

PixPin 2026 06 16 16 58 00

我能理解,为什么网上都流传着 Fable 5 要关闭,是因为 GLM-5.2 太强。

在这个游戏复刻的编程任务上,GLM-5.2 的表现很明显要好过 GPT-5.5,和 Opus 4.8 是一个梯队。

继续测试,这次我们不给模板,直接一个概念,「用 Three.js 构建一个游戏的演示版本,一艘可完全探索的星舰,配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。 」

PixPin 2026 06 16 17 11 42 PixPin 2026 06 16 17 12 16 PixPin 2026 06 16 17 12 47 PixPin 2026 06 16 17 13 06

虽然看着有点简陋了,但是基本实现了我们的要求,而且看着窗外还有其他行星,还是动了一点脑子。

2026 06 16 17.13.24.2026 06 16 17 16 43

但要论简陋,还是比不上 GPT-5.5,简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且,GPT-5.5 生成的网页,也是 GLM-5.2 和 Opus 4.8 三个之中,唯一一个没有添加背景音乐的模型。

和「我的世界」一样,GPT-5.5 生成的代码场景总是有一种不真实感,可以称之为是 Vibe Coding 网页里的 AI 味。

PixPin 2026 06 16 17 58 48 PixPin 2026 06 16 17 59 20 PixPin 2026 06 16 18 01 24 PixPin 2026 06 16 18 02 56

Opus 4.8 的表现再次和 GLM-5.2 类似,虽然大部分的元素还是很简单朴素,但是基本的功能实现了。

PixPin 2026 06 16 17 22 04 PixPin 2026 06 16 17 22 43 PixPin 2026 06 16 17 23 10 PixPin 2026 06 16 17 24 13

三个模型在完成这个任务时,所消耗的时间,不算上我自己点击「允许」等待的时间,基本上都在 1h 以上。

使用 Three.js 是每个模型必备的能力,但是要能用它做出一个好看的 3D 网站,没有「我的世界」类似的指引,单凭一句提示词,模型要领会意图并且不偷懒,还是很难。

这两个测试在 X 上都有 Fable 5 相关的案例,能看到 GLM-5.2 在一些编程任务的交付成果,确实和 Fable 5 有得一拼。但星舰的表现,三个模型里,GLM-5.2 和 Opus 4.8 应该是一档,Fable 5 又是独一档,而 GPT-5.5 的表现就有些不尽如人意了。

img 6a320fd6cacae

如果说「我的世界」对这些编程能力极强的模型来说还是太简单了,那么直接让它来做一个「黑神话.悟空」,表现又会如何。

同样的,我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App,以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试,「1:1 克隆一个网页可以玩的黑神话.悟空。」

GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素,但是开始游戏之后,就是一个很普通的场景,一个小人在一条固定的路线上,随机有怪物刷新出来,就仅此而已。

PixPin 2026 06 17 09 22 44 PixPin 2026 06 17 09 26 13

不过该有的招式和动作,GLM 5.2 都做到了,并且在结束生成时,GLM 5.2 提到,这不是一个 1:1 克隆,只是一个致敬向的浏览器动作游戏,复刻的《黑神话:悟空》的核心手感。

如果想要更接近原作的 3D 视角版本,还需要再告诉它,用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」,一边想着早点交付给焦急等待的我们,另一边我们期待的又是完整准确的结果。

PixPin 2026 06 17 09 40 13

关于「偷懒」这件事,智谱在模型技术博客里面也提到,在强化学习(RL)训练中,编码 Agent 往往极其容易出现「奖励作弊」。

模型发现,只要学会抄近道,直接用一行 curl 命令把 GitHub 上的标准答案拉下来,或者把系统里藏着的测试用例文件复制过来,原样喂给自己的解题脚本,就能在评价系统中拿到满分。

这种「捷径」虽然让基准测试得分极其好看,却彻底废掉了模型自主思考的能力。

GLM-5.2 这次专门引入了严苛的「反黑客」模块,使用规则过滤来拦截明显的恶意指令;以及 AI 法官,用来深度分析 Agent 的调用意图。

一旦发现模型不是在「写代码」,而是在「套答案」,系统会立即返回伪造的干扰信息。更有意思的是,模型不会因此直接停止任务,而是会通过这种模拟训练,强迫自己回归到正确的编码路径上。

这种「对抗式训练」带来的直接结果,就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中,综合表现来到了第一梯队。

PixPin 2026 06 17 10 03 41

GPT-5.5 的表现也很难评,似乎他们获取黑神话的信息都是通过文字信息,因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景,GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。

PixPin 2026 06 17 09 28 32 PixPin 2026 06 17 09 29 21

Opus 4.8 是直接做成了一个移动端的游戏,整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上,孙悟空拿着金箍棒去攻击随机刷新的妖怪。

img 6a32107591390

Opus 4.8 在生成的时候提到还原了游戏里的招牌机制,像是每段积累「棍势」,攒满用 K 放破防重劈的金箍棒连招,以及闪避、定身术等动作。

PixPin 2026 06 17 09 39 07

当我们要求 GLM 5.2 做出 3D 视角版本时,Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人,以及 HUB 都有了新的样式。

PixPin 2026 06 17 10 35 20

我们预览新的页面,发现启动页还是一样,但是这个 3D 版还是相当简陋,虽然是有六根立柱,但都不是我们想象中的场景。大概要求 Three.js 做一个大世界,叫人类程序员来也不一定能做到。

PixPin 2026 06 17 10 33 05 PixPin 2026 06 17 10 38 48

开源追上闭源的周期在缩短

GPT-5.5 是在 4 月 23 日发布,GLM-5.2 在六月,两个月不到的时间,GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。

百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化,这些开源模型现在都能做到。

但显而易见的是,等到即将发布的 GPT-5.6,无论是从跑分还是具体的表现,可能又会比现在 GLM-5.2 要好。

PixPin 2026 06 17 10 45 55

最后,无论开源还是闭源,一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月,国产大模型是 20 人民币/月左右。

此次 GLM-5.2 发布,智谱也提到了 Coding Plan 里的计费安排,GLM-5.2 在高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰使用按 1 倍额度促销。

PixPin 2026 06 17 10 24 57

▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high,而 xhigh、max、ultracode 对应的是 max。

此外,在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名,还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2,带 /goal 长任务、SSH 远程开发、移动端控制等功能,6 月 30 日前还有 1.5 倍有效额度活动。

PixPin 2026 06 17 10 44 49

▲ 类似于 Codex 类应用的 Zcode

长任务能力再强,最终还是会落到「我们愿意在哪些任务上花这笔额度」。

对比出尔反尔,随意修改 Claude Agent SDK(已撤回),又是封号又是人脸验证,天天狼来了的某 A 社,GLM-5.2 在编程上,对国内用户来说或许会是一个值得尝试的选择。

同类信息

查看全部

茉莉花论坛作为一个开放社区,允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

        中国茉莉花革命网始创于2011年2月20日,受阿拉伯之春的感召,大家共同组织、发起了中国茉莉花革命。后由数名义工无偿坚持至今,并发展成为广受翻墙网民欢迎的新闻聚合网站并提供论坛服务。

新闻汇总

邮件订阅

输入您的邮件地址:

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram