茉莉花新闻网

中華青年思想與行動的聚合地

🦞虾骑马!龙虾圈传了一周的匿名模型,原来是它|附最新体验细节

2026-03-16 16:21:29

上周,龙虾圈开始流传一个神秘模型的名字:Pony-Alpha-2。

没有发布会,没有官方介绍,它就这么悄悄跑在智谱的 AutoClaw 澳龙里,开放给用户内测。没想到口碑一路发酵,于是大家都在问:这个匿名 AI 到底是什么模型?

4444444

今天,谜底揭开了。它就是 GLM-5-Turbo,智谱今天正式发布的「全球首个龙虾模型」,也是智谱自 2025 年以来首个闭源模型。

1111243

通用模型跑龙虾,为什么老是掉链子

养过龙虾的用户大概都有这个体感:让模型聊天、写东西,挺顺的。但真让它跑任务,走到第三步往往就开始出问题。工具调用报错、忘记上下文、长任务中途崩掉,各种情况都有。

这个问题的根不在框架,在底层模型本身。通用大模型的训练目标是对话,执行工作流完全是另一回事。一旦进入多步骤、多工具串联、需要持续跑的真实龙虾场景,就力不从心了。

GLM-5-Turbo 的出发点就是解这个问题。从训练数据构造到优化目标,全链路针对龙虾场景做专项优化,重点练了五块能力。

工具调用方面,强化对外部工具和各类 Skill 的稳定调用,不掉链子是基本要求。指令遵循方面,复杂多层的长指令能准确拆解,支持识别目标、规划步骤、多智能体分工协作。

定时和持续性任务是另一个重点,模型能理解时间维度上的指令,处理定时触发场景,长任务持续执行不中断。编程能力延续了 GLM 系列强势,能以极低人工干预完成长程 Agentic 工程任务,从 Vibe Coding 迈向 Agentic Engineering。速度上,高吞吐长链路场景也做了专项提速,响应稳定性领跑同类模型。

评测层面,GLM-5-Turbo 在智谱自研的龙虾场景端到端基准 ZClawBench 中拿下国产模型第一。

1111244

ZClawBench 的诞生有一定的背景。

随着 OpenClaw 普及,当前任务类型已覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元化场景。

用户群体也从早期开发者扩展到效率办公人群、金融从业者、运维工程师、内容创作者与研究分析人员。ZClawBench 正是基于这批真实用例构建的,目前题库和测试轨迹已全面公开。

此外,GLM-5-Turbo 还接入了软通动力旗下机械革命盒子,打造原生 AI Agent 终端体验。不过,这次发布有个插曲值得单说。GLM-5-Turbo 的 API 价格也迎来今年的第二次涨价,较 GLM-5 上调 20%。

1111245

尽管考虑到龙虾任务动辄涉及数十轮工具调用与上下文衔接,一个典型的跨部门会议纪要整理和任务分发,token 消耗远超普通对话。但对企业来说,算账的维度也正在发生变化——

花多少 token 已经不是关键,AI 员工帮省了多少人力才是重中之重。

随模型一起发布的是面向个人和企业的龙虾套餐,个人版和 Team 版都有。

无论是一人公司、创业团队,还是大中型企业,都能根据自身业务规模灵活订阅,每个账号最多购买 5 个。企业可通过 Team 版按实际员工数灵活订阅,以可控成本保障 tokens 供给和 AI 员工稳定在线。

配套推出的企业级安全管理体系「Claw for Enterprise Security」,支持对不同类型 Claw 进行统一调度与权限编排。通过集中化管控台,可以对每一个 Agent 任务的执行路径、工具调用链路和资源消耗进行实时可视化监控。

龙虾模型,瞄准企业入口

光看介绍不够,用真实任务测了一下,说说体感。

第一个场景非常简单,定一个 10 分钟后的闹钟,时间到了飞书提醒「起来动一动」。模型直接回复已设定 14:22 提醒,10 分钟后飞书准时收到消息,没有任何需要人工干预的步骤。

1111241

第二个场景则是信息搜集,让它汇总当天科技圈热点。模型调工具跑了一遍,整理出英伟达 GTC 大会、马斯克宣布 7 天后启动 Terafab 造芯、国家新增六大未来重点产业等要点。

22222222

最后一个图一乐的场景稍微有点折腾。龙虾跑在飞书妙搭提供的云电脑上,底层是阿里云 ECS 虚拟机。我让它写一个温度监控 Skill,写完封装好,自动加载生效,超过 40 度飞书预警。问题来了,云虚拟机没有物理温度传感器,直接读温度这条路走不通。

模型没有卡住等我给方向,而是自己依次尝试了五种读取方式,都不行之后改用 CPU 负载作为代理指标来估算温度,并告诉我为什么这么处理。

脚本写完本地跑通,写 SKILL.md,注册进 openclaw.json,触发重启,再跑 doctor 确认加载成功,最后飞书发来确认:当前温度 27°C,一切正常。整个链路没有中断,也没有等我发下一条指令。

1111242

三个任务跑下来,工具没掉链子,时间指令被准确理解,信息搜集给结论不只是罗列。当然这几个属于相对标准的龙虾任务,更复杂的多智能体协同场景还需要更多实测。

截至发稿前,GLM-5-Turbo 现已上线,开发者和企业用户可通过智谱开放平台 BigModel.cn 或 api.z.ai 调用 API,也可通过龙虾套餐接入。

GLM Coding Plan Max 已纳入 GLM-5-Turbo,Pro 套餐将在本月内支持,Lite 套餐 4 月接入。如需长期稳定运行、后台持续执行或更高负载的 Agent 场景,建议优先选择龙虾套餐。

4444

AutoClaw 澳龙默认模型已切换为 GLM-5-Turbo,即日起至 3 月 22 日有限时加油包折扣,最高享 3.4 折,加油包自购买起 7 日内有效。

22222221

值得关注的是,龙虾让普通用户第一次真正感受到了「AI 在帮我干活」和「AI 在帮我回答问题」的差别。前者需要的能力完全不一样,这也是为什么专门为龙虾场景训练的模型,和通用模型之间会拉开那么明显的差距。

Agent 时代的竞争,最终拼的可能不是通用能力的高低,而是谁能在特定场景里真正跑通、真正稳定、真正被企业当成生产力工具来用。能力只是入场券,能不能持续干活才是真正的考题。

附上体验地址:

  • AutoClaw澳龙客户端:https://autoglm.zhipuai.cn/autoclaw
  • Z.ai:z.ai
  • 智谱清言APP/网页版

同类信息

查看全部

茉莉花论坛作为一个开放社区,允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

        中国茉莉花革命网始创于2011年2月20日,受阿拉伯之春的感召,大家共同组织、发起了中国茉莉花革命。后由数名义工无偿坚持至今,并发展成为广受翻墙网民欢迎的新闻聚合网站并提供论坛服务。

新闻汇总

邮件订阅

输入您的邮件地址:

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram