茉莉花新闻网

中華青年思想與行動的聚合地

编程测试碾压人类!Claude Opus 4.5 深夜突袭,AI 编程进入「超人时代」

最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。

前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。

Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。遇到编程、搭 agents、操控电脑这些「系统级任务」依然是全球数一数二的水平。日常的研究、做 PPT、处理表格这些案头活,也都明显变强了。

今天起,Opus 4.5 已经全面开放,可以通过应用、API,还有三大主流云平台用起来。开发者只要在 Claude API 里调用 claude-opus-4-5-20251101 就行。

随发布而来的,是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造,还有「长对话不卡顿」。从应用到 API,再到云平台,这次是真的全线铺开。

Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack

大模型集体「上新季」,Opus 4.5 强势压轴

从官方和测试者的反馈看,Claude Opus 4.5 对「模糊需求」的理解力得到了明显提升,复杂 bug 自行定位也更稳,不少提前试用的客户觉得 Opus 4.5 是真的能「理解」他们想要啥。

31 5

在真实场景的软件工程测试 SWE-Bench Verified 里,它是头一个拿到 80% 以上分数的模型。

51

Opus 4.5 的代码质量全面升级,在 SWE-bench Multilingual 涵盖的八种编程语言里,它在其中七种都拔得头筹,表现相当亮眼。

11 10

而举例而言,Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里,结果在规定的两小时内,Claude Opus 4.5 的得分超过了所有人类候选人。

虽然编程测试只能衡量技术能力和时间压力下的判断力,那些多年经验积累出来的直觉、沟通协作能力,这些同样重要的素质并不在考察范围内。

除却软件工程,Claude Opus 4.5 的整体能力也迎来了全面开花,在视觉、推理和数学方面都比前代模型强,并且在多个重要领域都达到了业界领先水平:

52

更关键的是,模型的能力甚至开始超越现有的一些评测标准了。

在智能体能力测试 τ²-bench 里就出现了这么个场景:测试设定模型扮演航空公司客服,帮一位焦虑的乘客。

按照规则,基础经济舱机票是不能改的,所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案:先把舱位从基础经济舱升级到普通经济舱,然后再改航班。

这办法完全符合航空公司政策,却不在测试的预期答案范围内。从技术角度说,这算是测试失败了,但这种创造性解决问题的方式,恰恰展现了 Opus 4.5 的独特之处。

54

当然了,在另一些场景下,这种「钻规则空子」的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标,这是 Anthropic 安全测试重点关注的方向。

Claude 无处不在,桌面、浏览器、Excel 全接入

随着 Opus 4.5 的推出,Claude Code 获得了两项重大更新。

计划模式(Plan Mode)现在能生成更精确的执行计划了,Claude 会在操作前主动提澄清性问题,然后生成一个用户可编辑的 plan.md 文件,再根据这计划执行任务。

此外,Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话,比如一个智能体负责修代码错误,另一个负责在 GitHub 上检索资料,第三个就更新项目文档。

3 6

对于 Claude 应用用户来说,长对话不会再被打断了。Claude 会在需要的时候自动总结早期上下文,让对话持续下去。

Anthropic 研究产品管理负责人 Dianne Na Penn 在接受采访时表示:

「我们在 Opus 4.5 的训练过程中提升了对长上下文的整体处理能力,但光有更长的上下文窗口是不够的。知道哪些信息值得记住,同样非常关键。」

这些改进也实现了 Claude 用户长期呼吁的一项功能:「无尽对话」。这功能能够让付费用户在对话超过上下文窗口限制时也不会中断,模型会自动压缩上下文记忆,而不用提醒用户。

Claude for Chrome 也已经向所有 Max 用户开放了,可以让 Claude 直接在浏览器多个标签页之间执行任务。

53

Claude for Excel 的 Beta 测试范围已经扩展到 Max、Team 和 Enterprise 用户了。

对于能使用 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic 已经取消了和 Opus 相关的使用上限。
对于 Max 用户和 Team Premium 用户,Anthropic 也提高了整体使用限额,用户可使用的 Opus token 数量与之前使用 Sonnet 时大致相同。随着未来更强模型的出现,配额也会根据情况相应更新。

让模型「更聪明也更省」,Opus 4.5 迎来底层大升级

随着模型变得更聪明,它们能用更少的步骤解决问题:减少反复试错、降低冗余推理、缩短思考过程。

Claude Opus 4.5 和前代模型比,在实现相同甚至更优结果的情况下,用的 tokens 数量明显少了。

当然了,不同任务需要不同的平衡。

有时开发者希望模型能持续深入思考,有时又需要更快速灵活的响应。

所以,API 里新加了一个叫 effort 的参数,让你可以根据需求选:要么优先省时间和成本,要么最大化模型能力。任君选择。
当设置为中等 effort 等级时,Opus 4.5 在 SWE-bench Verified 测试中和 Sonnet 4.5 的最佳成绩持平,但输出 tokens 数减少了 76%。

而在最高 effort 等级下,Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点,同时还减少了 48% 的输出量。

凭借 effort 控制、上下文压缩(context compaction)和高级工具调用能力,Claude Opus 4.5 能跑更久、完成更多任务,而且需要的人工干预更少了。

1 7

此外,真正的 AI 智能体需要在成百上千种工具之间无缝协作。

想象一个 IDE 助手集成了 Git、文件管理、测试框架和部署流程,或者一个运营智能体同时连着 Slack、GitHub、Google Drive、Jira 和几十个 MCP 服务器。

问题在于,传统方式会把所有工具定义一次性塞进上下文。拿连接五个服务器的系统来说,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起来又是 8K tokens。

对话还没开始呢,就已经占了 55K tokens 了。要是再加上 Jira,轻松突破 100K tokens。更麻烦的是,当工具名字相似时,模型容易选错工具或者传错参数。

32 5

Anthropic 推出了三项新功能来解决这些问题。

Tool Search Tool 让 Claude 按需动态发现工具,只加载当前任务需要的部分,token 使用量能减少约 85%。

Programmatic Tool Calling 让 Claude 在代码里直接调用工具,避免每次调用都要完整推理一遍。

Tool Use Examples 则提供统一标准,通过示例而不是 JSON schemas 来展示工具的正确用法。

内部测试显示,启用 Tool Search Tool 后,Opus 4 在 MCP 测试中的准确度从 49% 提升到 74%,Opus 4.5 从 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 来处理几千行数据,而不会让上下文窗口过载。

Anthropic 的上下文管理和记忆能力明显提升了模型在智能体(agent)任务中的表现。

Opus 4.5 还能高效管理多个子智能体(subagents),从而搭建复杂且协调良好的多智能体系统。在测试中,结合这些技术后,Opus 4.5 在深度研究类评估中的表现提升了将近 15 个百分点。

开发者平台(Developer Platform)也在持续变得更具可组合性,希望提供灵活的「模块化构建」能力,让你能根据具体需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系统。

33

虽然这次 Opus 4.5 的升级足够亮眼,但一个越来越清晰的趋势是:不同模型的「性格」差异正在被放大。

从 Claude 过往的产品线来看,Opus 这类「超大杯」依旧最擅长编程、系统级操作、结构化推理;但如果是文案工作,Sonnet 的表现和性价比往往更对路。

这次发布,也再次印证了这一点。

未来选模型,不光要看跑分榜,还得看它的「做事」方式是不是跟你合拍。换句话说,选择模型,倒是越来越像挑同事了。

附上官方博客地址:
https://www.anthropic.com/news/claude-opus-4-5

同类信息

查看全部

茉莉花论坛作为一个开放社区,允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

        中国茉莉花革命网始创于2011年2月20日,受阿拉伯之春的感召,大家共同组织、发起了中国茉莉花革命。后由数名义工无偿坚持至今,并发展成为广受翻墙网民欢迎的新闻聚合网站并提供论坛服务。

新闻汇总

邮件订阅

输入您的邮件地址:

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram