新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

就在 Anthropic Claude 陷入降智风波时，OpenAI 刚刚推出了 GPT-5-Codex——这是基于 GPT-5 优化后的 Codex 专用版本，专门针对「自主编程」进行了训练。

这次升级确实有些分量。

聚焦于真实的软件工程场景的 GPT-5-Codex，不仅能处理日常的编程交互，还能独立完成复杂耗时的工程项目。它能像真正的程序员一样，连续工作超过 7 个小时，在复杂项目上不断迭代、修 bug、跑测试，最后交付一个完整可用的解决方案。

从四月份推出 CLI 版本，到五月份上线网页版，再到现在的全面升级，Codex 的——就是要把编程这件事彻底「自动化」。

现在无论你在终端、IDE、网页还是手机上开发，Codex 都能提供一致的编程辅助体验，而且已经整合进 ChatGPT 账号体系，本地和云端可以无缝切换。

GPT-5-Codex 最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。

OpenAI 内部员工使用数据显示，按模型生成的 token 数排序，对于最底部 10% 的简单请求，GPT-5-Codex 比 GPT-5 少用了 93.7% 的计算资源。

相反，对于最顶部 10% 的复杂请求，它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快，而复杂的大型重构则会投入更多时间深度处理。

555

用人话说就是：日常小问题不磨蹭，大项目该花时间就花时间。

终于有个编程模型懂得「好钢用在刀刃上」了。

基准测试方面，在 GPT-5 发布时，OpenAI 只在 477 个 SWE-bench Verified 任务上报告结果，在被 Anthropic 指出这一问题后，今天 OpenAI 宣布这些问题已经修复，现在可以在全部 500 个任务上报告结果。结果如下：

554

代码重构评测更是涵盖了 Python、Go 甚至 OCaml 等语言，比如一个来自 Gitea 的 pull request 案例，修改了 232 个文件、3541 行代码，将 ctx 变量贯穿到应用逻辑中。

代码审查功能也很实用，它会在代码库中浏览分析，运行测试验证正确性，给出的审查意见准确性不错。在 OpenAI 内部，Codex 现在会审查大部分 PR，每天能发现数百个问题，很多时候比人工审查更早发现潜在 bug。

556

前端开发支持同样到位，GPT-5-Codex 不仅能创建桌面应用，移动端开发能力也有明显提升。它还能读取截图和设计稿，检查开发进度，把工作成果可视化展示，这对前端开发确实很有帮助。

工具层面的更新也相当丰富。全新改造的 Codex CLI 现在围绕自主编程流程重构，支持直接附加和分享图片，包括截图、线框图和架构图，用于建立对设计决策的共同理解。

557

处理复杂任务时，Codex 会通过待办清单跟踪进度，内置了网页搜索、MCP 等工具连接外部系统。

审批模式简化为三种：只读模式需要显式批准，自动模式对工作区有完整访问权限但工作区外需要批准，完全访问模式可以在任意位置读取文件并运行带网络访问的命令。

全新的 IDE 插件支持 VS Code、Cursor 等编辑器，让用户能无缝预览本地修改并与 Codex 协作编辑代码。插件还支持在云端与本地环境间流畅切换，可以直接在编辑器中创建云端任务、跟踪进行中的工作，以及审查已完成的任务。

云端基础设施也有明显改进，通过容器缓存将新任务和后续任务的中位完成时间缩短了 90%。Codex 能自动设置运行环境，扫描常见初始化脚本并执行，在配置网络访问权限时还能运行 pip install 等命令按需安装依赖。

559

安全方面，OpenAI 采用了沙箱运行环境，默认禁用网络访问，确保不会在用户电脑上执行有害操作，同时降低提示注入风险。

开发者可以根据风险承受度自定义安全设置，在云端可以限制网络访问只允许可信域名，在 CLI 和 IDE 插件中可以批准命令、允许全权限运行或使用网页搜索、连接 MCP 服务器。

与 GPT-5 管理方式一致，GPT-5-Codex 在生物与化学领域被归类为高能力模型，已采取相应安全措施。

价格上，Codex 已经集成到 ChatGPT 的各个付费套餐中，不同套餐提供不同的使用额度。

Plus、Edu 和 Business 适合每周几次专注的编程会话；
Pro 则能支持跨多个项目的一整周工作量。

Business 套餐可以购买额外额度，帮助开发者突破包含的上限；Enterprise 套餐则提供共享额度池，只需为团队实际使用部分付费。对于使用 API key 的开发者，OpenAI 计划很快在 API 中开放 GPT-5-Codex。

5514

目前 GPT-5-Codex 的系统提示词已经泄露，感兴趣的开发者可以研究一下。

系统提示词地址：https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md

知名博主 Dan Shipper 在体验完 GPT-5-Codex 之后，给出的评价是：

我们在 @every 上测试了几天，结果相当震撼：

– 它会根据任务动态选择「思考」时间——难题上能长时间工作，简单问题则能即时给出答案。
– 在我们的生产代码库测试中，它可以自主运行长达 35 分钟 ——相比之下，GPT-5 往往过于谨慎，这是一次明显的升级。
– 它支持本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务，然后在去购物时把它交给 Codex Web 继续完成。
– 它配备了代码审查智能体，会真正运行你的代码，因此能发现更多 bug。

以下是我们经过大量内部测试后的整体感受：
– 这是一次非常出色的升级，让 Codex CLI 成为了 Claude Code 的有力替代品。
– 不过，它需要合理的提示才能表现出最佳效果。比如 @kieranklaassen 最多只能让它运行 5 分钟，而 @DannyAziz97 找到了诀窍。
– 有时候它会「偷懒」——在某些任务上可能思考不足，或者如果认为任务过大就会直接拒绝。
– 我整个周末都在用 Codex CLI 为 @CoraComputer 提交一个新的 PR，体验下来发现它非常好用、易于引导——这是一个很棒的模型。

OpenAI Codex 产品负责人 Alexander Embiricos 表示，性能的大幅提升主要归功于 GPT-5-Codex 动态的「思考能力」。Embiricos 解释说，GPT-5-Codex 的工作方式类似，但它内部没有路由器，而是能实时调整在某项任务上投入的时间。

Embiricos 指出，这比路由机制更具优势：后者在一开始就必须决定要为某个问题分配多少算力和时间，而 GPT-5-Codex 则可以在处理任务 5 分钟后决定「还需要再多花一个小时」。他说，他见过该模型在某些情况下连续工作超过 7 小时。

558