Claude Opus 4.6 + GPT-5.3 Codex:我的双模型工作流,效率直接翻倍

Anthropic 和 OpenAI 在同一天发布了各自的旗舰模型。朋友圈已经被各种跑分对比刷屏了。

但我今天不想聊跑分。

我想聊的是:这波更新,你能从中拿到什么?

一、先说一个让我后背发凉的细节

OpenAI 官方博客里有一句话:

「GPT-5.3-Codex 是我们第一个在创造自己的过程中发挥重要作用的模型。」

什么意思?

OpenAI 的团队在开发 GPT-5.3 的过程中,用早期版本的 Codex 来 debug 训练过程、管理部署、分析测试结果。

他们自己都说「被 Codex 能加速自身开发的程度震惊了」。

AI 开始参与自己的开发了。

这让我想起之前写的那篇茅台文章。当时我说:「管它以后会不会死,现在能用,就先用起来。」

现在我想说:AI 进化的速度,可能比我们想象的还要快。

等你「想清楚」再行动,可能已经晚了。

二、Claude Opus 4.6:不是更聪明,是真的能帮你干活了

Anthropic 这次的更新,官方博客标题很有意思:「Advancing finance with Claude Opus 4.6」。

他们专门针对金融行业做了优化。但别急着划走,这些能力对我们同样有用。

2.1 Cowork:终于能直接操作本地文件了

这是我最期待的功能。

以前用 Claude,你得把文件内容复制粘贴进去。

现在有了 Cowork,你可以让 Claude 直接访问你电脑上的某个文件夹,它能读取、编辑、甚至创建新文件。

想象一下:你把设计稿的文件夹给它,让它帮你整理命名规范、生成设计文档、甚至批量处理图片。

这不是未来,是现在就能用的功能。

2.2 Claude in Excel 和 PowerPoint

Anthropic 把 Claude 直接塞进了 Excel 和 PowerPoint 的侧边栏。

Hebbia 的 CTO 说:「以前做金融 PPT 要几个小时,现在几分钟就搞定了。」

这对我们做产品汇报、设计提案的人来说,简直是福音。

Shortcut AI 的联合创始人说:「Opus 4.6 的性能跃升几乎令人难以置信。以前 Opus 4.5 觉得困难的任务,现在突然变得轻松了。」

2.3 金融领域的跑分

官方数据:

Finance Agent 评估:60.7%(比 Opus 4.5 提升 5.47%)

TaxEval:76.0%

Real-World Finance 评估:比 Sonnet 4.5 提升 23 个百分点

这些数字说明什么?Claude 在处理复杂的、需要多步骤推理的任务上,确实变强了。

三、GPT-5.3 Codex:交互方式变了,这才是重点

3.1 速度提升 25%,但更重要的是交互方式变了

以前用 Codex,你得等它跑完才能看结果。想改方向?停掉重来。

现在不一样了。

GPT-5.3 Codex 会边工作边汇报进度,你可以随时插话、提问、调整方向,不会丢失上下文。

这种交互方式,更像是和一个真正的同事协作。

3.2 网站开发能力的提升

官方展示了一个例子:让 GPT-5.3 Codex 和 GPT-5.2 Codex 分别做一个 SaaS 落地页。

GPT-5.3 的版本:

1. 自动把年付价格换算成月均价格,让折扣更直观

2. 做了一个自动轮播的用户评价组件,有三条不同的评价

3. 整体更像一个可以直接上线的产品

GPT-5.2 的版本就相对简单,需要更多手动调整。

这种「理解用户意图」的能力提升,对我们做原型、做 Demo 的人来说很实用。

3.3 网络安全:第一个被标记为「高能力」的模型

这个信息很多人没注意到。

GPT-5.3 Codex 是 OpenAI 第一个在网络安全任务上被分类为「High capability」的模型。

他们专门推出了 Trusted Access for Cyber 计划,还承诺投入 1000 万美元的 API 额度支持网络安全防御研究。

AI 的能力边界在快速扩展。

四、跑分对比:各有所长

Terminal-Bench 2.0(终端编程能力)

GPT-5.3 Codex:77.3%

GPT-5.2 Codex:64.0%

提升幅度:13.3 个百分点

OSWorld-Verified(操作电脑能力)

GPT-5.3 Codex:64.7%

GPT-5.2 Codex:38.2%

提升幅度:26.5 个百分点

整体来看,GPT-5.3 Codex 在终端操作和电脑使用能力上提升巨大。

五、茅台逻辑:在它们「死」之前,你能拿到什么?

前段时间我写过一篇文章,用段永平买茅台的逻辑来解释 AI 工具的价值。

核心观点是:

Copilot 会被取代吗?可能会。

Cursor 有护城河吗?确实不深。

Claude Code 是终极形态吗?肯定不是。

但这些都不重要。

重要的是:在它们「死」之前,你能从中拿到多少红利?

现在 Claude Opus 4.6 和 GPT-5.3 Codex 来了,同样的问题:

这两个模型会被取代吗?肯定会。

它们是 AI 的终极形态吗?当然不是。

但在它们被取代之前呢?

有人会用 Cowork 把设计文档的效率提升 10 倍。

有人会用 Claude in Excel 把数据分析的时间从一天缩短到一小时。

有人会用 GPT-5.3 Codex 的交互式协作,一周撸出一个完整的 SaaS。

而你呢?还在等「更好的工具」出来?

六、我的选择建议

做设计提案、产品汇报、数据分析 → Claude Opus 4.6

Cowork + Excel/PowerPoint 集成,对办公场景更友好

做原型开发、写代码、调试 → GPT-5.3 Codex

终端能力强,交互体验好,速度快

两个都用 → 这是我的选择

Claude 做前期调研和文档,GPT 做后期开发和调试

还有一个现实考虑:GPT 在国内使用更稳定。

七、价格

Claude Opus 4.6

输入:$5 / 百万 token

输出:$25 / 百万 token

超过 20 万 token 上下文:$10 / $37.50

GPT-5.3 Codex

API 价格暂未公布

目前通过 ChatGPT Plus/Pro 订阅使用

八、写在最后

这次更新让我感受最深的,不是跑分提升了多少,而是 AI 的工作方式在变。

Claude 开始直接操作你的文件系统。

GPT 开始边工作边和你对话。

AI 开始参与自己的开发。

一年前,我们还在讨论 AI 能不能写代码。

现在,我们在讨论 AI 能不能独立完成一个项目。

再过一年呢?

我不知道答案。

但我知道一件事:那些用 AI 工具赚到钱的人,他们不是不知道这些工具会被取代。

他们只是想明白了:管它以后会不会死,现在能用,就先用起来。

等你「想清楚」的时候,红利已经被瓜分完了。

最后,感谢你看到这里

如果觉得有收获,不妨顺手给钟师傅点赞 / 转发 / 评论

Claude Opus 4.6 + GPT-5.3 Codex:我的双模型工作流,效率直接翻倍
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容