首页 > 综合

最强编码模型Claude 4！7小时不间断写代码，连玩24小时宝可梦，GitHub已选为Copilot底层模型

AI 圈子好热闹。今天凌晨，Claude 终于迎来了它的重大版本升级——

Claude 4 来了！

此次主要发布的有两个模型：Claude Opus 4和Claude Sonnet 4。

一经面世，就在编码、高级推理和 AI Agent 重新定义了新的标准，直接实现 SOTA。

GitHub 已经宣布，将使用 Claude Sonnet 4 作为 GitHub Copilot 新编码 Agent 的基础模型。

而两个模型里最为人所津津乐道的是旗舰模型 Claude Opus 4，它最引人注目的就是持续的干活，一身用不完的牛劲。

比如，它可以在连续 24 小时畅玩宝可梦，而之前版本 Claude 3.7 Sonnet 只能连续玩 45 分钟。

其客户之一，日本乐天集团（Rakuten）使用 Claude Opus 4 进行了一个高强度的开源代码重构任务。

谁也没想到，Opus 4 直接吭哧吭哧独立运行并持续编写代码长达 7 小时，而且性能极、其、稳、定。

单这一个例子，就能看出它非常强的持久工作能力，以及上下文理解能力。

看遍评论区，发现使用过 Claude 4 几乎都给予了它高度评价，尤其是对 Opus 4（不愧是旗舰模型哇）。

有人说，"Opus 4 是我用上的第一个不用自己动手改，就生成高质量内容的第一个大模型 "。

此外，有位最近一直用 Opus 搞编程的网友表示，Benchmark 上的成绩完全不能代表 Claude 4 的成就：

它在保持进度、编写可维护的代码以及按照我的意愿和期望进行工作方面，带来了彻底的变革。

这不是简单的极客行为。团队做得非常出色！

已经有网友开始直接用 Claude 4 来做了个俄罗斯方块，一次性就完成的那种。

值得关注的一点，今天起，所有付费用户都可以开始使用 Claude 4 系列模型了。

免费用户也不要慌，Anthropic 给大家准备了 Claude Sonnet 4。

值得一提的是，伴随 Claude 4 的问世，为了让开发者们能构建更强大的 AI Agent，Anthropic 在自家 API 方面上新了 3 个新功能，分别是：代码执行工具、MCP 连接器、文件 API，以及长达一小时的缓存提示能力。

至于 API 的定价也没变，和之前系列的 Opus 和 Sonnet 一样：

Claude Opus 4：每百万 Token，输入为 15 美元，输出为 75 美元

Claude Sonnet 4：每百万 Token，输入为 3 美元，输出为 5 美元

全球最强编码模型 Claude 4：可独立运行 7 小时

此次发布两个模型 Opus 4 和 Sonnet 4，升级的重点各有侧重。

Opus 4 针对编码和长期运行的 Agent 工作流进行了优化。

Sonnet 4 与 Opus 4 类似，但针对推理进行了优化，并在效率方面进行了平，这意味着它的运行成本更低。作为 Sonnet 3.7 的重大升级，它能精准地响应你的指令。

他们俩都是混合模型，提供两种操作模式：一种用于快速响应，另一种用于 " 更深层次的推理 "。

旗舰模型 Opus 4，在 SWE-bench（72.5%）和 Terminal-bench（43.2%）上均实现领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色，能够连续工作数小时，其性能远超所有 Sonnet 模型，并显著扩展了 AI Agent 的功能。

Claude Sonnet 4 其实也不差，它在 SWE-bench 上实现了 72.7% 的得分。

两个模型在编码、推理、多模态能力和 Agent 任务方面均表现出色。

那新模型到底怎么强？以旗舰模型为例，看看各种前沿 Agent 产品咋说——

Cursor称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。

Block称其为第一个在其 Agent（代号 goose）中在编辑和调试过程中提高代码质量，同时保持完整性能和可靠性的模型。

Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。

除了模型本身强大，他们还提供了一些新的功能和改进：

工具使用、并行工具执行和内存改进，以及思维摘要功能，内存能力的提升。

工具使用（Beta 版）：两种模型都可以在扩展思考过程中使用工具（例如网络搜索），这样 Claude 一边思考推理一边使用工具交替进行。

并行工具使用，这样一来，模型可以更精确地遵循指令，并且在开发人员允许访问本地文件时，能显著提高记忆能力，提取并保存关键事实，以保持连续性并随着时间的推移建立隐性知识。

他们还引入思维摘要功能，使用较小的模型来浓缩冗长的思考过程。不过只有大约 5% 的情况下需要这种总结，大多数思维过程都很短，足以完整显示。

内存能力方面，Claude Opus 4 显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护 " 内存文件 " 来存储关键信息，以帮助改进游戏体验。

这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如，Opus 4 在玩宝可梦时能够创建 " 导航指南 "。

几个月前，Anthropic 推出了一场名为 "Claude Plays Pok é mon" 的直播，以展示 Claude 3.7 Sonnet 在《宝可梦红版》中的能力。

该演示旨在秀肌肉，比如在极少量的人类干预下，Claude 如何分析游戏，并逐步做出决策。

Anthropic 技术团队的成员表示，选择《宝可梦红版》来搞事情，是因为这个游戏 " 是一个简单的游乐场 "，回合制，且不需要及时反映。终极目标则为了研究如何让 Claude 像 Agent 一样，独立地为用户执行复杂任务。

Claude 3.7 Sonnet 玩这款游戏时遇到了不少的困难，比如在一个城市中困了几十个小时，并且难以识别非玩家角色，这极大地阻碍了它在游戏中的进展。

但 Opus 4 就不一样了，它在长期记忆和规划能力上有所提高。与此同时，当 Opus 4 意识到需要某种特定的能力才能继续前进后，它花了两天时间提升它的技能，然后继续玩游戏。

此外，他们还显著减少了模型使用捷径或漏洞完成任务的行为。在处理一些容易受到捷径和漏洞影响的 Agent 任务中，这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。

智能代码助手 Claude Code 正式全面开放

除此之外，Anthropic 还正式发布了 Claude Code。

这是一个智能代码助手工具，旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库，让你能够将修复 bug、实现新功能、代码重构、编写测试、跨文件修改等大量工程任务交给 AI 完成。

今年 2 月时，Anthropic 曾在首届 "Code with Claude" 开发者大会上宣布推出 Claude Code。

现在，它正式上线，

并且已经集成进更多开发工作流程中：终端，IDE，或者使用 Claude Code SDK 在后台运行。

我们详细来看——

首先是 Claude Code 集成到 IDE。

此次，Anthropic 推出了新的 VS Code 和 JetBrains Beta 扩展。

这一举措直接把 Claude Code 集成到了 IDE 里，也就是说，它已经和开发者们熟悉的代码编辑器无缝结对。

至此，大家对着 Claude 提出的修改内容会被直接嵌入到文件里，从而简化了代码审查和跟踪过程。

其次，Anthropic 还发布了一个可扩展的 Claude Code SDK。

利用 Claude Code SDK，朋友们可以用和 Claude Code 相同的核心 Agent 来构建自己的 Agent 和应用程序啥的。

目前，Claude Code 在 GitHub 上放出了 Beta 版本。

在 GitHub 上 Pull Request 的时候，只需要「@Claude Code」，就可以回应评审人员的反馈、修复持续集成错误或修改代码。

如果想安装它的话，大家记得运行 "/install-github-app"，就可以安装 Beta 版的插件了。

Anthropic 产品负责人 Scott White 表示，Claude Code 不仅适合公司——它们希望旗下的软件工程师们使用 AI 来提高自身专业技能，也适合个人——包括那些不懂编程的人。

如果一位产品经理想出了一个新点子，就不用费劲地用文字来解释概念了。

直接找 Claude Code，就能创造关于这个新点子的雏形。

" 去年年底就停止了对聊天机器人的投资 "

之所以能在编程能力上如此惊艳，与 Anthropic 战略转向有关。

Anthropic 首席科学官 Jared Kaplan 接受采访时表示，该公司于去年年底停止对聊天机器人的投资。

现在的重点很明确——

专注于提高 Claude 执行复杂任务的能力，例如研究和编程，甚至编写整个代码库。

去年起，Anthropic 就开始训练 Claude 4 系列，" 训练过程中，内部确实存在一些困难。因为我们在训练这些模型时使用的一些新基础设施，使得团队在启动所有系统方面非常紧张。"

Jared Kaplan 承认，任务越复杂，模型脱轨的风险就越大。

因此他们真正致力于解决这个问题，以便人们可以一次性将大量工作委托给给 Claude。

不过，首席产品官 Mike Krieger 此前也表示过，Anthropic 没有仅仅针对编程来进行迭代。

他的原话是这样说的：

我们在两个方面都在不断开拓创新。

一方面涉及到编程部分以及整体的自主行为，这为许多编程初创企业提供了强大的动力。

另一方面，我们也在探索这些模型如何能够真正从经验中学习，并且能够成为非常有用的写作伙伴。

Mike Krieger 表示，Claude 4 之前，他仅仅是把大模型作为一个思考伙伴，大部分写作还是他自己亲自上手的。

但现在，Claude 4 出现后，他几乎已经把写东西这个事完全委托给 Claude Opus 4 了，并且 " 难以辨认是我写的还是 AI 写的 "。

华尔街等方面应该是对 Anthropic 的选择表示了满意与支持——

上周，Anthropic 获得了一笔 25 亿美元、为期五年的循环信贷额度，用来增强 AI 竞争的底气，毕竟研究和训练真的非常花钱。

同样也是上周，Anthropic 公开了营收额：

其第一季度年化营收达到 20 亿美元，较上一季度的 10 亿美元增长了一倍多。

而 Anthropic 年度消费超过 10 万美元的客户数量，较去年同期增长了八倍。

Opus 4 最喜欢

模型刚发布，人类就发现了它有一些特殊的「爱好」，比如熟练地使用一些表情符号。

在 Anthropic 技术报告中，他们研究了 Opus 4 在 " 开放式自我互动 " 中的表现——也就是与自己对话，结果发现，一对 Opus 4 模型进行了 200 次、每次 30 轮的互动，模型使用了数千个表情符号。

根据报告，Opus 4 使用 " 头晕 "（）表情符号最多（占 29.5%），其次是 " 闪亮的星星 "（）和 " 双手合十 "（）。

不过，模型还是对 " 旋风 "（）表情符号很感兴趣。一份记录显示，它们输入了 2725 次。

在几乎每一次开放式的自我互动中，Opus 4 最终都会开始进行 " 意识的哲学探索 " 以及 " 抽象而愉悦的精神或冥想表达 "。

而 " 旋风 " 表情符号最能捕捉到，它想要表达的意思。（Doge）

参考链接：

[ 1 ] https://www.anthropic.com/news/claude-4

[ 2 ] https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

[ 3 ] https://www.techmeme.com/250522/p30#a250522p30

[ 4 ] https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/

[ 5 ] https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html

— 完 —

量子位 AI 主题策划正在征集中！欢迎参与专题365 行 AI 落地方案，一千零一个 AI 应用，或与我们分享你在寻找的 AI 产品，或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群，一起来畅聊 AI 吧～

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！