导读:关于Claude Sonnet 4.5 的“专精特新”之处。
Anthropic 的 Claude Sonnet 和 Opus 大型语言模型长期以来一直受到开发者的喜爱。今天,该公司推出了其主流模型的最新版本 Claude Sonnet 4.5,并将其描述为“世界上最好的编码模型”。
该公司还推出了 Claude Code 的更新,这是一个 Claude Agent SDK,允许开发人员使用 Anthropic 本身使用的相同工具、VS Code 扩展等来构建代理。
还有一项有趣的新实验“与Claude一起想象”,它使用新模型动态生成软件(但仅适用于Claude Max 订阅者,并且仅在接下来的五天内可用)。
Anthropic 表示,Sonnet 4.5 将更可靠地遵循指令并重构现有代码。在 SWE-Bench Verified(一项测试模型在一组真实 GitHub 拉取请求上运行情况的基准测试)中,Sonnet 4.5 的得分为 77.2%(并行测试时计算的得分为 82%)。
Anthropic 表示在一些领域,Sonnet 4.5 的表现优于该公司的旗舰机型 Opus 4.1,包括解决金融服务行业的问题。
在OSWorld(一项测试 AI 模型在现实世界计算机使用任务中表现的基准测试)上,Sonnet 4.5 目前以 61.4% 的成功率位居榜首。这比之前以 43.9% 的成功率位居榜首的 Sonnet 4 有了显著的提升,同时也超过了之前得分约为 44% 的 Opus 4.1。
在几乎所有编码基准测试中,Sonnet 4.1 均击败了 OpenAI 的 GPT-5 和谷歌的 Gemini 2.5 Pro 等“竞争对手”。不过,在视觉推理基准测试中,Anthropic 的模型总体上表现略逊一筹,竞争对手保持领先。
图片来源:Anthropic
Anthropic 为该模型提供了许多新功能——类似于其 Claude Code 编码代理所拥有的功能。这些功能包括访问虚拟机和内存,以及更好的上下文管理和多代理支持。
值得一提的是,Anthropic 表示 Sonnet 4.5 是其发布的第一个能够重建 Claude.ai Web应用程序的模型,该过程耗时约五个半小时,涉及超过 3,000 种工具的使用。
Cursor 首席执行官Michael Truell表示:“我们看到 Claude Sonnet 4.5 拥有一流的编码性能,在长期任务方面也有显著提升。这也进一步印证了为什么许多使用 Cursor 的开发人员选择 Claude 来解决他们最复杂的问题。”
Sonnet 4.5 的定价仍为每百万代币输入/输出 3 美元/15 美元,与 Anthropic 之前对 Sonnet 4 的收费相同。
图片来源:Anthropic
说到 Claude Code,Anthropic 的编码代理已经使用这个新模型了,但还将推出不少新功能。Anthropis 表示,Claude Code 目前已创造超过 5 亿美元的运营收入,过去三个月的使用量增长了 10 倍以上,并且即将获得原生的 Visual Studio Code 扩展,这使开发者能够通过内联差异实时查看 Claude Code 所做的更改。
终端中的 Claude Code 也得到了一些更新,包括改进的状态可见性和可搜索的提示符历史记录。最后一个更新尤其有用,因为开发者经常需要重复使用提示符。以前,你要么必须在终端中找到这些提示符并复制粘贴,要么将它们保存在终端之外。
此外,还有Checkpoint功能,当 Claude Code 出现异常时,你可以更轻松地回滚代码。之前,开发者必须手动将代码推送到代码库,或者进行本地备份。
对于那些希望基于与 Claude Code 相同基础构建代理的开发者,Anthropic 推出了 Claude Agent SDK。Anthropic 表示,新的 SDK 使用与 Claude Code 相同的基础架构,但允许开发者构建任何所需的代理。该 SDK 将包含代理编排、内存和上下文管理、工具使用、权限管理等功能。
图片来源:Anthropic
在 API 方面,开发者将获得一款记忆工具,帮助AI代理在长期运行的任务中维护上下文。Anthropic 还添加了一项自动上下文管理功能,该功能将允许 Claude 编辑上下文窗口并根据需要删除过时的数据。
“与Claude一起想象”是 Anthropic 对动态生成软件和用户界面进行实验的成果。
“没有任何功能是预先确定的;没有任何代码是预先编写的。你所看到的是 Claude 实时创建、响应并适应你的请求,”Anthropic 在新闻稿如此解释道。“这是一个有趣的演示,展示了 Claude Sonnet 4.5 的功能——这是一种了解将功能强大的模型与合适的基础设施相结合所能实现的可能性的方式。”
在 Claude 构建这些应用程序时,在后端究竟发生了什么,目前尚不清楚。Anthropic 也并未提供任何进一步的细节。
近几个月来,许多人工智能和技术专家都在讨论类似的想法。如果你能随时用人工智能来构建所需的软件,那会怎么样?像 Lovable 这样的工具已经在一定程度上实现了这一点,但这仍然无法达到 Anthropic 承诺的那种一次性软件构建的无缝体验。
实时构建软件,目前这只是一个展示 Sonnet 4.5 功能的实验,在接下来的五天内将对 Anthropic 的 Claude Max 计划的用户开放。
总体来讲,Claude Sonnect 体现了AI编码行业在不久的将来,将要发展的方向。
作者:场长
本篇文章为 @ 行动的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。