Claude Sonnet 4.5发布：Anthropic 声称其是“世界上最好的编码模型”

场长

人工智能 0 1262 2025-09-30 01:18:22

Anthropic 宣布正式发布Claude Sonnet 4.5，并声称其是“世界上最好的编码模型”和“构建复杂代理的最强模型”。

地址：https://www.anthropic.com/claude/sonnet

Claude Sonnet 4.5在软件工程 SWE 基准测试中取得了 77.2% 的成绩，而 Claude Opus 4.1 为 74.5%，老版本Claude Sonnet 4 为 72.7%。

作为外部比较，GPT-5 Codex 得分为 74.5%，GPT-5 得分为 72.8%，Gemini 2.5 Pro 得分为 67.2%。

此外，它在 OSWorld 基准测试中也处于领先地位，该基准测试用于测试 AI 模型在现实世界计算机任务中的表现。它在该基准测试中得分为 61.4%，超过了得分 42.2% 的 Claude Sonnet 4。

Anthropic表示说：“Sonnet 4.5 可以产生近乎即时的响应或让用户看到扩展的、逐步的思考。”

根据 Anthropic 的说法，Claude Sonnet 4.5 在金融、法律和医学领域表现出更好的领域特定知识和推理能力。

该公司声称，该模型在安全性和一致性评估方面表现更佳。它显示出诸如阿谀奉承、欺骗、权力追求以及鼓励妄想思维倾向等行为已经有所减少，并且在防御快速注入攻击方面也取得了进展。

Claude Sonnet 4.5 的定价与 Claude Sonnet 4 的定价相同：每百万输入代币 3 美元，每百万输出代币 15 美元。

除了发布 Claude Sonnet 4.5 之外，Anthropic 还宣布了其多款产品的更新。Claude Code 现在拥有检查点功能，允许开发者保存进度并回滚到之前的版本。Claude API 新增了上下文编辑功能和内存工具，使代理能够运行更长时间并处理更复杂的任务。此外，所有 Claude 应用现在都可以访问代码执行和文件创建功能。

该公司还发布了Claude Agent SDK，开发人员可以使用它来构建自己的代理，使用与 Anthropic 为 Claude Code 提供支持相同的基础设施。

Anthropic 在博客文章中这样写道：

“我们开发了 Claude Code，因为我们想要的开发工具当时还不存在。Agent SDK 为你提供了相同的基础，让你可以构建强大的工具，来解决你正在解决的任何问题。”