Anthropic 宣布正式发布Claude Sonnet 4.5,并声称其是“世界上最好的编码模型”和“构建复杂代理的最强模型”。
地址:https://www.anthropic.com/claude/sonnet
Claude Sonnet 4.5在软件工程 SWE 基准测试中取得了 77.2% 的成绩,而 Claude Opus 4.1 为 74.5%,老版本Claude Sonnet 4 为 72.7%。
作为外部比较,GPT-5 Codex 得分为 74.5%,GPT-5 得分为 72.8%,Gemini 2.5 Pro 得分为 67.2%。
此外,它在 OSWorld 基准测试中也处于领先地位,该基准测试用于测试 AI 模型在现实世界计算机任务中的表现。它在该基准测试中得分为 61.4%,超过了得分 42.2% 的 Claude Sonnet 4。
Anthropic表示说:“Sonnet 4.5 可以产生近乎即时的响应或让用户看到扩展的、逐步的思考。”
根据 Anthropic 的说法,Claude Sonnet 4.5 在金融、法律和医学领域表现出更好的领域特定知识和推理能力。
该公司声称,该模型在安全性和一致性评估方面表现更佳。它显示出诸如阿谀奉承、欺骗、权力追求以及鼓励妄想思维倾向等行为已经有所减少,并且在防御快速注入攻击方面也取得了进展。
Claude Sonnet 4.5 的定价与 Claude Sonnet 4 的定价相同:每百万输入代币 3 美元,每百万输出代币 15 美元。
除了发布 Claude Sonnet 4.5 之外,Anthropic 还宣布了其多款产品的更新。Claude Code 现在拥有检查点功能,允许开发者保存进度并回滚到之前的版本。Claude API 新增了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更复杂的任务。此外,所有 Claude 应用现在都可以访问代码执行和文件创建功能。
该公司还发布了Claude Agent SDK,开发人员可以使用它来构建自己的代理,使用与 Anthropic 为 Claude Code 提供支持相同的基础设施。
Anthropic 在博客文章中这样写道:
“我们开发了 Claude Code,因为我们想要的开发工具当时还不存在。Agent SDK 为你提供了相同的基础,让你可以构建强大的工具,来解决你正在解决的任何问题。”
作者:场长
参考:
https://anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
本篇文章为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。