+8613426109659
webmaster@21cto.com

Claude Sonnet 4.5发布:Anthropic 声称其是“世界上最好的编码模型”

人工智能 0 46 15小时前
图片

Anthropic 宣布正式发布Claude Sonnet 4.5,并声称其是“世界上最好的编码模型”和“构建复杂代理的最强模型”。

图片

地址:https://www.anthropic.com/claude/sonnet

Claude Sonnet 4.5在软件工程 SWE 基准测试中取得了 77.2% 的成绩,而 Claude Opus 4.1 为 74.5%,老版本Claude Sonnet 4 为 72.7%。

作为外部比较,GPT-5 Codex 得分为 74.5%,GPT-5 得分为 72.8%,Gemini 2.5 Pro 得分为 67.2%。

此外,它在 OSWorld 基准测试中也处于领先地位,该基准测试用于测试 AI 模型在现实世界计算机任务中的表现。它在该基准测试中得分为 61.4%,超过了得分 42.2% 的 Claude Sonnet 4。

Anthropic表示说“Sonnet 4.5 可以产生近乎即时的响应或让用户看到扩展的、逐步的思考。”

根据 Anthropic 的说法,Claude Sonnet 4.5 在金融、法律和医学领域表现出更好的领域特定知识和推理能力。

该公司声称,该模型在安全性和一致性评估方面表现更佳。它显示出诸如阿谀奉承、欺骗、权力追求以及鼓励妄想思维倾向等行为已经有所减少,并且在防御快速注入攻击方面也取得了进展。

Claude Sonnet 4.5 的定价与 Claude Sonnet 4 的定价相同:每百万输入代币 3 美元,每百万输出代币 15 美元。

除了发布 Claude Sonnet 4.5 之外,Anthropic 还宣布了其多款产品的更新。Claude Code 现在拥有检查点功能,允许开发者保存进度并回滚到之前的版本。Claude API 新增了上下文编辑功能和内存工具,使代理能够运行更长时间并处理更复杂的任务。此外,所有 Claude 应用现在都可以访问代码执行和文件创建功能

该公司还发布了Claude Agent SDK,开发人员可以使用它来构建自己的代理,使用与 Anthropic 为 Claude Code 提供支持相同的基础设施。

Anthropic 在博客文章中这样写道:

“我们开发了 Claude Code,因为我们想要的开发工具当时还不存在。Agent SDK 为你提供了相同的基础,让你可以构建强大的工具,来解决你正在解决的任何问题。”

作者:场长
参考:
https://anthropic.com/engineering/building-agents-with-the-claude-agent-sdk

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。