这家公司表示,新模型的早期测试人员称,它能更好地处理模糊情况,并在无需人工干预的情况下权衡利弊。
Anthropic团队在一篇文章中如此写道:“他们告诉我们,当遇到复杂的多系统漏洞时,Opus 4.5 会自动找出修复方法。他们说,几周前 Sonnet 4.5 几乎无法完成的任务,现在都能轻松搞定。总而言之,我们的测试人员告诉我们,Opus 4.5 真的‘懂行’。”
此次发布恰逢 Claude API 中引入新的“努力度”参数,开发者可以决定 Claude 在解决问题上投入多少努力。
据 Anthropic 称,Opus 4.5 即使在最高努力度下,解决问题所需的令牌数量也显著少于其前代版本。例如,在中等努力度下,Opus 4.5 在 SWE-bench Verified 测试中与 Sonnet 4.5 的得分持平,但输出令牌数量减少了 76%;而在最高努力度下,Opus 4.5 的输出令牌数量减少了 48%,性能却比 Sonnet 4.5 高出 4.3%。
Claude Opus 4.5 可以像 SQL 或 Python 中的内置运算符一样使用,让开发者能够轻松地直接在数据存储位置分析合同、PDF、笔录或图像。运行这些查询时,Databricks 会自动扩展后端 Claude 的容量,以处理从几行到数百万行的各种数据,确保快速可靠的结果,无需额外设置。
在安全性方面,Anthropic 声称 Opus 4.5 Thinking 比 Sonnet 4.5 Thinking、GPT-5.1 Thinking 或 Gemini 3 Pro Thinking 等模型更不容易受到提示注入攻击。
Anthropic 还宣布了与新款机型同步推出的 Claude Code 更新。
首先,计划模式可以创建更精确的计划并更彻底地执行,Claude 会在执行计划前提出澄清问题并将其纳入计划中。其次,Claude Code 现在可在 Anthropic 的桌面应用程序中使用,该应用程序允许同时运行多个本地和远程会话。
此外,Claude 应用现在会自动总结较长对话的前半部分,并且 Claude for Excel 测试版正在扩展到 Max、Team 和 Enterprise 用户。
Opus 4.5 现已在 Anthropic 的所有应用程序和 API 中推出,每百万个输入代币收费 5 美元,每百万个输出代币收费 25 美元。
该公司总结道:“Opus 4.5 是人工智能系统能力的一大进步,也是工作方式发生更大变化的预兆。”
作者:行动的大雄
本篇文章为 @ 行动的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。