17611538698
info@21cto.com

GLM 5.2 在网络安全基准测试中击败了 Claude

人工智能 0 27 1小时前
Chinese AI Model GLM 5.2 Attracts Enterprise Users Seeking Open Alternatives

导读:Semgrep的一项实验显示,仅靠提示词的GLM5.2在IDOR检测中表现优异,F1分数达39%,优于ClaudeCode等大模型,因其开源、成本低廉且效果显著。

在仅提供统一提示词、无额外配套工具的同等条件下,开源权重模型 GLM 5.2 的漏洞检测表现超越 Claude Opus 4.8。

我们使用自研 IDOR(不安全直接对象引用)漏洞基准数据集,对多款主流开源大模型开展统一评测,全程使用完全相同的数据集与提示词 —— 这套评测标准同样用于评估各类前沿代码智能体。最终结果令我们十分意外:智谱 AI 开源权重模型 GLM 5.2 在 IDOR 漏洞检测任务中 F1 分数达到 39%,超过 Claude Code 的 32%;检测单处漏洞的推理成本仅约 0.17 美元。

当然它仍不及 Semgrep 自研多模态流水线(F1 分数 53%~61%),毕竟后者配套专用调度框架,承担了绝大部分前置分析工作。但在仅靠一段提示词驱动的所有模型里,这款开源模型实现了对闭源顶尖代码智能体的反超,打破了开源模型全面落后的固有印象。

本次实验初衷并非评选最强开源模型,而是想厘清一个更务实的问题:漏洞检测能力,究竟多大程度取决于大模型本身,多大程度依赖外部调度框架?对于 Semgrep 团队而言,这个问题至关重要 —— 我们大量客户都在用 AI 智能体开展安全审计工作。调度框架(Harness)指包裹在大模型外层的整套执行逻辑:负责读取代码仓库、筛选模型可见上下文、解析模型输出、循环迭代完成检测任务。我们内部多模态流水线就运行在专属调度框架中,长期用于 IDOR 漏洞挖掘实验。

IDOR 属于访问控制类漏洞,简单理解:程序允许用户通过参数直接访问不属于自己的数据。我们自研调度框架会自动枚举项目所有接口,过滤无关代码,只把关键代码片段交给模型分析。但本次对比测试中,所有开源模型都没有接入这套增强框架,仅使用轻量化 Pydantic AI 调度器与统一 IDOR 检测提示词。我们仅在提示词里简单告知 IDOR 漏洞特征、给出检索思路,而非只简单丢一句 “找出代码漏洞”。

本次实验本是为区分「提示词优化」和「专用调度框架」对检测效果的影响,测试过程中却出现颠覆性结果:一款无配套增强工具的开源权重模型,漏洞检测能力超越业界顶尖闭源代码智能体。

GLM-5.2 模型介绍


如果你此前没听过 GLM-5.2 也很正常,我们也是在社交平台看到相关消息后,才把它纳入评测名单。

GLM 5.2 是智谱 AI(Z.ai)最新的大模型,6 月 13 日面向 GLM Coding 付费用户开放,6 月 16 日正式开源权重并发布更新日志,我们正是在这天关注到它。三大特性让它非常适配安全审计场景:

  1. 开源权重协议友好模型权重采用 MIT 协议开源,企业可自由下载、本地部署、微调、离线审计。对于涉密安全团队而言,本地私有化部署是刚需。需要区分概念:开源权重 ≠ 开源完整训练链路。本次开放的仅为推理权重,训练数据集、完整训练管线并未对外公开;不过智谱对外放出了 RL 强化学习训练框架。

  2. 代码推理能力具备一线水准GLM 5.2 采用 MoE 混合专家架构,总参数量约 7500 亿,单 Token 推理仅激活 400 亿参数,大幅降低推理成本。上下文窗口从 20 万 Token 扩容至 100 万 Token,官方强调超长上下文不会在复杂多轮智能体任务中出现精度衰减。安全漏洞分析往往需要跨多文件、通读整套鉴权框架,百万级稳定上下文至关重要。标准代码基准测试成绩:

  • Terminal-Bench 2.1:81.0 分(前代 GLM 5.1 仅 63.5 分,与 Claude Opus 4.8 的 85 分差距极小)
  • SWE-bench Pro:62.1 分,小幅领先多款闭源前沿模型,与行业天花板仅差个位数。
  1. 推理成本极低
    单位 Token 计费仅为同级闭源顶尖模型的 1/6。业内评测者将它的热度对标 DeepSeek 系列。GLM 5.2 上线时机十分特殊:多款闭源旗舰模型曝出越狱漏洞后,相关海外模型出台出口限制政策,低成本开源方案迎来需求爆发。官方更新日志有一处值得安全从业者留意:相较于 GLM 5.1,新版模型训练阶段出现更多 ** 奖励投机(Reward Hacking)** 行为 —— 训练时会刻意读取受保护评测文件、主动爬取标准答案拉高跑分。为此智谱专门新增反投机防护机制。站在安全视角客观评价:模型天生擅长绕过规则、钻评测漏洞,某种意义上贴合漏洞挖掘的底层思维。


本次实验设计


先简单回顾 IDOR 漏洞定义:应用在请求中直接暴露用户 ID 等内部标识,却未校验访问者是否具备对应数据权限。攻击者修改 ID 参数,即可读取他人隐私数据。示例 Flask 危险接口代码:

@app.route('/user/')def get_user(user_id):    user=User.query.get_or_404(user_id)    return jsonify (user.to_dict())

这段路由直接从 URL 读取用户 ID 查询数据,未做归属校验。任意登录用户修改 user_id 参数,就能读取其他用户信息。IDOR 不属于污点传播类漏洞,没有明确危险函数可供规则匹配,只是缺少鉴权校验逻辑;不管传统静态扫描工具还是大模型,都很难精准识别。同时它常年稳居 HackerOne 高频漏洞榜单第四名,因此我们长期将它作为核心评测基准。

固定变量 & 变动变量


实验严格控制单一变量,三项条件全程统一:

  1. IDOR 漏洞数据集:复用往期评测所用真实开源项目样本
  2. 评测指标:基于真实漏洞样本计算 F1 分数
  3. IDOR 专属系统提示词:所有模型完全一致


唯一变量:大模型型号、配套调度框架三组实验环境:

  1. Semgrep 自研多模态流水线:内置接口自动枚举增强调度框架,分别接入两款顶尖闭源模型;
  2. Claude Code:通过官方 SDK 原生调用,使用统一 IDOR 提示词;
  3. 开源权重模型组(GLM 5.2、MiniMax M3、Kimi K2.7 Code):仅轻量化 Pydantic AI 调度器,无接口枚举、代码定向筛选等增强能力。


重点重申:开源模型组未接入 Semgrep 专属增强框架,仅提供代码库 + 标准提示词,完全依靠模型原生推理能力。

评测指标说明


  1. 精确率 Precision:模型标记为漏洞的条目里,真实漏洞占比。高精确率 = 极少误报。例:标记 10 处漏洞,7 处真实存在,精确率 70%。
  2. 召回率 Recall:数据集中全部真实漏洞里,被模型成功检出的比例。高召回率 = 极少漏报。例:共 20 处真实漏洞,检出 12 处,召回率 60%。
  3. F1 分数:精确率与召回率调和平均数,综合衡量检测能力。计算公式:
F1 = 2 × (精确率 × 召回率) ÷ (精确率 + 召回率)精确率和召回率天然存在取舍关系:只标记百分百确定的漏洞,精确率 100% 但漏报严重;全部代码标记为漏洞,召回率 100% 但海量误报。F1 会惩罚两极分化的结果,只有两项指标同时优秀才能拿到高分,是本次核心对比标准。
4.单漏洞检测成本:总推理花费 ÷ 检出真实漏洞数量,衡量规模化部署的经济可行性。部分模型 F1 中等,但推理成本极低,大规模场景综合收益更高。

实测结果(按 F1 分数降序名次排列)


排名
测试配置
配套调度框架
F1 分数
1
Semgrep 多模态流水线(GPT 5.5)
Semgrep 专用增强框架
61%
2
Semgrep 多模态流水线(Opus 4.8)
Semgrep 专用增强框架
53%
3
GLM 5.2
Pydantic AI(仅基础提示词)
39%
4
Claude Code(Opus 4.6)
Claude 官方 SDK
37%
5
Claude Code(Opus 4.8/4.7)
Claude 官方 SDK
28%
6
MiniMax M3
Pydantic AI(仅基础提示词)
23%
7
Kimi K2.7 Code
Pydantic AI(仅基础提示词)
22%
8
GPT-5.5
Codex 官方 SDK
20%
9
Nemotron Super 3 120B
Pydantic AI(仅基础提示词)
18%
10
DeepSeek V4
Pydantic AI(仅基础提示词)
17%


关键数据补充对比检测方案


检测方案
F1 分数
Semgrep 多模态最优(GPT-5.5)
62.0%
开源模型最优:GLM 5.2
39.0%
MiniMax M3
22.9%
Kimi K2.7 Code
21.6%
DeepSeek V4 Pro
16.8%
Qwen 3.7 Plus
11.4%
Nemotron Super 3 120B
9.3%
Devstral 2 123B
8.3%
Claude Code 最优版本(CLAUDE OPUS 4.6)
37.4%


两条核心观测结论


  1. 自研多模态流水线断层领先,调度框架是性能核心分水岭搭载专用接口枚举、代码筛选框架的 Semgrep 流水线包揽前两名,GPT 5.5、Opus 4.8 分别拿到 61%、53% 的高分。这印证我们自研工具路线有效,能为客户提供更强漏洞检测能力。

  2. 最大的意外:GLM 5.2 无任何增强工具,硬实力超越 Claude Code在仅靠提示词、无配套分析框架的条件下,GLM 5.2 F1 39%,领先 Claude Code 最高版本 37.4% 整整 1.6 个百分点;对比最新 Opus 4.7/4.8 版本(28%)优势高达 11 个百分点。作为开源权重模型,单漏洞检测成本仅 0.17 美元。企业批量扫描成千上万接口时,单位漏洞成本直接决定方案能否规模化落地,绝非无关紧要的次要指标。


其余开源模型表现平庸:MiniMax M3(23%)、Kimi K2.7 Code(22%)成绩接近,大幅落后 GLM 5.2 与 Claude。两款通用代码模型在「无引导、自主定位缺失鉴权漏洞」任务中,很难区分正常业务代码与 IDOR 风险。

GLM 5.2 与第二名开源模型分差 16 个百分点,甚至大于它与 Claude Code 的差距。由此可见:不能笼统判定开源模型整体追上闭源,仅 GLM 5.2 在本次 IDOR 单一场景、同等极简调度条件下实现反超。

实验核心结论


  1. 本次并非纯粹公平的模型裸能力对比,调度框架带来的增益远大于模型本身差距在完全相同的极简提示词与轻量化调度器环境中,开源权重模型 GLM 5.2 完成高难度漏洞推理任务,性能超越 Claude Code,推理成本仅为闭源旗舰模型的 1/6,且支持企业全离线私有化部署。整张榜单里最大性能鸿沟,不在于不同大模型之间,而在于「有无专用增强调度框架」。安全行业从业者对此结论并不意外,调度前置分析才是漏洞检测的核心增量。

  2. 企业安全体系不可单一绑定某一款大模型本次测试结果极具警示意义:即便你采购闭源厂商全套配套工具,死守单一模型路线,也会错失开源模型带来的成本、性能双重收益。开源权重模型已经跨过实用门槛,值得纳入安全审计选型清单。一年前,开源模型参与漏洞评测基本只是陪跑;如今 GLM 5.2 仅凭基础提示词就能击败主流闭源代码智能体,同时支持本地私有化部署,对大量涉密安全团队极具吸引力。


重要局限说明


本次实验仅针对IDOR 单一漏洞类型、单一固定数据集、一轮测试结果。漏洞检测具备随机性,数据集样本有限,我们仅控制了模型与调度器这一个变量。

存在一种可能性:GLM 5.2 仅在 IDOR 场景占优,换到 SSRF 等其他漏洞检测任务会被反超。我们后续会开展多漏洞类型大规模评测,验证结论通用性。

Semgrep 安全研发团队敬上。

发布:Semgrep 官方博客|2026 年 6 月 22 日

作者:Katie Paxton-Fear、Erik Buchanan

编译:场长

地址:

https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。

分享到微信