导读:Semgrep的一项实验显示,仅靠提示词的GLM5.2在IDOR检测中表现优异,F1分数达39%,优于ClaudeCode等大模型,因其开源、成本低廉且效果显著。
在仅提供统一提示词、无额外配套工具的同等条件下,开源权重模型 GLM 5.2 的漏洞检测表现超越 Claude Opus 4.8。
我们使用自研 IDOR(不安全直接对象引用)漏洞基准数据集,对多款主流开源大模型开展统一评测,全程使用完全相同的数据集与提示词 —— 这套评测标准同样用于评估各类前沿代码智能体。最终结果令我们十分意外:智谱 AI 开源权重模型 GLM 5.2 在 IDOR 漏洞检测任务中 F1 分数达到 39%,超过 Claude Code 的 32%;检测单处漏洞的推理成本仅约 0.17 美元。
当然它仍不及 Semgrep 自研多模态流水线(F1 分数 53%~61%),毕竟后者配套专用调度框架,承担了绝大部分前置分析工作。但在仅靠一段提示词驱动的所有模型里,这款开源模型实现了对闭源顶尖代码智能体的反超,打破了开源模型全面落后的固有印象。
本次实验初衷并非评选最强开源模型,而是想厘清一个更务实的问题:漏洞检测能力,究竟多大程度取决于大模型本身,多大程度依赖外部调度框架?对于 Semgrep 团队而言,这个问题至关重要 —— 我们大量客户都在用 AI 智能体开展安全审计工作。调度框架(Harness)指包裹在大模型外层的整套执行逻辑:负责读取代码仓库、筛选模型可见上下文、解析模型输出、循环迭代完成检测任务。我们内部多模态流水线就运行在专属调度框架中,长期用于 IDOR 漏洞挖掘实验。
IDOR 属于访问控制类漏洞,简单理解:程序允许用户通过参数直接访问不属于自己的数据。我们自研调度框架会自动枚举项目所有接口,过滤无关代码,只把关键代码片段交给模型分析。但本次对比测试中,所有开源模型都没有接入这套增强框架,仅使用轻量化 Pydantic AI 调度器与统一 IDOR 检测提示词。我们仅在提示词里简单告知 IDOR 漏洞特征、给出检索思路,而非只简单丢一句 “找出代码漏洞”。
本次实验本是为区分「提示词优化」和「专用调度框架」对检测效果的影响,测试过程中却出现颠覆性结果:一款无配套增强工具的开源权重模型,漏洞检测能力超越业界顶尖闭源代码智能体。
如果你此前没听过 GLM-5.2 也很正常,我们也是在社交平台看到相关消息后,才把它纳入评测名单。
GLM 5.2 是智谱 AI(Z.ai)最新的大模型,6 月 13 日面向 GLM Coding 付费用户开放,6 月 16 日正式开源权重并发布更新日志,我们正是在这天关注到它。三大特性让它非常适配安全审计场景:
开源权重协议友好模型权重采用 MIT 协议开源,企业可自由下载、本地部署、微调、离线审计。对于涉密安全团队而言,本地私有化部署是刚需。需要区分概念:开源权重 ≠ 开源完整训练链路。本次开放的仅为推理权重,训练数据集、完整训练管线并未对外公开;不过智谱对外放出了 RL 强化学习训练框架。
代码推理能力具备一线水准GLM 5.2 采用 MoE 混合专家架构,总参数量约 7500 亿,单 Token 推理仅激活 400 亿参数,大幅降低推理成本。上下文窗口从 20 万 Token 扩容至 100 万 Token,官方强调超长上下文不会在复杂多轮智能体任务中出现精度衰减。安全漏洞分析往往需要跨多文件、通读整套鉴权框架,百万级稳定上下文至关重要。标准代码基准测试成绩:
先简单回顾 IDOR 漏洞定义:应用在请求中直接暴露用户 ID 等内部标识,却未校验访问者是否具备对应数据权限。攻击者修改 ID 参数,即可读取他人隐私数据。示例 Flask 危险接口代码:
def get_user(user_id):user=User.query.get_or_404(user_id)return jsonify (user.to_dict())
这段路由直接从 URL 读取用户 ID 查询数据,未做归属校验。任意登录用户修改 user_id 参数,就能读取其他用户信息。IDOR 不属于污点传播类漏洞,没有明确危险函数可供规则匹配,只是缺少鉴权校验逻辑;不管传统静态扫描工具还是大模型,都很难精准识别。同时它常年稳居 HackerOne 高频漏洞榜单第四名,因此我们长期将它作为核心评测基准。
实验严格控制单一变量,三项条件全程统一:
唯一变量:大模型型号、配套调度框架三组实验环境:
重点重申:开源模型组未接入 Semgrep 专属增强框架,仅提供代码库 + 标准提示词,完全依靠模型原生推理能力。
F1 = 2 × (精确率 × 召回率) ÷ (精确率 + 召回率)精确率和召回率天然存在取舍关系:只标记百分百确定的漏洞,精确率 100% 但漏报严重;全部代码标记为漏洞,召回率 100% 但海量误报。F1 会惩罚两极分化的结果,只有两项指标同时优秀才能拿到高分,是本次核心对比标准。自研多模态流水线断层领先,调度框架是性能核心分水岭搭载专用接口枚举、代码筛选框架的 Semgrep 流水线包揽前两名,GPT 5.5、Opus 4.8 分别拿到 61%、53% 的高分。这印证我们自研工具路线有效,能为客户提供更强漏洞检测能力。
最大的意外:GLM 5.2 无任何增强工具,硬实力超越 Claude Code在仅靠提示词、无配套分析框架的条件下,GLM 5.2 F1 39%,领先 Claude Code 最高版本 37.4% 整整 1.6 个百分点;对比最新 Opus 4.7/4.8 版本(28%)优势高达 11 个百分点。作为开源权重模型,单漏洞检测成本仅 0.17 美元。企业批量扫描成千上万接口时,单位漏洞成本直接决定方案能否规模化落地,绝非无关紧要的次要指标。
其余开源模型表现平庸:MiniMax M3(23%)、Kimi K2.7 Code(22%)成绩接近,大幅落后 GLM 5.2 与 Claude。两款通用代码模型在「无引导、自主定位缺失鉴权漏洞」任务中,很难区分正常业务代码与 IDOR 风险。
GLM 5.2 与第二名开源模型分差 16 个百分点,甚至大于它与 Claude Code 的差距。由此可见:不能笼统判定开源模型整体追上闭源,仅 GLM 5.2 在本次 IDOR 单一场景、同等极简调度条件下实现反超。
本次并非纯粹公平的模型裸能力对比,调度框架带来的增益远大于模型本身差距在完全相同的极简提示词与轻量化调度器环境中,开源权重模型 GLM 5.2 完成高难度漏洞推理任务,性能超越 Claude Code,推理成本仅为闭源旗舰模型的 1/6,且支持企业全离线私有化部署。整张榜单里最大性能鸿沟,不在于不同大模型之间,而在于「有无专用增强调度框架」。安全行业从业者对此结论并不意外,调度前置分析才是漏洞检测的核心增量。
企业安全体系不可单一绑定某一款大模型本次测试结果极具警示意义:即便你采购闭源厂商全套配套工具,死守单一模型路线,也会错失开源模型带来的成本、性能双重收益。开源权重模型已经跨过实用门槛,值得纳入安全审计选型清单。一年前,开源模型参与漏洞评测基本只是陪跑;如今 GLM 5.2 仅凭基础提示词就能击败主流闭源代码智能体,同时支持本地私有化部署,对大量涉密安全团队极具吸引力。
本次实验仅针对IDOR 单一漏洞类型、单一固定数据集、一轮测试结果。漏洞检测具备随机性,数据集样本有限,我们仅控制了模型与调度器这一个变量。
存在一种可能性:GLM 5.2 仅在 IDOR 场景占优,换到 SSRF 等其他漏洞检测任务会被反超。我们后续会开展多漏洞类型大规模评测,验证结论通用性。
Semgrep 安全研发团队敬上。
发布:Semgrep 官方博客|2026 年 6 月 22 日
作者:Katie Paxton-Fear、Erik Buchanan
编译:场长
地址:
https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/
本篇文章为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。