OpenAI 在2025年 1月底 发表了《交易推理时间计算以换取对抗性鲁棒性》研究论文,详细探讨了推理时间计算与 AI 模型对抗性攻击的鲁棒性之间的关系。
论文地址:
该一研究使用 OpenAI 的o1-preview和o1-mini等推理模型进行,提供了初步证据,表明在推理过程中为大语言模型提供更多时间和资源,以期待抵御对各种对抗性攻击。
对抗性攻击涉及在输入数据进行微妙的、通常难以察觉的干扰,长期以来一直是人工智能领域的一大挑战。这些攻击可能会导致模型对输入进行错误分类或产生错误的输出,这些变化对人类来说无法察觉。
尽管进行了广泛的研究,但针对此类攻击的有效防御措施仍然难以捉摸,仅增加模型尺寸还不足以解决这个问题。
该研究考察了增加推理时间计算(本质上是给予模型更多的“思考”时间)如何影响模型的稳健性。实验针对一系列任务进行,包括解决数学问题、基于事实的问答和对图像分类。结果表明,在许多情况下,随着推理时间计算量的增加,对抗性攻击成功的概率会降低。这种改进是在没有对抗性训练或对攻击类型的先验知识的情况下发生的。
该研究还引入了针对推理模型量身定制的新型对抗性攻击。
这些攻击包括多次攻击(攻击者提供多个误导性示例)和软令牌攻击(优化嵌入向量以实现对抗性目标)。此外,该研究还探讨了“Think Less”攻击(试图减少模型的推理时间计算,使其更容易受到攻击)和“Nerd Sniping”攻击(利用无效的推理循环,其中模型花费过多的计算而不会提高稳健性)。
OpenAI 在 X 平台上的帖子,人们回复了很多的评论,这体现出人们对人工智能稳健性和安全性进步的兴奋、对更多技术细节的好奇,以及对潜在误用或改进的充分性的怀疑。
用户Paddy Sham分享说:
我认为,在未来构建这些模型时,让更多人理解算法和数据偏差漏洞的思想非常重要。尤其是那些由于人类的思维方式而难以检测的漏洞。对于机器系统来说,检测模式并形成偏差可能比较容易。
用户Robert Nichols评论:
平衡计算效率与安全性的一个有趣观点!它提出了关于人工智能模型权衡的基本问题。你是否认为这种方法可以为现实世界应用中更强大的系统铺平道路?
虽然增加算力通常会降低攻击成功率,但研究也发现了一些局限性。在政策或目标不明确的情况下,攻击者仍然能够利用漏洞,而增加算能并不总是有帮助。模型有时也可能计算效率低下,从而导致漏洞。
该研究的全部细节,包括局限性和未解决的问题,可在OpenAI已发表的论文中找到。
编辑:洛逸
地址:
https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。