OpenAI 推出推理时间计算研究以提高 AI 安全性

场长

资讯 45 1623 2025-01-27 04:10:06

OpenAI 在2025年 1月底发表了《交易推理时间计算以换取对抗性鲁棒性》研究论文，详细探讨了推理时间计算与 AI 模型对抗性攻击的鲁棒性之间的关系。

论文地址：
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

该一研究使用 OpenAI 的o1-preview和o1-mini等推理模型进行，提供了初步证据，表明在推理过程中为大语言模型提供更多时间和资源，以期待抵御对各种对抗性攻击。

对抗性攻击涉及在输入数据进行微妙的、通常难以察觉的干扰，长期以来一直是人工智能领域的一大挑战。这些攻击可能会导致模型对输入进行错误分类或产生错误的输出，这些变化对人类来说无法察觉。

尽管进行了广泛的研究，但针对此类攻击的有效防御措施仍然难以捉摸，仅增加模型尺寸还不足以解决这个问题。

该研究考察了增加推理时间计算（本质上是给予模型更多的“思考”时间）如何影响模型的稳健性。实验针对一系列任务进行，包括解决数学问题、基于事实的问答和对图像分类。结果表明，在许多情况下，随着推理时间计算量的增加，对抗性攻击成功的概率会降低。这种改进是在没有对抗性训练或对攻击类型的先验知识的情况下发生的。

该研究还引入了针对推理模型量身定制的新型对抗性攻击。

这些攻击包括多次攻击（攻击者提供多个误导性示例）和软令牌攻击（优化嵌入向量以实现对抗性目标）。此外，该研究还探讨了“Think Less”攻击（试图减少模型的推理时间计算，使其更容易受到攻击）和“Nerd Sniping”攻击（利用无效的推理循环，其中模型花费过多的计算而不会提高稳健性）。

OpenAI 在 X 平台上的帖子，人们回复了很多的评论，这体现出人们对人工智能稳健性和安全性进步的兴奋、对更多技术细节的好奇，以及对潜在误用或改进的充分性的怀疑。

用户Paddy Sham分享说：