OpenAI指出,AI浏览器或许会一直面临提示注入攻击的风险

更新:2026-02-28 15:13:05

尽管OpenAI正着力强化其Atlas AI浏览器抵御网络攻击的防御体系,该公司仍坦言,提示注入这种能操纵AI代理执行网页或邮件中隐藏恶意指令的攻击方式,其风险在短期内无法消除——这也让人们对AI代理在开放网络环境下的安全运行能力产生了疑虑。

OpenAI于周一发布的一篇博客文章中指出:“即时注入这类问题,类似于网络上的骗局与社会工程手段,恐怕难以被彻底‘根除’,因此公司正着力强化Atlas的防护体系,以应对层出不穷的攻击。同时,公司也坦承,ChatGPT Atlas所采用的‘代理模式’使得安全风险范围有所扩大。”

10月,OpenAI推出了ChatGPT Atlas浏览器,不少安全研究人员随即发布演示,呈现出只需在Google文档里写入几个词,就能改变浏览器底层行为的情况。也是在这一天,Brave发布了一篇博客文章,阐述间接提示注入是人工智能驱动的浏览器(其中包括Perplexity的Comet)所面临的系统性难题。

OpenAI并非唯一意识到基于提示的注入问题不会消失的机构。英国国家网络安全中心本月早些时候发出警示,指出针对生成式人工智能应用的提示注入攻击“或许永远无法被彻底缓解”,这会让网站面临数据泄露的风险。该英国政府机构建议网络专业人士应着力降低提示注入的风险与影响,而非认为这类攻击能够“被阻止”。

OpenAI方面表示:“我们将快速注入视为长期的人工智能安全挑战,需要不断加强防御。”

公司对这笔西西弗斯式任务的回答是什么?公司表示,这种主动快速响应周期显示出早期潜力,有助于在内部发现新颖攻击策略,防止它们被“野外”利用。

这与Anthropic和谷歌等竞争对手所说的观点并无太大不同:为了应对基于提示性攻击的持续风险,防御必须多层次并持续进行压力测试。例如,谷歌最近的工作聚焦于代理系统的架构和策略级控制。

但OpenAI采取了不同的策略,是对其“基于LLM的自动攻击者”。这个攻击者基本上是OpenAI训练的机器人,利用强化学习,扮演黑客的角色,寻找方法偷偷向AI代理传递恶意指令。

在目标AI投入实际应用前,可利用机器人开展模拟测试攻击。借助模拟器,能呈现目标AI的思维模式,以及其在遭遇攻击时可能采取的应对举措。之后,机器人能够分析这些反应,调整攻击策略,并进行多次尝试。由于外部无法洞悉目标AI的内部推理过程,从理论层面而言,OpenAI的机器人理应比现实中的攻击者更迅速地发现漏洞。

这是AI安全测试中的常见策略:构建一个代理来找出边缘案例,并在仿真中快速进行测试。

OpenAI指出:“我们通过强化学习训练出的攻击者,能够诱导代理完成那些需要历经数十乃至数百个步骤才能推进的复杂且具有长期危害性的工作流程。”“此外我们还发现了一些在人类红队行动以及外部报告里都未曾出现过的全新攻击策略。”

在演示过程中(部分相关图片可查看上方),OpenAI展示了其自动攻击程序是怎样把恶意邮件悄悄植入用户收件箱的。之后,当AI代理对收件箱进行扫描时,它没有按照正常流程草拟不在办公室的回复,反而依据邮件里的隐藏指令发送了辞职信。不过,据该公司表示,在完成安全更新后,“代理模式”能够成功识别出提示注入的尝试,并向用户发出了标记提醒。

公司表示,虽然快速注入难以万无一失地防范,但他们依靠大规模测试和更快的补丁周期,在实际攻击出现前加固系统。

OpenAI发言人拒绝透露Atlas安全性更新是否导致成功注入数量的明显减少,但表示公司自发布前就已与第三方合作,加强Atlas防止快速注入的防护。

网络安全公司Wiz的首席安全研究员Rami McCarthy表示,强化学习是持续适应攻击者行为的一种方式,但这只是整体情况的一部分。

“判断人工智能系统风险的一个有用方法是自主性乘以访问性,”麦卡锡讲到。

“代理型浏览器往往处于这一领域的一个挑战阶段:适度自主性与极高访问性相结合,”麦卡锡说。许多当前的建议反映了这种权衡。限制登录访问主要减少风险,而要求审核确认请求则限制了自主权。”

这两项是OpenAI为帮助用户降低自身风险提出的建议内容之一,据一位发言人介绍,Atlas还经过相关培训,可在发送消息或进行支付前获取用户的确认。OpenAI同时建议用户向客服提供具体的指示,而非直接让客服访问收件箱并告知其“采取任何必要的行动”。

OpenAI表示:“宽松的自由度使隐藏或恶意内容更容易影响代理人,即使有安全措施。”

虽然OpenAI表示保护Atlas用户免受提示注入是首要任务,但McCarthy对风险较高的浏览器的投资回报率提出了一些怀疑。

McCarthy表示:“就多数日常使用场景而言,代理式浏览器目前尚未展现出足够的价值,以匹配其当下的风险特性。”由于这类浏览器能够接触到电子邮件、支付信息等敏感数据,风险程度相当高——不过,恰恰是这种访问权限构成了它们的优势所在。尽管这种价值与风险的平衡状态会持续变动,但在当前阶段,二者之间的权衡仍然是切实存在的。

最新游戏 更多
游戏攻略
热门游戏更多