OpenAI近日承认,带有代理(Agent)能力的AI浏览器在结构上难以彻底消除“提示注入”(promptinjection)攻击风险,即便持续加强防护,仍只能将其视为长期安全挑战而非可被完全“解决”的技术问题。为此,公司正通过更快的安全修补节奏以及大规模自动化攻防演练,试图在真实攻击出现之前主动发现Atlas浏览器中的潜在漏洞。
OpenAI于10月正式推出内置在ChatGPT中的AtlasAI浏览器后,安全研究人员随即演示,只需在GoogleDocs等页面中写入寥寥数语,即可悄然改变浏览器底层行为,这凸显了“代理模式”在访问用户邮箱、网站等开放环境时,安全攻击面被显著放大。同日,Brave在博客中也指出,间接提示注入是所有AI浏览器面临的系统性难题,Perplexity的Comet等产品同样不例外。
这并非OpenAI一家的判断。英国国家网络安全中心(NCSC)本月早些时候警告称,针对生成式AI应用的提示注入攻击“可能永远无法被完全缓解”,网站可能因此遭遇大规模数据泄露。NCSC建议安全团队转而关注“降低风险和影响”,而不是寄望于彻底阻止此类攻击。OpenAI在最新博文中直言,将提示注入视为长期AI安全课题,必须持续加固防御。
在防御策略上,OpenAI与Anthropic、Google等竞争对手的共识是:需要叠加多层防护并持续压力测试系统。Google近期的安全研究则侧重于在系统架构和策略层面对“代理型系统”施加约束,例如通过访问控制和行为策略减少风险。
不过,OpenAI试图走出一条差异化路径——打造一个“基于大模型的自动化攻击者”。这一系统本质上是一个扮演黑客角色的机器人,经由强化学习训练,专门寻找向AI代理“暗递”恶意指令的各种方法。在内部测试中,攻击机器人可以先在模拟环境中发动攻击,系统会展示目标AI在看到这类攻击时的“思考过程”以及可能采取的动作,攻击机器人再据此调整策略并反复尝试。OpenAI认为,这种对目标模型内部推理过程的洞察,是现实世界攻击者所不具备的优势,因此有望更快发现隐藏漏洞。
OpenAI表示,其强化学习攻击者能够引导代理执行复杂的、由数十步甚至数百步组成的有害操作流程,并在这一过程中摸索出此前在人类红队演练或外部报告中从未出现过的新型攻击路径。这与当前AI安全测试领域常见做法一致——先构建能“踩边”的代理,在高频模拟中不断探索边界并反向加固防线。
在最新的演示中,OpenAI展示了自动化攻击者如何向用户邮箱中悄然植入一封恶意邮件。当AI代理稍后扫描收件箱、准备撰写外出自动回复时,它被邮件中隐藏的指令诱导,转而替用户发送了一封辞职邮件。OpenAI称,在最近一轮安全更新后,Atlas的“代理模式”已经能够识别此类提示注入企图并向用户发出警报。公司还强调,虽然提示注入难以实现“万无一失”的防御,但将通过更大规模的自动化测试和更快的补丁节奏,尽量在问题被攻击者利用前完成修复。
OpenAI发言人拒绝透露这些更新是否已经在统计上显著降低成功攻击率,但表示公司自Atlas上线前就已与第三方安全机构合作,持续对该浏览器进行攻防演练,以强化其在提示注入方面的防护能力。
外部安全专家对这一路线持审慎肯定。网络安全公司Wiz的首席安全研究员RamiMcCarthy指出,强化学习确实是一种持续适应攻击者行为的方式,但只能构成解决方案的一部分。他提出,一个实用的风控框架是将AI系统的风险视为“自治程度×访问权限”的乘积。在这一坐标系中,具备一定自主决策能力、但同时拥有极高数据访问权限的“代理浏览器”,天然处在风险较高的区域。
因此,业界许多建议都围绕“降低访问暴露”和“限制自主操作”展开。例如,减少代理在登录状态下访问敏感账户的机会,以减少潜在攻击面;同时对发送消息、发起支付等关键动作设置强制用户确认,从而把代理的自主性控制在可接受范围内。OpenAI方面表示,Atlas已经过训练,在发送消息或执行支付前会主动征求用户确认。公司还建议用户尽量以明确任务指令来驱动代理,而不是笼统地赋予其广泛权限,例如不要简单地授权它“打理整个邮箱并采取一切必要行动”。正如OpenAI所言,赋予代理过大的行动空间,会显著放大隐藏或恶意内容影响其决策的机会,即便系统内置了多重安全保障。
尽管OpenAI强调保护Atlas用户免受提示注入攻击是公司“头等优先级”,McCarthy仍提醒外界,对这类高风险浏览器的投入产出比应持一定怀疑态度。在他看来,就目前多数日常场景而言,“代理浏览器”为用户带来的增量价值,还不足以完全抵消其当前风险画像。这类工具对邮箱、支付信息等敏感数据拥有高度访问权限,这既是其强大之处,也是其风险所在,而这种权衡短期内仍将十分尖锐。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】