2025-12-23 08:35:02

黑客能让 AI 发辞职信？OpenAI 承认 Atlas 浏览器提示词注入攻击难以根治

摘要

尽管OpenAI正致力于强化其Atlas人工智能浏览器的网络攻击防御能力，但该公司承认，提示词注入攻击带来的风险短期内无法消除。这种攻击手段

尽管OpenAI正致力于强化其Atlas人工智能浏览器的网络攻击防御能力，但该公司承认，提示词注入攻击带来的风险短期内无法消除。这种攻击手段通过操纵人工智能智能体，使其执行隐藏在网页或电子邮件中的恶意指令。这也引发了人们对人工智能智能体在开放网络环境下能否安全运行的质疑。

OpenAI在其博客文章中详细阐述了为增强Atlas的防御能力所采取的措施，并指出提示词注入攻击几乎不可能被完全“攻克”。公司坦承，ChatGPT Atlas的“智能体模式”扩大了安全威胁面。今年10月，OpenAI推出了ChatGPT Atlas浏览器，随后安全研究人员迅速发布了相关演示，证明只需在谷歌文档中输入寥寥数语，就能改变底层浏览器的行为。同一天，Brave浏览器也发布博客指出，间接提示词注入攻击是所有人工智能驱动型浏览器面临的系统性挑战，Perplexity公司的Comet浏览器也未能幸免。

黑客能让 AI 发辞职信？OpenAI 承认 Atlas 浏览器提示词注入攻击难以根治

意识到提示词注入攻击威胁将长期存在的并非只有OpenAI一家。英国国家网络安全中心本月早些时候发出警告，称针对生成式人工智能应用的提示词注入攻击或许永远无法被完全缓解，这使得各类网站都面临数据泄露的风险。该机构建议网络安全从业者应着力降低此类攻击的风险及影响。

OpenAI表示，他们将提示词注入视为一项长期的人工智能安全挑战，未来需要持续强化防御措施。为此，OpenAI建立了一套主动式快速响应机制，这套机制已初显成效，能够在新型攻击手段被用于实战攻击前，在内部发现这些攻击策略。这一思路与Anthropic、谷歌等竞争对手的主张类似：要应对提示词注入攻击的持续威胁，必须构建多层防御体系，并持续开展压力测试。

不过，OpenAI采取了一种与众不同的策略——开发基于大语言模型的自动化攻击程序。这款机器人由OpenAI借助强化学习技术训练而成，能够模拟黑客行为，寻找向人工智能智能体植入恶意指令的途径。机器人可以在模拟环境中测试攻击手段，再投入实际应用。模拟环境能够还原目标人工智能在遭遇攻击时的思维过程与可能采取的行动。机器人可分析目标的反应，调整攻击方式，并反复进行测试。从理论上讲，这款机器人发现系统漏洞的速度快于现实中的黑客。

OpenAI展示了其自动化攻击程序如何将一封恶意电子邮件植入用户收件箱。当人工智能智能体后续扫描收件箱时，它执行了邮件中隐藏的恶意指令，发送了一封辞职信，而非按要求撰写休假自动回复邮件。不过，在完成安全更新后，“智能体模式”已能成功检测到提示词注入攻击的企图，并向用户发出告警。

尽管要实现对提示词注入攻击的万无一失防御难度极大，但OpenAI仍在依靠大规模测试与更快速的补丁更新周期，力争在相关攻击手段出现在现实世界之前，完成系统防御加固。网络安全公司Wiz的首席安全研究员拉米·麦卡锡指出，强化学习技术确实能实现对攻击者行为的持续自适应防御，但这只是解决方案的一部分。他认为衡量人工智能系统风险的一个有效方法是计算其自主性与访问权限的乘积。智能体浏览器处于这一风险模型中的高挑战区域：它们拥有中等程度的自主性，同时又具备极高的系统访问权限。

OpenAI建议用户向智能体下达具体明确的指令，而非直接授予其收件箱访问权限。即使已部署安全防护措施，过高的自主操作权限也会让隐藏的恶意内容更容易对智能体产生影响。尽管OpenAI声称保护Atlas用户免受提示词注入攻击是公司的首要任务，但麦卡锡仍对这类高风险浏览器的投入产出比持怀疑态度。他认为对于大多数日常使用场景而言，智能体浏览器目前带来的价值尚不足以匹配其当前的风险水平。