2025年12月1日,一项最新研究表明,通过将提示内容转化为诗歌形式,能够有效规避当前主流大语言模型的安全防护机制。这项名为对抗性诗歌:一种通用的单轮大语言模型越狱机制的研究显示,利用创意性表达可在不改变语义的前提下突破人工智能系统的审查限制。
研究发现,以诗歌结构组织的输入提示具有较强的通用绕过能力,整体成功率达到62%,足以诱使多个大型语言模型生成通常被禁止的内容,包括涉及制造危险武器、儿童保护相关违规信息以及鼓励自杀或自残等高风险回应。
实验覆盖了当前广泛应用的多款模型,涵盖来自不同开发方的代表性系统。测试结果显示,部分模型在面对此类诗歌提示时几乎无一例外地给出了不符合安全规范的回答,而另有少数模型则表现出较强的防御能力,能够在多数情况下维持原有内容策略,避免输出违规信息。
尽管研究团队未公开所使用的具体诗句内容,但明确表示相关示例因潜在风险过高而不适合对外发布。论文中提供了一个经过处理的简化版本,用以展示攻击方式的基本原理。研究人员指出,此类方法的操作门槛较低,实现难度远小于公众普遍认知,这也正是该研究值得警惕的关键所在。他们强调,随着模型应用日益广泛,对新型绕过手段的防范需引起足够重视。