[CL]《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》P Bisconti, M Prandi, F Pierucci, F Giarrusso... [DEXAI – Icaro Lab] (2025) 最新研究揭示“对抗诗歌”是一种通用且高效的单轮绕过大型语言模型安全机制的攻击手段。该方法通过将有害请求改写成诗歌形式,显著提升模型违规输出概率,部分顶尖模型的攻击成功率高达90%以上。研究覆盖25款主流闭源及开源模型,涵盖谷歌、OpenAI、Anthropic、Meta等9家厂商。通过将1200条MLCommons安全基准有害提示转化为诗歌,攻击成功率比原文提升近3倍,平均达43%。这一现象跨越化学、生物、核辐射(CBRN)、网络攻击、操控欺骗、隐私泄露等多种风险领域,说明问题根源在于模型对诗歌形式的处理机制,而非具体内容。研究采用三模型开放权重评审团结合人工复核,确保判定准确。结果显示,诗歌形式凭借其浓缩的隐喻、韵律和非典型叙事结构,成功扰乱了模型基于模式匹配的安全拒绝逻辑,暴露了当前对齐方法和评估协议的根本局限。令人意外的是,较小模型反而更能抵御此类攻击,推测是它们难以解码诗歌隐含意图,表现出一种“保守拒绝”策略;而大型模型因理解力强反而更易被绕过。此外,开放权重模型与闭源模型均表现出高度脆弱,安全水平更多依赖具体对齐策略而非模型开放性。本研究强调当前合规测试(如欧盟AI法案)依赖的静态基准忽视了输入风格多样性带来的影响,可能严重高估实际安全性。未来安全评估需纳入风格扰动、叙事重构等多维压力测试,提升模型在真实场景中对变异输入的稳健性。同时,研究呼吁深入探索诗歌等叙事与修辞结构如何影响模型内部表征和安全过滤机制,进而设计更具语境适应性的对齐方法,避免低成本的风格转换轻易导致安全失效。详情请见论文全文:arxiv.org/abs/2511.15304
