Anthropic - 多次尝试越狱技术的发布
Anthropic昨晚发布了一种名为“多次尝试越狱”的技术,可以利用超长上下文的模型特性将对应的长提示对模型越狱。
“多次尝试越狱”通过在单一提示中包含大量特定配置的文本,迫使LLMs产生可能有害的回应,尽管它们被训练为不这样做。研究表明,随着包含对话(“尝试”)数量的增加,模型产生有害回应的可能性增加。结合其他已发布的越狱技术,可以使这种技术更为有效,减少模型返回有害回应所需的提示长度。
这种越狱技术的有效性与“上下文中学习”(in-context learning)的过程有关,即LLM仅使用提示中提供的信息进行学习,而不需要任何后续的微调。研究发现,正常情况下的上下文中学习遵循与多次尝试越狱在增加的示例演示数量上相同的统计模式(幂律分布)。
为了缓解多次尝试越狱的风险,Anthropic采取了一些措施,包括限制上下文窗口的长度和对模型进行微调,使其拒绝回答看起来像是多次尝试越狱攻击的查询。此外,他们还探索了基于提示的缓解方法,这些方法涉及在模型处理提示之前对其进行分类和修改,显著降低了多次尝试越狱的有效性。
@Anthropic @多次尝试越狱 @上下文中学习