资讯

这些方法中的一些比其他方法更有效(或至少在某种程度上有所不同)。它们都利用了"角色扮演"训练模型。 Jailbreak Prompt(越狱提示):这种方法鼓励用户将自己置于一个即将发生越狱的情境中,让用户沉浸在角色中,以便更好地了解和回答问题。 越狱提示 ...
Reasoning complexity as a safety evaluation dimension We define and quantify "reasoning complexity" as an evaluable safety dimension, and categorize harmful jailbreak instructions into three different ...