关于会员推断攻击及防止隐私泄露的研究

我们提出的用于更精确测量微调LLM记忆化的方法

为了更好地理解记忆化如何在微调LLM中造成隐私风险，我们需要一种精确的测量方法。如前所述，现有的成员推断方法通常依赖于聚合信号（例如模型在序列上的平均损失），或者需要训练大量影子模型的昂贵流程。这两种选择都有局限性：平均损失会抹平实际出现记忆化的令牌级模式，而影子模型方法成本过高，难以用作实用的审计工具。

在我们的论文中，我们探讨是否存在一种更简单、更具针对性的方法来检测微调语言模型中的成员泄漏。在本节中，我们将描述我们提出的方法，并用它来测量微调数据集的记忆化。更多技术细节请参见论文第3-6节及附录。

我们的攻击方法

我们方法背后的一个核心直觉是：记忆化并非均匀分布在序列中。当模型已经正确预测了一个令牌时，无论是微调模型还是预训练参考模型都可能赋予它很高的概率，因此几乎没有有用的成员信号。但当模型预测错误令牌时，微调仍可能提高训练样本中真实令牌的概率，即使不足以使其成为最高预测。

识别错误位置中的这种信息量是我们方法的关键，我们将其称为错误区域成员推断攻击（Error Zone Membership Inference Attack, EZ MIA）。关于这一思想的正式解释，请参见我们论文的第6.1节。

我们的威胁模型假设攻击者能够：

查询微调后的目标模型。
计算令牌级别的对数概率。
访问原始预训练模型或可比较的公共参考模型。

攻击者不需要访问训练分布的样本、影子模型训练或辅助模型拟合。

我们将目标模型的令牌级对数概率与参考模型进行比较。参考模型是微调前的预训练基础模型检查点。这种基线的优势在于，它能够在不接触训练数据的情况下捕捉到建模能力。

在错误位置上，我们分析概率变化相对于参考模型是向上（正向）变化还是向下（负向）变化。然后我们得到错误区域分数，其计算方式为两个方向概率变化之间的比值。分数越高，意味着在模型不确定或出错的序列部分，微调将更多概率推向了观察到的令牌，从而提供了该序列可能出现在训练中的证据。

错误区域分数是尺度不变的。也就是说，如果所有令牌级变化都按相同因子增加或减少，比值保持不变。

每次攻击还会确定一个成员资格阈值。如果错误区域分数超过该阈值，则视为成员。

一次完整的攻击只需要对每个序列进行两次前向传播：一次通过目标模型，一次通过参考模型。这比上述基于参考的攻击（需要更多模型评估）要便宜得多。

对于一次攻击，每个查询序列的流程如下：

计算目标模型和参考模型的令牌级对数概率。
识别目标模型最高预测与真实结果不同的错误位置。
计算错误区域分数。
如果分数超过相应阈值，则将该项分类为成员。

简而言之，EZ MIA 将成员推断转化为一个更具针对性和实用性的测量问题。通过这种方式，该攻击方法既轻量又富有信息量，提供了一种实用的方式来审计微调语言模型中的记忆化，同时保持较低的计算成本。

我们在多种文本类型上评估了我们的方法 EZ MIA，以确定它是否能在单一狭窄设置之外工作，并将结果与常见基线进行了比较。初步实验评估了涵盖不同领域的多个数据集上的记忆化（方法参见论文第4节）；所有基线均由我们的团队在相同条件下实现，与 EZ MIA 保持一致。

我们发现，关注错误位置提供了比使用聚合损失或其他序列级统计量更强的信号。EZ MIA 优于常见基线，如 LOSS、Min-K++ 和 SPV-MIA。EZ MIA 的检测能力比这些基线高出多达九倍。

下图比较了基线方法和 EZ MIA 在 TPR@0.1%FPR 下的检测率；EZ MIA 以蓝色柱状图表示。更多详细结果请参见论文第5.2节。 [LOADING...]

总体而言，这些结果支持了 EZ MIA 的核心直觉：与在整个序列上取平均相比，当我们关注模型的错误时，记忆化更容易被检测到。我们认为，这意味着我们的方法在审计微调语言模型时比现有方法更准确、更实用。

应用我们的成员推断攻击方法评估微调效果

在初步评估之后，我们希望分离出微调的效果。本小节描述了这些实验设置及其结果。有关此项研究的更多细节，请参见论文第5.3节及后续章节；在论文第6节中，我们还评估了 EZ MIA 的性能。

实验设置

在本实验中，我们评估了三个模型：GPT-2 (124M)、GPT-2-XL (1.5B) 和 Llama-2 (7B)。所有三个模型分别进行了完全微调和使用 LoRA 在 XSum（一个包含正式新闻散文的数据集）上进行微调。

对于每个数据集，我们构建了 10,000 个成员序列、10,000 个非成员序列以及一个独立的 500 序列验证集。所有序列固定为 128 个令牌，由连续文本拼接而成。

我们所有攻击的参考模型都是相应的预训练模型检查点，即在任何微调之前，无需额外计算。

在评估中，我们报告曲线下面积（AUC）作为一般性判别指标，但特别强调在极低假阳性率（FPR）下的真阳性率（TPR）。这是因为隐私审计在误报很少时最为有用，因此 TPR@1%FPR 和 TPR@0.1%FPR 等指标比仅看平均性能更有信息量。

实验结果

最明显的发现之一是完全微调与 LoRA 之间的对比。当我们在两种设置下评估相同的模型时，完全微调产生了更多的成员泄漏，而 LoRA 则显著降低了信号。然而，泄漏并未完全消失，尤其是在较大模型中。这表明 LoRA 有助于降低记忆化风险，但不应被视为完全的隐私保护。下表显示了所有三个模型的结果。 [LOADING...]

上表显示，在 GPT-2、GPT-2-XL 和 Llama-2 上比较完全微调与 LoRA 时，完全微调始终导致更高的成员推断风险。此外，LoRA 在每个模型大小上都显著减少了这种泄漏。对于较小模型，效果尤为显著：在 GPT-2 上，攻击成功率从完全微调的 82.6% 骤降至 LoRA 的 1.5%。较大的 LoRA 微调模型似乎仍比小模型记忆更多，但总体上 LoRA 比完全微调安全得多。

这些结果证实了完全微调的成员推断风险，同时也表明像 LoRA 这样的参数高效微调可以提供充分的保护。我们的攻击方法 EZ MIA 是一种新的、改进的记忆化评估方法，能够以低假阳性率检测成员信号。

研究成员推断及其他LLM隐私风险的重要性

更广泛的经验是，LLM 的隐私审计需要变得更加有针对性，尤其是对于微调模型。LoRA 相比完全微调可以减少泄漏，但并不能使记忆化消失。

与此同时，像 EZ MIA 这样更强的攻击为研究人员和实践者提供了一种更锐利的工具，用于衡量微调何时从有用的适应转变为危险的保留。如果我们希望构建能够从敏感数据中学习而不暴露这些数据的 LLM，我们首先需要可靠的方法来识别记忆化隐藏在哪里。