对抗性人工智能:理解现代AI系统的安全威胁
[LOADING...]
无论你处于“拥护者”还是“恐惧者”模式(或介于两者之间),不可否认的是,人工智能已经改变了我们构建产品和开展业务的方式。我们一直面临着网络安全威胁,但现在环境更加复杂,我们必须考虑欺诈检测、客户支持、自主系统和生成式 AI 风险等带来的新挑战。
此外,随着 AI 能力的增长,针对它们的威胁也在增加。最关键的新兴风险领域之一是“对抗性 AI”(Adversarial AI)——即利用恶意技术来利用、操纵和/或破坏 AI 系统。
理解对抗性 AI 对于保护我们“AI 驱动”产品的完整性、可靠性和安全性至关重要——这是一个我们都非常熟悉的短语。为什么?因为这些威胁会直接影响业务成果,导致经济损失、声誉受损以及客户信任的彻底瓦解,而这种情况我们已经有所见闻。
在本文中,我们将介绍对抗性 AI,探讨其两种主要形式,并概述组织和软件开发团队必须保障的主要攻击面。
对抗性 AI 的两面性
[LOADING...]
对抗性 AI 威胁通常分为两大类。
1. AI 被用作武器
在第一类中,攻击者利用 AI 本身来放大恶意活动。这些包括:
- 深度伪造(Deepfake)生成:创建逼真的虚假图像、视频或音频,以散布虚假信息、实施欺诈或损害声誉。
- 自动化网络钓鱼:利用 AI 大规模制作高度个性化的钓鱼邮件,在降低攻击者成本的同时提高成功率。
- AI 生成的恶意软件:开发能够识别漏洞并比传统攻击技术适应速度更快的恶意软件。
这些攻击并非理论,它们已经被用于绕过防御、欺骗用户并利用组织——通常以空前的速度和规模进行。我们稍后会展示一些例子,但这听起来确实令人担忧。
2. 直接针对 AI 系统的攻击
第二类侧重于攻击 AI 模型和系统本身。这些攻击尤其危险,因为它们会破坏 AI 的决策方式,可能导致误导性的输出、偏见行为或不安全的行动。
对于依赖 AI 决策的组织而言,被入侵的模型可能会悄无声息地引入系统性风险,通常在造成重大损害之前没有任何明显的迹象。
攻击者的关注点
在瞄准 AI 系统时,对手通常集中在三个主要领域。
1. 对 AI 算法的攻击
这些攻击针对 AI 系统的核心学习和决策机制。通过干扰模型的训练方式或其解释输入的方式,攻击者可以影响预测和结果。
这一类别包括一些最具影响力的对抗性技术,我们将在本文后面详细探讨。
2. 对生成式 AI 过滤器的攻击
生成式 AI 系统依赖过滤器和安全防护措施来防止滥用——例如内容审核过滤器或识别个人信息(电子邮件地址)的机制等。攻击者利用提示词注入(prompt injection)或代码注入等技术利用这些控制中的弱点,从而绕过限制。
这些过滤器在输入和输出过程中应用,不幸的是,这为攻击者提供了充足的机会,通过创造性手段获取和使用敏感信息。
一旦成功,这些攻击不仅能帮助对手生成有害内容,还能执行非预期的操作——通常让用户在为时已晚之前毫无察觉。
[LOADING...]
3. 对 AI 工件的供应链攻击
AI 系统在很大程度上依赖第三方组件,包括数据集、预训练模型、API 和开源库。供应链攻击正是针对这些依赖项。
例如,攻击者可能入侵模型训练期间使用的开源库,或将恶意代码嵌入数据集中。一旦集成,被入侵的组件即可实现未经授权的访问、数据渗漏或系统中断。
由于这些攻击利用了受信任的依赖项,因此特别难以检测,且可能产生深远的影响。
对 AI 算法的攻击:现实世界中的示例
对 AI 算法的攻击直击 AI 系统的基础。一旦成功,它们可能导致模型表现出错误、不可预测或恶意行为。该类别主要包括三种攻击类型:数据中毒、逃逸攻击和模型窃取。
数据中毒攻击
数据中毒发生在 AI 模型的训练阶段。攻击者操纵训练数据以破坏模型的学习过程,使其内化错误或有害的模式。
例如,考虑一个旨在识别可疑交易的欺诈检测模型。如果攻击者获得训练管道的访问权限,他们可以注入被标记为合法的欺诈交易。结果,模型在检测真实欺诈方面的有效性降低,从而使组织暴露于财务风险之中。
一个众所周知的现实案例是 2016 年推出的 微软 Tay 聊天机器人。Tay 直接从 Twitter(如果你是千禧一代)或 X(如果你是 Z 世代)上的用户互动中学习,并很快被操纵,开始产生攻击性和有害的内容。这一事件凸显了在训练期间缺乏监控的数据管道和不足的防护措施所带来的风险。
搜索引擎操纵提供了另一个例子,其中中毒数据被用于呈现虚假信息,这破坏了用户对 AI 驱动系统的信任。
[LOADING...]
逃逸攻击
逃逸攻击发生在模型部署之后。攻击者不修改模型,而是微妙地操纵输入以导致错误的预测。
在欺诈检测中,这可能涉及改变消费行为,使其刚好避开触发警报的阈值,例如将大额交易拆分为多笔小额交易。每一笔交易单独看似乎都是合法的,从而使欺诈行为逃过检测。
逃逸攻击也已在自动驾驶系统中得到验证。研究人员表明,在停车标志上放置小贴纸会导致自动驾驶汽车将其误读为限速标志。这些变化对人类而言通常几乎无法察觉,甚至完全无法察觉,但足以混淆模型。根据不同的使用场景,这可能导致灾难性的后果。
类似的技术可以绕过人脸识别系统或其他生物识别控制,从而实现未经授权的访问和数据窃取。
[LOADING...]
模型窃取
模型窃取涉及通过重复查询 AI 模型并分析其输出来窃取或复制模型。随着时间的推移,攻击者可以推断出模型的结构、参数甚至训练数据,从而有效地克隆专有的知识产权。
2019 年,研究人员证明,仅通过公共接口,商业 AI 模型可以以约 90% 的准确率被复制。通过观察模型对精心选择的输入的响应,他们重建了其内部行为。
2023 年出现的 Alpaca 和 OpenLLaMA 项目是更近期的例子。攻击者广泛查询了 Meta 的 Llama 模型并分析其输出,以逆向工程其功能。这一过程使他们能够创建 Alpaca,这是一个在没有直接访问其源代码或训练数据的情况下,能够高度模仿 LLaMA 性能的模型。
模型窃取削弱了专有 AI 系统的竞争优势,并使对手能够重复使用或转售窃取的能力。
为什么这对企业很重要
数据中毒、逃逸攻击和模型窃取都会损害 AI 系统的完整性和可靠性。对于企业而言,后果可能包括:
- 运营中断
- 经济损失
- 知识产权盗窃
- 监管与合规风险
- 客户信任丧失
保护 AI 系统需要的不仅仅是传统的应用程序安全。组织必须在设计 AI 时考虑到弹性,实施访问控制、监控模型行为、验证数据管道,并确保整个 AI 供应链中的依赖项安全。
接下来是什么?
理解这些攻击向量是保障 AI 驱动产品安全的第一步。在下一节中,我们将探讨针对生成式 AI 中过滤器的攻击,攻击者通过绕过安全防护来滥用 AI 能力。
通过主动应对对抗性 AI 威胁,组织可以保护他们的模型、用户和业务成果。
随着 Qodana 继续为新时代的安全和质量威胁进行开发,我们正在发布新功能,旨在帮助保护你的代码库,让你能够专注于质量和技术债务。请与我们的团队联系,了解我们如何提供帮助。