前所未有:GPU集群恶意代码注入?模型投毒?​资源消耗攻击?

文章正文
发布时间:2024-10-23 22:55

原创 亲爱的数据 亲爱的数据

一场悲剧,

一场闹剧,

若干年后,

可能会被认定为国内“AI安全第一案”。

闻所未闻,骇人听闻,匪夷所思。

我所熟悉的,

和AI有关,

和安全有关的团队,

都在第一时间讨论和复盘。

攻击者手段多,隐蔽性强,

甚至有一部分专家直接告诉我:

防不住,根本防不住。

一方面,工作人员通宵达旦解决故障,

很难想到故障来自“内鬼”。

另一方面,训练大模型是大系统工程,

周期长,环节多,

哪怕没有恶意破坏,

动不动就会出现故障。

甄别出哪些是恶意“故障”非常困难,

防不住?真这样吗?

(一)漏洞与损失

1. 自“古”以来,AI大模型训练没有出过这么大的安全事件。

2. 本质是,在AI大模型的训练中搞五花八门的破坏。

3. 并不是多有技术含量的“黑客”招数。

4. 但是,很隐秘,不易被发现。

5. 从“古”至今,IT专家们(当然包括AI),

从来没有像今天这样,操作如此昂贵的设备。

GPU太贵了,成千上万卡更是价值数十亿。

恶意破坏会给企业带来巨额损失。

6. 攻击者有实时攻防能力,

在内部(Debug)群里观察,,

每当有人排查故障的时候,

有针对性地把代码改回去。

让人难以确定故障根源,

从而加剧追踪难度。

7. 攻击者对训练整个工程过程和底层软件很了解。

8. AI训练的工程细节环环相扣,

攻击者下手多个环节。

训练前,模型加载,漏洞攻击。

训练中,强行结束多卡实验。

训练后,改动计算结果。

9. Huggingface里的一个公共库里面的一个模型加载函数,

在反序列化未受信任的数据时,

可能执行数据中的恶意代码。

攻击者利用了这个漏洞。

值得注意的是,

使用模型(训练,推理)第一步都要用到这个函数

这是用于加载模型的保存状态的函数。

需要补充一点,安全漏洞无法杜绝,

虽然是来自第三方供应商的风险,

但是从企业的角度,不能把责任全推给供应商,

企业需要有措施来做补偿控制。

10. 将基础软件做更高层次的抽象接口,

确实能方便使用,

但是当训练结果不尽如人意,

一般情况下,会找数据或者模型本身的原因。

不会或者很少检查基础软件。

就好比,开车时有异常,会检查车辆,很少检查路况。

这个攻击不易被发觉。

11. 有条件触发攻击。

触发条件选择256卡以上范围,

通常,都是8卡16卡训练任务,属小型任务。

小任务中,查看训练结果的行为更为高频,

也更容易发现异常,但是破坏性小,损失小。

攻击者瞄准256卡大型任务,

一旦成功破坏,企业损失大。

12. 恶意修改优化器可能会调整参数,

使得模型无法正常训练。

因为优化器的作用是控制模型训练过程中的参数更新,

13. 恶意修改随机种子,

会导致实验结果无法复现,

甚至多次运行同一个模型得到完全不同的结果。

随机种子是控制随机过程的一个关键参数。

AI大模型训练很多操作,如权重初始化、

数据打乱、训练批次生成等,

都依赖随机数生成。

14. 恶意使用Sleep函数,任务暂停。

这样会影响GPU的使用,

从而降低GPU利用率。

这是工程团队工作效率的重要指标。

GPU要一直干活,利用率才高 ,

当计算:休息 = 1:1,使用率只有50%。

资源消耗攻击。

15. 攻击者通过修改梯度方向,

动态改变模型的优化方向,

导致模型参数更新错误,

使得模型训练出的结果是错误的。

这是一种经典的模型投毒攻击,

攻击者通过篡改训练过程来影响模型的表现。

16.攻击者的权限是不是太大了?

最后,打一个比方,

一些人正在埋头考试,攻击者在:

攻击答题设备,

干扰答题过程,

篡改答案。

(二)可以防,代价大

我和来自两家互联网大厂的首席安全官,

都聊了好一会。

理论上,可以防。

加强权限的梳理和隔离,

加强漏洞的跟踪管理,

加强动态加载代码的管控,

加强对异常情况的监控和审计等等。

防的代价是什么?

执行难度有多高?

安全意识是个好东西,

希望你有,我有大家有。

但是,说得难听点,

上班是来干活的,

不是来防贼的。

谁不希望在信任真诚的环境里干活,

企业如此,社会环境也如此。

这种事件发生概率虽小,

但是,引发的管理成本却可以很大。

从公司一把手的视角看这个事件,

必须防住,怎么可能防不住。

安全手段加强,

降低整个组织效率。

增加员工抵触和管理成本

还有一个更为重要的要素,

AI的竞争,是时间的竞争,

且不只是企业间的竞争,

甚至是地缘的竞争,

AI的资源很难按时按量地分配给安全。

所有的安全措施,都伴随成本。

措施越强,成本越高。

如果安全和效率非要选出一个第一,

选哪个?

一位AI大佬对我说,

这次的恶性事件只是一个开始。

AI是一个新事物,

AI安全更是一个新事物。

每次安全事件都会提高安全的水位线。

可惜没有100%的安全,

且暗地里都标好了价格。

(完)

《我看见了风暴:人工智能基建革命》,