我们正处在一个充满奇迹的时代。小时候看《星球大战》时,我以为要很久以后,我们的厨房才会出现能说话的机器人。实际上,这一进程远比预期的要快,不到10年时间就实现了。
人工智能,特别是机器学习,已经把科幻变成现实。每次读到技术新闻或科技报道时,我都为现在能做的事情感到震惊。
透视墙壁?很简单。通过视频预测材料的物理特性?已经实现。通过键盘声预测按键?生成逼真的面孔、身体或诗歌?或者教会机器绘画或玩《星际争霸》游戏?这些都是可能的。
现在,如果你和从事AI/ML领域的人交流,可能会得到两种反应。一种是对AI潜力的极度兴奋,另一种则是对人工智能可能带来的威胁感到恐惧,担心它会将人类变得无用。在我看来,这两种观点在社会中广泛存在——一半人认为人工智能是未来的希望,另一半则认为它是人类的末日。
本文提供第三种观点:人工智能也可能成为新的攻击面。
每项新技术出现时,人们通常认为它带来了新的能力。然而,有光就有影,新技术也带来了新的漏洞,供黑客利用。
回顾PC市场的发展历程,1975年发布的Altair 8800开启了个人电脑时代。随后的十年里,一系列创新不断涌现,直到1984年苹果公司的Macintosh问世。这一时期见证了个人电脑的广泛应用,尤其是在1990年代和2000年代初:
然而,在这段时间里,恶意软件市场也在迅速增长。1989年,Robert Morris利用Unix的sendmail创建了一个可以自我复制的蠕虫,导致了第一次DoS攻击。随后,出现了各种恶意软件,包括1996年的Linux病毒“Staog”和1998年的AOL木马。
同样的情况也发生在移动设备领域。2007年iPhone问世,智能手机迅速普及,随之而来的是手机恶意软件的爆发:
那么,机器学习呢?
尽管机器学习的产品化仍处于早期阶段,但在研究实验室和大学中已经取得了一些进展。不过,我们也看到了对抗机器学习的研究趋势:
事情正在发生变化。你是否已经开始担忧?
好消息是,随着个人电脑逐渐渗透到日常生活中,黑客也开始侵入,另一个市场也随之兴起——安全解决方案市场。
1987年,Andreas Luning和Kai Figge为Atari ST平台开发了第一个抗病毒产品。同年,McAfee、NOD、Flu Shot和Anti4us等品牌相继成立。接下来的20年里,更多安全产品涌现出来:
随后,风险投资家开始认识到网络安全的重要性,资金开始流入:
此外,一些大型公司进行了收购:
随着手机恶意软件的增长,安全市场也迎来了类似的爆发:
安全领域的融资情况:
安全领域的收购情况:
那么,机器学习呢?
曾经,我为一家大型金融科技公司工作,负责反欺诈和反洗钱。我们每年监管的交易额超过100亿美元,一直致力于防止欺诈行为。自然而然地,我们决定尝试机器学习,结果发现它非常有效,将欺诈损失减少了80%,并将可疑账户检测提升了20倍。
然而,有一个问题。我们在关键任务上部署了机器学习算法,但这项任务不允许失败——一旦失败,我们将面临巨大的经济损失或失去金融许可证。因此,我需要了解机器学习如何以及何时会失败,如何利用我们的模型,它的内在弱点在哪里,以及如何判断GoCardless是否受到攻击。
经过无数个夜晚的文献阅读和暗网搜索,我最终找到了答案。我了解到机器学习中的中毒攻击,攻击者可以通过在训练中注入破坏性数据来影响模型。我还发现对抗性示例,以及在测试时模型如何容易被精心设计的干扰输入误导。最后,我了解到隐私攻击,底层数据和模型本身都不是公开的。
然后,我发现了这个……
我被吓坏了。
到2019年底,三分之一的企业将部署机器学习。这是我们每天使用的各种产品的三分之一——在任何知道ML工作原理的攻击者面前,它们都是裸露的。
是的,机器学习需要安全。
机器学习安全是一个非常新兴的领域,目前几乎不存在有效的解决方案。从研究中我学到的是,任何没有数学博士学位的人都很难弄清楚如何确保机器学习的安全(目前只有大量的数学研究论文)。
考虑到我们的生活中有多少依赖算法,我认为这是我们共同的责任——你、我和整个机器学习社区的责任——确保安全不被忽视。我们可以做很多事情来构建更健壮的机器学习模型——正如我在之前的帖子中提到的,中毒和隐私攻击。但更重要的是,我们需要改变思维方式——从“不惜一切代价的准确性”转向更平衡的准确性与稳健性:
C1和C2是两个模型。显然,C1一开始并不十分准确,但在攻击强度增加时,它更能抵抗攻击。你会选择C1还是C2作为机器学习模型?
这篇文章和接下来的文章是我迈出的第一步,迈向一个更健壮的机器学习未来。确保每个人的安全。