机器学习与隐私保护,终究路在何方?
作者头像
  • 泽熙洲
  • 2019-12-15 16:02:45 5

智能时代与隐私保护:是相互制约还是共存?

在当前大数据和人工智能的时代背景下,用户在享受智能服务带来的便利的同时,也面临着巨大的隐私泄露风险。用户信息越详尽,隐私受到的威胁就越大。用户在各个应用领域留下的痕迹综合起来,可以精准定位个人隐私信息。用户作为数据的生产者,往往无法得知自己的数据被用于何种目的——被商业利用、被贩卖或被窃取。

那么,你更倾向于机器学习带来的便利,还是对隐私数据的担忧?

2019年11月29日,北京初雪,AI Time走进北京邮电大学,本次活动由北京邮电大学张忠宝副教授和AI Time的何芸老师主持,并邀请了清华大学计算机系唐杰教授、中科院计算所研究员沈华伟、北京邮电大学程祥副教授及中国计算机学会中文信息技术专委会委员李磊博士。四位来自学术界和工业界的专家围绕“智能与隐私”的热点问题,探讨了“机器学习与隐私保护”。

一、机器学习的利与弊

人工智能正在飞速发展,机器学习作为其核心方法之一,受到了广泛关注。如果把人工智能比作一个孩子的大脑,机器学习则是教会孩子识字、认图和走路的过程。机器学习有着广泛的运用,与日常生活紧密相连,为用户提供更好的服务。四位演讲者对机器学习现状进行了简要解读。

李磊博士认为,机器学习在内容理解和内容生成方面发挥了巨大作用。随着Bert、XLnet等预训练模型的发展,机器学习在工业界的应用变得更为简便,学术研究也能快速转化为实际应用。

唐杰教授回顾了机器学习的发展历程,指出这一轮人工智能浪潮源自于机器学习算法的广泛应用,具有平民化、平台化和高精度化的特点。过去只有学术界和大企业才能做的事情,现在普通人也能轻松上手。

沈华伟研究员表达了他对人工智能边界的看法,他认为机器学习是人工智能的一部分,其边界是图灵机模型下的计算智能。如果一个问题无法计算或计算复杂度高,则难以通过机器学习解决。

程祥副教授认为,机器学习已经渗透到生活的方方面面,但在涉及创造力的问题上仍面临挑战。例如,如何撰写论文等任务。

多源异构数据的学习

我们常常处于大数据时代。实际上,大数据并不意味着所有数据都庞大,而是指我们拥有许多来源各异的小数据,它们之间存在不同程度的联系。如果能把这些不同的数据源整合在一起,将挖掘出更多的有价值信息。

唐杰教授认为,多源异构数据在工业界非常有用,但从理论研究角度看,它更像是一个工程问题。定义多源异构数据的科学性和形式化非常重要。尽管国内外对此已有不少研究,但仍有发展空间。

李磊博士同意唐杰的观点,但对异构数据持有不同见解。他认为异构数据未来有发展的必要和空间。把异构、多模态的数据放在一起,有助于数据挖掘。

沈华伟研究员同样支持多源异构数据的重要性,他认为实际需求推动了学术研究的发展。如果对多源异构有强烈需求,学术研究也会跟上。

程祥副教授则认为多源异构数据的研究都有必要性,并提出了数据集成的概念,用谷歌的联邦学习来解释多源机器学习的作用。异构数据可以互补,从而更加全面地反映同一语义空间下的信息。

二、隐私保护

当生活中的多源数据融合在一起时,用户的隐私风险也随之增加。数据越全面,隐私风险越大。这时该如何应对?

智能时代的隐私保护

唐杰教授提到,在技术发展的初期,可以适度放宽对隐私保护的要求,推动AI技术的发展。近年来,随着技术的迅速发展,隐私保护越来越受到重视。但目前社会对隐私保护的关注度还不够。在隐私保护和数据共享方面,企业需要做到两点:坚决不做恶,数据不随意交换。在某些情况下,联邦学习可能是一种解决方案。

沈华伟研究员总结了三点:隐私保护需要一个过程;隐私保护的尺度需要技术和规则的磨合;隐私保护一定程度上依赖于AI技术,技术的进步会使隐私保护更为完善。

从工业界角度来看,李磊博士认为负责任的公司应始终将用户隐私放在首位,通过法律法规和技术手段加以保护。随着机器学习技术的发展,隐私保护技术也需要不断更新。

程祥副教授认为,从数据源头保护隐私后,是否还需要隐私保护取决于具体场景。例如,银行或医疗机构发布的模型可能泄露敏感信息。因此,即使是可信的数据收集者,也需要对公开的模型或统计信息进行保护。

法律优先还是技术优先?

关于数据与隐私,任何违反法律的行为都是不允许的。

你更看重机器学习带来的便利,还是隐私数据带来的威胁?

现场观众投票结果如下:

三、互动与思辨

Q1:隐私的定义是什么?

沈华伟研究员表示,隐私是一种个人权益,包括知情权和受益权等。如果授权他人使用自己的数据,这些数据就不再是隐私。知情权因人而异,如果在每个环节都加上知情权,就不存在隐私问题。很多人在不知情的情况下被拿走了自己的数据。

Q2:如何在提升用户体验的同时保护隐私?

程祥副教授认为,隐私保护与应用场景密切相关。例如,一项关于遗传病的调查非常敏感,需要保护上传信息的隐私。而在其他场景,如视频或照片中不希望自己的脸出现,隐私保护的需求各不相同。隐私保护的主要研究方向是如何在隐私保护的前提下,尽可能不影响机器学习的准确性。例如,在发布数据时,不能反推出样本中的信息,以保护用户的隐私。差分隐私技术可以解决这一问题。

四、未来之路

机器学习与隐私保护的未来究竟在哪里?经过两个多小时的思辨与互动,得出以下结论:

机器学习在工业界的应用瓶颈主要在于性能和能耗,学术界应看得更远。例如,多源机器学习的形式化定义、概率表示与概率编程、逻辑与深度学习的结合等。

目前我们正处于人工智能的第三阶段,未来的研究浪潮可能是推理。预训练在文本和图像领域的快速发展,可能是实现推理的一种方法。也可能仍然需要大规模的知识图谱。知识图谱最终可能会走向知识自动化,一旦达到这个阶段,它将以另一种方式存在。

只发展AI而不谈隐私,或者只顾隐私而不发展AI,是两个极端。两者需要磨合才能共同发展。隐私保护技术需要全新发展,包括差分隐私、k-匿名法、基于维度缩减的方法、联邦学习以及数据加密等。这些方法可能还不足以解决当前的隐私隐患。因此,技术和隐私保护公共政策需要共同发展。

在未来,我们期待机器能真正具备认知能力,能够自主解决问题,或者像科幻电影中那样自主思考。虽然这看起来很遥远,但随着科技的爆发,谁能确定现在的科幻不是未来的现实技术?在未来,数据融合用于提供更智能化的服务是不可避免的趋势,但在法律和技术层面,我们应该给予更高关注,以增强公众的隐私保护意识。

机器学习与隐私保护并不是零和博弈。近年来提出的差分隐私和联邦学习技术为在保护数据贡献者部分隐私的条件下实现有效的机器学习提供了可能。我们需要探索的是,如何找到机器学习与隐私保护之间的平衡点,让人们既能享受到机器学习带来的便利,又能确保个人隐私的安全。

    本文来源:图灵汇
责任编辑: : 泽熙洲
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
何方隐私保护终究机器学习
    下一篇