清华AI TIME走进北邮:“机器学习与隐私保护”
作者头像
  • 机器人飞机
  • 2019-12-17 10:56:01 7

智能与隐私:机器学习与隐私保护的未来之路

在大数据和人工智能的时代背景下,用户在享受智能服务便利的同时,也面临严重的隐私泄露风险。个人信息越全面,隐私受到威胁的可能性越大。用户在各个应用场景中留下的痕迹,整合在一起可能精准定位个人隐私信息。用户作为数据的产生者,往往无法得知自己的数据被用于何种目的——被商业利用、被贩卖或被窃取等。

您更看重机器学习带来的便利还是隐私数据带来的威胁?

2019年11月29日,初雪中的北京,AI Time活动在北京邮电大学举行。本次活动由北京邮电大学的张忠宝副教授和AI Time的何芸老师主持,特别邀请了清华大学计算机系的唐杰教授、中科院计算所的沈华伟研究员、北京邮电大学的程祥副教授和中国计算机学会中文信息技术专委委员李磊博士。四位来自学术界和工业界的专家围绕“智能与隐私”的热点问题进行了深入探讨。

智能时代与隐私保护:矛盾还是共生?

人工智能的发展如火如荼,机器学习作为其中的重要组成部分,越来越受到关注。四位讲者首先对机器学习现状进行了简要解读。

李磊博士认为,机器学习的应用非常广泛,在内容理解和生成等领域发挥了重要作用。随着Bert、XLnet等预训练模型的发展,机器学习在工业界的应用门槛大大降低,学术界的研究成果可以迅速应用于工业领域。

唐杰教授回顾了机器学习的发展历程,指出当前人工智能浪潮主要得益于机器学习算法在实际系统中的广泛应用。他强调,机器学习的平民化、平台化和高精度化趋势使得普通人也能轻松上手。

沈华伟研究员认为,机器学习是人工智能的一部分,但其边界受限于图灵机模型下的计算智能。如果一个问题无法计算或计算复杂度高,则难以通过机器学习解决。

程祥副教授则认为,机器学习已经渗透到生活的各个方面,但在涉及创造力的问题上仍有局限。

多源异构环境下的有效学习

我们处在一个大数据时代,但实际上,大数据并不意味着所有数据都很大,更多的是拥有许多不同来源的小数据,它们之间存在一定的关联。如果能够将这些不同来源的数据整合在一起,就能挖掘出更多有价值的信息。

唐杰教授认为,多源异构数据在工业界非常必要,但在理论研究层面更像是一个工程问题。从科学角度来看,准确、形式化的定义非常重要。在这方面,国内外已有大量的研究。

李磊博士赞同唐杰教授关于多源的观点,但对异构有不同的看法。他认为,未来异构数据有发展的空间和必要性,因为异构、多模态数据的整合有助于数据挖掘。

沈华伟研究员也认同多源异构的重要性,但他指出,需求先于学术研究。如果对多源异构有强烈需求,学术界一定会跟进。

程祥副教授认为,多源异构数据的研究都有必要,尤其是数据集成方面。他举例说明了谷歌联邦学习的概念,展示了多源机器学习的作用。他还指出,异构数据可以相互补充,从而提高信息的全面性。

机器学习的未来方向

对于机器学习的未来发展,几位嘉宾表达了各自的看法:

唐杰教授认为,推理将成为未来AI的一个重要方向。人工智能经历了三个阶段:描述和解决问题、专家系统和知识库构建、深度学习的快速发展。未来人工智能发展的两个重要方向是推理和自学习。

沈华伟研究员与唐杰教授一致认为,预训练模型的广泛应用是另一个趋势。预训练模型在大规模数据集上进行无监督训练,然后通过特定任务的微调来构建面向具体任务的学习模型。预训练不仅推动了工业界的发展,也对学术界产生了影响。

李磊博士提出了两个观点:一是逻辑表示和深度学习的结合,二是概率图模型和深度学习模型的结合。他认为,前者可以在实践中获得较好效果,后者则可以解释推理过程。

李磊博士还指出,工业界在应用机器学习时面临的主要瓶颈是性能和准确度,同时还需考虑经济成本。具体瓶颈包括:明确定义的任务在实际应用中可能出现问题;计算性能方面的延迟;能耗问题。

隐私保护:智能时代的挑战

当生活中的多源数据融合在一起时,用户的隐私风险也随之增加。用户的信息越全面,隐私威胁越大。那么,该如何保护隐私?

唐杰教授提到,在技术发展的初期阶段,可以适当放宽对隐私保护的要求,以推动AI的发展。近年来,随着技术的快速进步,隐私保护越来越受到重视。但在隐私保护和数据共享方面,企业需要做到两点:不做恶、不随意交换数据。联邦学习可能是一种解决方案。

沈华伟研究员总结了三点:一是隐私保护需要一个过程;二是隐私保护的尺度需要技术和法规的配合;三是隐私保护一定程度上依赖于AI技术的发展。

李磊博士认为,负责任的公司应始终将用户隐私放在首位,可以通过法律和技术手段来保护隐私。

程祥副教授认为,从数据源头保护隐私之后,是否还需要进一步的隐私保护取决于具体场景。例如,在医疗或公安领域,即使数据已被处理,仍需采取额外措施防止敏感信息泄露。

法律优先还是技术优先?

关于数据与隐私,任何违反法律的行为都是不可接受的。

你更看重机器学习带来的便利,还是隐私数据带来的威胁?

现场观众投票结果如下:

四位嘉宾的观点:

李磊博士认为,负责任的公司应始终将用户隐私放在首位,可以通过法律和技术手段来保护隐私。

唐杰教授认为,当前机器学习带来的便利更为重要。

沈华伟研究员担心人们对隐私泄露和机器学习便利之间的界限存在认知偏差,导致许多人低估了隐私泄露的风险。

程祥副教授也对隐私威胁表示担忧。

互动与思辨

Q1:隐私的定义是什么?

沈华伟研究员认为,隐私是一种权益,包括知情权和受益权等。如果用户授权他人使用其数据,则这些数据不再被视为隐私。

Q2:如何在提供更好体验的同时保护用户隐私?

程祥副教授认为,隐私保护应结合具体场景。例如,在医疗调查中,需要严格保护隐私,而在其他场景中则可以相对宽松。此外,个性化需求也需要考虑用户的隐私偏好。

未来之路

机器学习与隐私保护的未来之路在于平衡。学术界应着眼于长远发展,如多源机器学习的数学定义、概率表示与概率编程、逻辑和深度学习的结合等。未来的人工智能可能会迎来推理的新浪潮,预训练模型在文本和图像领域的发展迅猛,也可能成为实现推理的一种方法。

只发展AI而不考虑隐私,或只顾隐私而不发展AI,都是极端做法。两者需要平衡发展。隐私保护技术如差分隐私、k-匿名性、降维方法、联邦学习和数据加密等都需要不断创新。未来的AI应当具备认知能力,能够自主解决问题,甚至像科幻电影中的那样自主思考。尽管这一目标看起来遥远,但科技进步的速度令人期待。

机器学习与隐私保护并非零和博弈。近年来提出的差分隐私和联邦学习技术为在保护数据贡献者隐私的前提下实现有效机器学习提供了思路。未来,我们需要找到机器学习与隐私保护之间的平衡点,既能享受到机器学习带来的便利,又能保护个人隐私。

四位嘉宾与现场观众在热烈的讨论中结束了这次活动,留给人们的是对未来机器学习与隐私保护的更多思考。

    本文来源:图灵汇
责任编辑: : 机器人飞机
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
北邮清华隐私保护走进机器学习TIME
    下一篇