数据发掘巨擘俞士纶:真实数据源不止一个,学习不只要有深度还要有广度
作者头像
  • 解云舒
  • 2019-10-20 07:08:18 2

深度挖掘,广泛积累!

作者 | Camel

排版 | 唐里

AI科技报道,2019年10月17日至19日,CNCC 2019在苏州金鸡湖国际会议中心举行,雷锋网作为战略合作媒体进行了全程报道。

在18日上午的特邀报告中,数据挖掘领域专家美国伊利诺伊大学芝加哥分校的俞士纶教授发表了题为“广度学习:大数据挖掘的新视角”的演讲。

目前,人们对深度学习较为熟悉,但实际上,我们不仅需要深入挖掘数据,还需要广泛收集。例如,对于网页数据,深度学习可以单独分析文本或图像等特定类型的数据。然而,实际网页可能同时包含文本、图片、音频、链接等多种数据。

实际上,所谓的大数据并非所有数据都庞大,而是整体规模大。大多数情况下,我们拥有来自不同来源的小数据,这些数据之间存在不同程度的联系。如果我们能整合这些不同的数据源,就能挖掘出更多有价值的信息。

俞士纶教授认为,我们应该认识到所有类型的数据都是有用的,也就是说没有无用的数据。关键在于如何把这些数据整合在一起。这就是“广度学习”的意义所在。

所谓“广度学习”,俞士纶教授解释道,其实质在于如何将各种数据整合在一起,以获取更多信息。

在采访中,俞教授指出,广度学习侧重于数据,而深度学习侧重于模型。具体来说,深度学习的“深度”指的是模型的层数,而广度学习的“广度”则是指数据类型的多样性。两者侧重点不同,但可以在同一个模型中结合应用。

俞教授认为,要做好广度学习,需要以下三个步骤: 1. 定义并获取相关且有用的数据源。 2. 设计一种模型来整合异质数据源的信息。 3. 根据模型的整体需求,深入挖掘各种数据源中的信息。

从技术角度看,广度学习大致可分为三种类型: 1. 在同一实体上不同信息类型的学习,包括多视图学习、多源学习和多模型学习。 2. 在不同类型但相似实体上的信息学习,包括迁移学习。 3. 在具有复杂网络关系的不同类型实体信息学习,包括基于融合的异质信息网络。

广度学习的核心任务是信息融合和知识发现,因此面临的两大挑战是如何识别有效数据并将其融合,以及如何从融合数据中提取有用知识。

例如,在药物开发中,新药研发成本高昂,因为研发过程中可能会失败多次。但如果利用大数据技术进行预测,可以剔除无效案例,从而大幅降低研发成本。决定一种药物是否有效,不仅仅依赖其化学成分,还需考虑基因信息、器官组织信息、临床试验信息等多种类型的数据。传统数据挖掘方法只能针对单一类型信息进行深入分析,而实际上,为了取得更好的效果,需要综合多种信息。

此外,在电影推荐系统中,传统的推荐方法通常仅依据用户的评分,但实际上,用户是否喜欢一部电影还受到其他因素的影响,如个人背景、朋友圈等。类似地,可以通过融合不同信息来提高推荐系统的准确性。

俞士纶教授认为,在大数据时代,数据是最宝贵的资源。对于个人和企业而言,对大数据的挖掘将带来颠覆性的机会。大数据具有多样性的特点,因此对其挖掘也是一种挑战。俞教授在报告中主要探讨了大数据的多样性问题,通过融合异质数据源来进行广度学习。现实中的数据通常来自多个数据源,因此有效的学习需要兼顾广度和深度。

    本文来源:图灵汇
责任编辑: : 解云舒
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
巨擘数据源广度发掘深度不止还要只要真实数据
    下一篇