万物皆可Embedding之LINE算法解读

2019-08-30 06:47:04 0

前言

在上一篇文章中，我们介绍了Graph Embedding技术中的一个重要算法——Deepwalk。今天我们将介绍另一种代表性的算法：LINE（Large-scale Information Network Embedding，大规模信息网络嵌入）。LINE致力于将大型信息网络嵌入到低维向量空间中，适用于各种类型的网络，包括有向图、无向图以及带权图。它还提出了一种改进的经典随机梯度下降方法的边缘采样算法，从而提升了算法的有效性和效率，并使其应用更加广泛。总结起来，LINE具有以下特点：

适用性广：LINE能够处理各种类型的网络，无论是有向图、无向图还是带权图。
信息全面：目标函数同时考虑了网络的局部特征和全局特征。
高效性：提出了一种高效的边采样算法，解决了随机梯度下降（SGD）的效率问题。
速度快：提供了一种快速的网络表示方法，在单个计算节点上可以在数小时内完成百万级别顶点的网络表示学习。

接下来让我们详细了解LINE算法的核心概念。

重要定义

在深入了解LINE算法之前，我们需要先掌握论文中的一些关键概念。

信息网络

信息网络可以定义为G=(V, E)，其中V是顶点集合，每个顶点代表一个数据对象；E是顶点间的边集合，每条边代表两个数据对象之间的关系。每条边e可以表示为有序对e=(u, v)，并与权重Wuv>0相关联，表示关系的强度。如果G是无向图，则(u, v) != (v, u)且Wuv = Wvu；如果是有向图，则(u, v) != (v, u)且Wuv != Wvu。通常情况下，我们假设权重是非负的。