昔日 Paper | 梯度剪切；命名实体辨认；自然言语处理；免强度函数学习等

兰海平
2020-02-16 12:13:55 3

+关注

梯度剪切可以加速梯度下降

论文标题：Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

作者：Jingzhao Zhang / Tianxing He / Suvrit Sra / Ali Jadbabaie

发表日期：2019年9月26日

论文链接：https://openreview.net/forum?id=BJgnXpVYwS

在神经网络训练中，对梯度进行剪切是一种流行的方法，但很多人不明白其背后的原理。这篇论文提供了理论解释和实证证据，证明梯度剪切能够加速网络训练。作者们通过分析网络训练中的平滑性，证明了梯度剪切和梯度正则化两种方法都能比传统的固定步长梯度下降更快地收敛。作者们还在常见的网络训练环境中进行了实验，验证了他们的理论假设。

该论文得到了同行评审的一致好评，并被ICLR 2020收录为行动报告。

完成命名实体识别的双向LSTM+CRF结构

论文标题：Bidirectional LSTM-CRF Models for Sequence Tagging

作者：Zhiheng Huang / Wei Xu / Kai Yu

发表日期：2015年8月9日

论文链接：https://arxiv.org/pdf/1508.01991.pdf

核心问题：该论文致力于解决命名实体识别任务，这是使用RNN结构并结合CRF层进行实体识别的研究之一。

创新点：该论文创新在于采用了双向LSTM+CRF作为网络模型。这种结构创新使得模型能更有效地利用历史和未来的上下文信息。

研究意义：研究证明了双向LSTM-CRF模型在命名实体识别任务中的有效性。

完成命名实体识别的神经网络结构

论文标题：Neural Architectures for Named Entity Recognition

作者：Guillaume Lample / Miguel Ballesteros / Sandeep Subramanian / Kazuya Kawakami

发表日期：2016年4月7日

论文链接：https://arxiv.org/pdf/1603.01360.pdf

推荐理由

核心问题：本文解决了自然语言处理领域中的经典命名实体识别问题。该论文提出了一个承前启后的解决方案，改变了传统的方法，并为后续研究奠定了基础。

创新点：之前的模型主要依赖于CNN，而本文采用RNN，并结合CRF层，形成了RNN-CRF模型结构，取得了良好的效果。

研究意义：实验表明，在英语、荷兰语、德语及西班牙语上，LSTM-CRF模型在无任何人工标注特征的情况下表现出色。

自然语言处理（几乎）从头开始

论文标题：Natural Language Processing (Almost) from Scratch

作者：Ronan Collobert / Jason Weston / Leon Bottou / Michael Karlen / Koray Kavukcuoglu / Pavel Kuksa

发表日期：2011年1月10日

论文链接：http://jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

推荐理由

核心问题：本文介绍了一种深度神经网络方法，用于完成多种自然语言处理任务，如词性标注、短语结构分析、命名实体识别和语义角色标注。

研究重点：本文较早地应用了深度学习方法来解决这些问题。与传统的机器学习方法相比，这种方法不需要手动构建特征，并且可以在不同的任务之间共享特征。

研究意义：本文的核心思想是多任务学习，首先训练词嵌入，然后利用这些嵌入来完成子任务，取得了良好的效果。本文主要使用的是卷积神经网络，有时在文本处理中也表现出色。

免强度函数学习的时间点过程

论文标题：Intensity-Free Learning of Temporal Point Processes

作者：Shchur Oleksandr / Biloš Marin / Günnemann Stephan

发表日期：2019年9月26日

论文链接：https://arxiv.org/abs/1909.12127

推荐理由

时间点过程是一种有效建模异步事件序列的方法，广泛应用于事件预测、因果分析和图建模等领域。然而，一个关键问题是设计条件强度函数。指定强度函数（如指数分布族）会限制模型的表达能力，复杂的强度函数又会导致计算困难。本文提出了一种新的方法，不再依赖强度函数，而是直接建模条件概率，使用流方法和混合高斯方法。实验表明，该方法在时间序列预测等任务上达到了或超过了当前最佳水平，并且非常适合学习序列嵌入和处理缺失数据的情况。