自然言语处理的两件神兵之(1): nlp library

it老记冀勇庆官方
2020-06-12 20:18:37 5

+关注

nlp 和 tokenizers 简介

nlp 和 tokenizers 是 Huggingface 提供的两个非常实用的自然语言处理库。这两个库为用户提供了高效、便捷的工具来处理文本数据和模型。

起源与发展

Huggingface 抓住了 BERT 模型迅速崛起的机会。BERT 是一种基于 Transformer 架构的模型，由 Google 开发并在自然语言处理领域取得了巨大成功。由于 PyTorch 是 Facebook 推出的深度学习框架，Facebook 官方对 BERT 的支持可能相对滞后，因此 Huggingface 应运而生，率先完成了 BERT/Transformer 模型的 PyTorch 版本。此后，Huggingface 不断更新，推出了更多基于 BERT 的模型，涵盖了 NLP 领域的各种应用。

随着基于 Transformer 的模型不断涌现，Huggingface 对其封装库进行了重命名，将其称为 Transformers。这一库不仅涵盖了 100 多种模型，还打通了 TensorFlow 和 PyTorch 两大主流深度学习框架，实现了模型的相互转换和高效访问。如今，Transformers 已成为 NLP 领域不可或缺的工具。

nlp 库

Huggingface 的 nlp 库主要用于自然语言处理中的数据管理和评测。它提供了 160 多个经典的数据集，包括用于 T5 模型的 C4 数据集。这些数据集可以帮助研究人员更好地定义实际场景、衡量标准，并进行数据清洗和特征提取。

遗憾的是，目前媒体上关于 NLP 的报道大多集中在最新研究成果上，忽略了数据处理和评测的重要性。事实上，数据准备和清洗往往比模型设计更加耗时且重要。Huggingface 的 nlp 库正是为了满足这种需求而诞生的。

tokenizers 库

Huggingface 的 tokenizers 库是另一个强大的工具，专注于词汇表的构建和分词。在使用 NLP 模型时，首先要获取模型对应的词汇表，然后将需要处理的句子转化为 tokens。这一过程至关重要，尤其是在工业应用中，需要优化执行效率。tokenizers 库采用了 Rust 编程语言，保证了高性能和灵活性，同时也易于集成到其他系统中。