自然言语处理的两件神兵之(1): nlp library
作者头像
  • it老记冀勇庆官方
  • 2020-06-12 20:18:37 5

nlp 和 tokenizers 简介

nlp 和 tokenizers 是 Huggingface 提供的两个非常实用的自然语言处理库。这两个库为用户提供了高效、便捷的工具来处理文本数据和模型。

起源与发展

Huggingface 抓住了 BERT 模型迅速崛起的机会。BERT 是一种基于 Transformer 架构的模型,由 Google 开发并在自然语言处理领域取得了巨大成功。由于 PyTorch 是 Facebook 推出的深度学习框架,Facebook 官方对 BERT 的支持可能相对滞后,因此 Huggingface 应运而生,率先完成了 BERT/Transformer 模型的 PyTorch 版本。此后,Huggingface 不断更新,推出了更多基于 BERT 的模型,涵盖了 NLP 领域的各种应用。

随着基于 Transformer 的模型不断涌现,Huggingface 对其封装库进行了重命名,将其称为 Transformers。这一库不仅涵盖了 100 多种模型,还打通了 TensorFlow 和 PyTorch 两大主流深度学习框架,实现了模型的相互转换和高效访问。如今,Transformers 已成为 NLP 领域不可或缺的工具。

nlp 库

Huggingface 的 nlp 库主要用于自然语言处理中的数据管理和评测。它提供了 160 多个经典的数据集,包括用于 T5 模型的 C4 数据集。这些数据集可以帮助研究人员更好地定义实际场景、衡量标准,并进行数据清洗和特征提取。

遗憾的是,目前媒体上关于 NLP 的报道大多集中在最新研究成果上,忽略了数据处理和评测的重要性。事实上,数据准备和清洗往往比模型设计更加耗时且重要。Huggingface 的 nlp 库正是为了满足这种需求而诞生的。

tokenizers 库

Huggingface 的 tokenizers 库是另一个强大的工具,专注于词汇表的构建和分词。在使用 NLP 模型时,首先要获取模型对应的词汇表,然后将需要处理的句子转化为 tokens。这一过程至关重要,尤其是在工业应用中,需要优化执行效率。tokenizers 库采用了 Rust 编程语言,保证了高性能和灵活性,同时也易于集成到其他系统中。

使用方法

安装 nlp 库时会自动安装 PyArrow,这是一个高效的内存计算框架。nlp 库内置了 116 个数据集和 11 种评测指标,方便用户快速获取所需数据集和评测标准。

例如,可以通过以下代码查看已有的数据集和评测指标: ```python import nlp

datasets = nlp.listdatasets() metrics = nlp.listmetrics()

print("当前可用的数据集数量:", len(datasets)) print("当前可用的评测指标数量:", len(metrics))

for index, dataset in enumerate(datasets): print(f"{index}: {dataset.id}")

for metric in metrics: print(metric.id) ```

此外,nlp 库还提供了丰富的功能,如数据集的下载和分割,以方便用户进行实验。对于较大的数据集,建议将实验环境设置在可以方便访问 AWS 或 GCP 服务的地方,以提高效率。

结论

nlp 和 tokenizers 库为自然语言处理提供了强大的工具和支持,帮助研究人员和开发者更高效地处理文本数据和构建模型。通过这两个库,用户可以轻松获取和处理大量数据集,从而加速研究进程。

    本文来源:图灵汇
责任编辑: : it老记冀勇庆官方
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
神兵言语library自然处理nlp
    下一篇