11月 08
  1. 今天
  2. 星期五
33:15
grade

概览

近期,AI初创企业Nomic AI推出了Nomic Embed,这是一款开源的文本嵌入模型。这款模型在短上下文和长上下文基准测试中超越了OpenAI的text-embedding-3-small和text-embedding-ada-002,具备全开放属性,包括权重、数据和训练代码均可获取。

价值亮点

  • 免费使用:相较于OpenAI的嵌入模型,Nomic Embed提供免费服务。
  • 高效易部署:Nomic Embed的参数量仅为137M,易于部署且能在短短5天内完成训练。
  • 全面开源:该模型不仅代码开源,训练数据也公开,允许用户进行复现和审核。

技术革新

  • 解决序列长度限制:Nomic AI通过调整BERT模型,实现了上下文长度从512token增加至8192token的突破。
  • 优化训练流程:采用多阶段对比学习管道,包括旋转位置嵌入、SwiGLU激活函数和无dropout策略,以及使用Deepspeed和FlashAttention加速训练。
  • 精准训练优化:训练精度提升策略包括BF16精度、扩大词汇表、增大批大小、调整掩码率及去除下一句预测目标。

实验结果

  • 基准测试表现:在GLUE基准测试中,Nomic Embed与BERT模型性能相当,但在处理长上下文方面显示出优势。
  • 对比训练:Nomic Embed在MTEB基准上优于OpenAI的text-embedding-ada-002和jina-embeddings-v2-base-en。
  • 长上下文任务评估:Nomic Embed在LoCo和Jina长上下文基准测试中,与更大规模的模型相比表现出色。

用户接入

  • API获取:用户可通过Nomic Embed API访问该模型,具体获取路径见官方文档。
  • 数据访问:用户需创建Nomic Atlas账户并遵循指定指南,以获取Cloudflare R2访问密钥,从而访问完整数据集。

总结

Nomic Embed作为一款开源的文本嵌入模型,以其高效的训练速度、免费使用、全面的开放属性和卓越的基准测试表现,为NLP领域带来了创新。对于开发者和研究人员来说,这是一个值得探索的工具,尤其在寻求高性能文本嵌入解决方案时。