9月 28
  1. 今天
  2. 星期六
25:00
grade

自从ChatGPT问世以来,对话模型的热度持续攀升。我们惊叹于这些模型的出色表现时,也意识到背后庞大计算资源和海量数据的支撑。数据的质量至关重要,OpenAI为此投入了大量的精力进行数据采集与标注工作。研究显示,ChatGPT甚至在可靠性上超越了人类,若能获取像ChatGPT这样强大的语言模型的对话数据,开源社区便能培养出性能更卓越的对话模型。这一理念在羊驼系列模型——Alpaca、Vicuna、Koala——的成功案例中得到了验证。例如,Vicuna利用来自ShareGPT的用户共享数据对LLaMA模型进行微调,复刻了ChatGPT约90%的能力。越来越多的证据表明,数据是塑造强大语言模型的关键要素

ShareGPT是一个允许用户上传认为有趣的ChatGPT回复的共享平台。尽管其数据开放且丰富,但较为零散,需要研究人员自行整理。为了推动对话模型的研发,一个高质量、覆盖面广的数据集将极大助力研究进展。基于此,UltraChat项目应运而生,旨在构建一个开源、大规模、基于Turbo API的多轮对话数据集,以便利研究者开发具备通用对话能力的强大语言模型。该项目特别注重隐私保护,不直接采用互联网数据作为输入。

UltraChat的构建方法包括:

  1. 项目地址:访问GitHub获取详细信息。
  2. 数据集地址:通过访问指定链接下载数据集。
  3. 数据集交互地址:探索交互界面以直观体验数据集。

UltraChat项目致力于构建三大类对话数据集:

  • 世界知识问答:围绕科技、艺术、金融等领域的广泛问题。
  • 写作与创作:指示AI从头创作完整文本,并在此基础上提出后续问题或指导,内容形式多样,包括文章、博客、诗歌、故事、戏剧等。
  • 现有资料的辅助改写:基于现有资料生成改写、续写、翻译、归纳、推理等内容。

每类数据都面临特定挑战,项目团队采取针对性构造策略。例如,世界知识问答数据侧重于在大量对话中广泛涵盖常见知识,通过自动生成主题和从Wikidata收集实体实现筛选。写作与创作数据则聚焦于模拟用户指令,确保生成内容既多样化又不偏离目标。数据后处理阶段旨在减少幻觉问题。

当前,UltraChat已发布两大类数据集,共计124万条对话,成为开源社区内规模最大的相关数据集。数据集涵盖了丰富多样的对话场景,最后一部分数据预计未来公布。

在UltraChat平台上,通过输入“音乐”、“数学”等关键词,系统能自动检索出上千组与之相关的对话数据,每组均为多轮对话。例如,输入“音乐”,系统会返回1000组与音乐相关的对话数据;输入“数学”,则提供3346组多轮对话数据。UltraChat覆盖的信息领域广泛,包括医疗、教育、体育、环保等多个话题。此外,通过使用开源的LLaMa-7B模型在UltraChat上进行监督微调,即使经过10000步训练,模型也能展现出令人瞩目的性能提升。

综上所述,UltraChat是一个高质量、覆盖面广的对话数据集,不仅丰富了开源社区的研究资源,而且有望显著提升对话模型的性能。随着项目的持续发展,UltraChat将逐步推出中文版数据,欢迎感兴趣的研究人员进行探索。