哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
作者头像
  • 隽蔚展览
  • 2025-06-16 22:27:21 131

图灵汇报道,近日哈佛大学法学院图书馆在微软和OpenAI的支持下,发布了首个由其馆藏衍生的AI训练数据集“Institutional Books 1.0”。这一数据集包含约98.3万册图书,涉及245种语言,总计超过2420亿个Token。感兴趣的用户可通过访问链接(https://huggingface.co/datasets/institutional/institutional-books-1.0)了解更多详情。

这组数据集中的书籍有四成是英文的,出版时间大多集中在19到20世纪。书籍内容被归类为20个主题,此外每个条目都附带详细的元数据,包括作者、出版年份、语言以及来源等信息。

哈佛大学方面提到,未来他们将继续丰富数据集的内容。目前,团队正在与波士顿公共图书馆合作,计划将大量历史报纸以数字化形式加入其中。

接下来,哈佛大学法学院图书馆打算研发一些AI工具,旨在优化馆藏资源的管理与共享,并倡导符合道德的数据应用标准。

    本文来源:图灵汇
责任编辑: : 隽蔚展览
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
哈佛大学馆藏Institutional开源涵盖训练数据图书Books98.3
    下一篇