哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

隽蔚展览
2025-06-16 22:27:21 131

图灵汇报道，近日哈佛大学法学院图书馆在微软和OpenAI的支持下，发布了首个由其馆藏衍生的AI训练数据集“Institutional Books 1.0”。这一数据集包含约98.3万册图书，涉及245种语言，总计超过2420亿个Token。感兴趣的用户可通过访问链接（https://huggingface.co/datasets/institutional/institutional-books-1.0）了解更多详情。

这组数据集中的书籍有四成是英文的，出版时间大多集中在19到20世纪。书籍内容被归类为20个主题，此外每个条目都附带详细的元数据，包括作者、出版年份、语言以及来源等信息。

哈佛大学方面提到，未来他们将继续丰富数据集的内容。目前，团队正在与波士顿公共图书馆合作，计划将大量历史报纸以数字化形式加入其中。

接下来，哈佛大学法学院图书馆打算研发一些AI工具，旨在优化馆藏资源的管理与共享，并倡导符合道德的数据应用标准。

图灵汇

责任编辑：：隽蔚展览

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。