图灵汇报道,近日哈佛大学法学院图书馆在微软和OpenAI的支持下,发布了首个由其馆藏衍生的AI训练数据集“Institutional Books 1.0”。这一数据集包含约98.3万册图书,涉及245种语言,总计超过2420亿个Token。感兴趣的用户可通过访问链接(https://huggingface.co/datasets/institutional/institutional-books-1.0)了解更多详情。
这组数据集中的书籍有四成是英文的,出版时间大多集中在19到20世纪。书籍内容被归类为20个主题,此外每个条目都附带详细的元数据,包括作者、出版年份、语言以及来源等信息。
哈佛大学方面提到,未来他们将继续丰富数据集的内容。目前,团队正在与波士顿公共图书馆合作,计划将大量历史报纸以数字化形式加入其中。
接下来,哈佛大学法学院图书馆打算研发一些AI工具,旨在优化馆藏资源的管理与共享,并倡导符合道德的数据应用标准。