2018 年,我帮助 Internet 档案馆获得了一项为期两年的梅隆基金会资助,旨在保护小型出版商的学术文献“长尾”,这些出版商通常面临很大的损失风险。 2020 年,我写了The Scholarly Record At The Internet Archive ,解释了基本思想:
该项目采用两种相反但协同的方法:
- 自上而下:使用来自 CrossRef 等来源的书目元数据来询问该文章是否在 Wayback Machine 中,以及是否不尝试从实时 Web 获取。然后,如果存在副本,则将元数据添加到索引中。
- 自下而上:询问 Wayback Machine 中的每个 PDF 是否是学术文章,如果是,则提取书目元数据并将其添加到索引中。
下面我报告了这个项目的后续发展。
自上而下部分的结果包括基于收集的元数据的fatcat wiki搜索引擎的 beta 版本,以及自下而上部分的 alpha 版本,该版本是一个相当快速和准确的机器学习分类器,可以识别学术文章。
这是足够的进展,梅隆基金会授予了第二个两年期的资助,该资助现已结束。一个主要结果是IA Scholar的推出:
该服务提供对 Internet Archive 的各种收藏中存档的研究出版物的全文搜索。它包括来自自然科学、人文科学、生物医学、艺术、历史、工业研究、政府报告等的内容。
尽可能提供对内容的读者访问权限。有时这种访问是对“预印本”或其他版本的作品,这会在搜索结果中显示出来。在其他情况下,根据搜索过滤器,包含只有书目目录条目的结果。仍然可以通过公共图书馆或直接从出版商处获得访问权。
这与简单的全文搜索的区别来自于第一次授权的元数据索引技术。因此,例如,您可以:
- 将引文复制并粘贴到搜索框中,系统将对其进行解析。
- 使用搜索过滤器,例如year:<2000或type:paper-conference
另一个是Internet Archive Releases Refcat,超过 13 亿次学术引用的 IA 学者索引:
作为我们不断努力归档和提供对有风险的开放获取奖学金的永久访问的一部分,我们发布了 Refcat(“参考”+“目录”),这是从支持我们IA Scholar服务的目录中挑选出来的引文索引发现互联网档案馆中的学术文献和研究成果。 Refcat 数据集的第一个版本包含从超过 6000 万条元数据记录和超过 1.2 亿条学术工件(文章、书籍、数据集、会议记录、代码等)中提取的超过 13 亿次引用,IA Scholar 通过网络采集、数字化、集成归档与其他开放知识服务,并通过伙伴关系和联合倡议。
我试过 IA Scholar。首先,使用 Chromium,我将此引文粘贴到搜索框中:
大卫 SH 罗森塔尔和丹尼尔巴尔加斯。 “云中的分布式数字保存”,国际数字策展会议,荷兰阿姆斯特丹,2013 年 1 月
系统在 0.17 秒内返回了一个正确的命中,其中摘要的开头和中心列中的 DOI 和右列中的正确信息的聚宝盆,两者都有些受损,因为它们包含大量原始 HTML。
作者:“大卫 sh 罗森塔尔”作者:“Vicky Reich”
系统在 0.59 秒内返回了 6 次点击,这一次格式正确。屏幕截图显示了前三个结果。唉,第二个被两篇同名的论文弄糊涂了:
- Vicky Reich和大卫 SH 罗森塔尔。 “LOCKSS(大量副本确保物品安全)”,发表于 Preservation 2000:数字材料的保存和长期可访问性国际会议,2000 年 12 月 7 日至 8 日,英格兰约克。还发表在《学术图书馆学新评论》,卷。 6,没有。 1,2000 年,第 155-161 页。 doi:10.1080/13614530009516806
- 大卫 SH 罗森塔尔。 “LOCKSS:大量副本确保物品安全”,在 NIST 数字保存互操作性框架研讨会上发表,2010 年 3 月 29 日至 31 日,马里兰州盖瑟斯堡。
系统正确找到了与 DOI 合作的The New Review of Academic Librarianship中的论文 #1 。但它还在Wayback Machine中找到了论文 #2,该论文是从 LOCKSS Program 的 wiki 收集的。标题和其中一位作者匹配,但日期相隔十年,并且论文 #2 中缺少论文 #1 的主要作者,因此匹配需要一些工作。也许应该对版权日期给予更大的重视。但值得称赞的是,它发现了一份有点晦涩的正式论文,以及一份简单地发布到项目 wiki 上的非常晦涩的会议论文。而且它没有任何误报。
原文: https://blog.dshr.org/2022/07/the-internet-archives-long-tail-program.html