一位匿名读者援引404 Media的报道:根据该网站自身的信息,美国政府在互联网上最大的公开数据存储库data.gov上聚合的数据集正在被删除。自唐纳德·特朗普就任总统以来,超过 2000 个数据集已从数据库中消失。正如数据囤积和归档社区的人们指出的那样,1 月 21 日,data.gov 上有 307,854 个数据集。截至周四,共有 305,564 个数据集。根据互联网档案馆 Wayback Machine 上保存的网站快照,许多删除是在特朗普就职后立即发生的。哈佛大学研究员 Jack Cushman 一直在就职典礼前后拍摄 Data.gov 数据集的快照,并致力于创建完整的数据档案。 “一些[条目链接到]实际数据,”库什曼告诉 404 Media。 “其中一些链接到一个登陆页面(数据托管的地方)。问题是——当东西消失时,它指向的数据是否消失了?或者只是它的索引消失了?”例如,NOAA 数据集“国家珊瑚礁监测计划:2005 年至 2019 年部署在夏威夷群岛珊瑚礁地点的地下温度记录仪 (STR) 的水温数据”已无法再在 data.gov 上找到,但可以在 data.gov 上找到。通过谷歌搜索标题可以在 NOAA 的网站之一上找到。 NOAA 的另一个数据集“Stetson Flower Garden Banks Benthic_Covage Monitoring 1993-2018 — OBIS Event”在 data.gov 上无法再找到,并且似乎也已从互联网上删除。能源部资源“俄勒冈州纽伯里火山的三维热模型”不再通过能源部提供,但可以在第三方网站上找到备份。 […] Data.gov 是整个政府的数据集和研究的聚合器,这意味着它不是一个单一的数据库。北德克萨斯大学研究人员马克·菲利普斯 (Mark Phillips) 表示,这使得归档比任何单个数据库都稍微困难一些,该项目致力于在新政府接管之前从政府网站归档尽可能多的内容。 。 “其中一些属于‘我们不知道我们不知道的事情’,”菲利普斯告诉 404 Media。 “准确了解变化的内容、地点、频率以及新增的内容、消失的内容或将要移动的内容非常具有挑战性。从 data.gov 等聚合器保存内容对于期末工作来说更具挑战性,因为通常,数据仅被识别并注册为 data.gov 的元数据记录,但实际数据可能存在于另一个网站、州 .gov、大学网站、亚马逊或微软等云提供商或任何其他位置。甚至更加困难。”菲利普斯表示,对于这一轮归档(该团队在每次政府变更时都会进行归档),该项目自 2024 年 1 月以来一直在爬行政府网站,并且他们一直在“在互联网档案馆合作伙伴的帮助下进行大规模爬行” 、Common Crawl 和北德克萨斯大学收集了数百 TB 的网络内容,其中包括来自 data.gov 等域的数据集。” […] 特朗普政府正在删除政府数据和研究,并使其更难访问,这是绝对正确的。但确定什么消失了、去了哪里、是否被保存在某个地方以及为什么被删除是一个耗时且需要一段时间的过程。 “关于来自 data.gov 的数据集,我清楚的一件事是,当我们依靠一个地方来收集、托管和提供这些数据集时,我们总会遇到数据消失的问题,”菲利普斯说。 “从历史上看,联邦政府会将信息分发给全国各地的图书馆,以提供更多访问权限并防止丢失。政府数据的做法与此不同。”
在 Slashdot 上阅读这个故事的更多内容。