《纽约时报》使用程序化方法来估计自周五以来迄今为止删除的页面数量。伊森·辛格报道:
周五,《泰晤士报》下载了美国访问量最大的政府域名列表,并开始使用每个网站的站点地图(一个概述网站结构的文件,通常由搜索引擎使用)来编制每个可用页面的完整列表。跟踪互联网上的内容。 (一些网站,包括 state.gov 和 Weather.gov,没有包含在我们的分析中,因为我们无法识别其网站上的完整网页列表,或出于其他技术原因。)总而言之,我们能够识别超过 150 个网站的超过 700 万个页面。
然后,我们在周五晚上和周六重复了几次这个过程,并将我们的新网站列表与我们最初找到的网站进行了比较。
删除的内容主要包括来自疾病控制与预防中心的约 3,000 页、人口普查局的 3,000 页以及司法项目办公室的 1,000 页。
原文: https://flowingdata.com/2025/02/02/about-8000-u-s-government-pages-taken-down/