Keepers Registry跟踪各种“保管人”(保存机构)对学术期刊的保存情况,目前说:
20,127 个头衔被 3 名或更多 Keepers “保护”
注册表通过此页面支持这一点,显示 N 管理员保存的期刊数量。
资源 |
NDSA 数字保存级别:2013 年的解释和使用仍然被广泛用作保存数字内容的指南。它使用将独立副本的数量指定为“Level 1”为 2,“Levels 2-4”为 3。
CLOCKSS的 Alicia Wise 问道:“数字 3 是从哪里来的?”下面我讨论背景故事。
早在 2011 年,我在 Hilversum 的荷兰 Beeld en Geluid 发表了题为How Few Copies? . Beeld en Geluid (B&G) 是荷兰的视听档案馆。它们保留的大部分字节都是视频,因此它们的平均内容单元很大。保留字节的成本不仅仅是字节数的线性关系,因此“我们需要多少份副本才能安全?”这个问题的答案是什么?是他们预算的重要投入。许多其他数字保存服务也是如此。
在现实世界中,完美的数字保存需要无限的预算。预算有限,有些东西会丢失。我解释了理论理想:
我们可以花更多的钱来保留更多的副本,或者对每个副本更加小心,希望丢失更少的东西。它是一种权衡。理论上,对于每一种技术,都有一条这样的曲线,将拷贝数与丢失概率联系起来。根据收益递减规律,每增加一份副本都会提高可靠性。
理论上,对于每个副本数量,都有一条这样的曲线,将每个副本的成本与丢失的概率联系起来。根据收益递减规律,每增加一美元就会提高可靠性。
我们想做的是把这两组图表放在一起,像这样:
然后,给定目标丢失概率,我们可以计算出最具成本效益的技术和复制因子。或者,给定预算,我们可以计算出可实现的最佳损失概率。
我的演讲提出了两个要点。首先:
为什么我们没有这样的图表?有两个主要原因。首先是,虽然它们不够可靠,但存储系统非常非常可靠。衡量一个系统的丢失率需要长时间查看大量数据,因此为这样的图表收集数据成本太高,不可行。第二个是损失率主要取决于每个系统的每个组件的内部设计和实现的细节。我们必须为每一个系统做这个不可行的昂贵实验,我们不能做一次就一概而论。
我们甚至没有数据可以作为真实系统中数据丢失的真实模拟的基础,因为我们无法对相关性进行建模:
为什么数据丢失原因之间的相关性很重要?假设我们有两个副本,并且在某个时候一个副本失败了。此后一段时间,检测到故障并启动修复过程,从另一个副本复制。如果第二个副本在初始失败之后且在复制完成之前失败,则数据将丢失。因此,关键数字不是副本失败的概率,而是在第一次失败后的检测和修复间隔期间第二个副本失败的概率。
因此,第二个:
我们只需要在没有图表的情况下做出最好的决定。即使我们不能画出精确的图形,但我们知道它的形状,因此我们可以制定一些经验法则,所有这些都受到收益递减的影响:
- 副本越多越安全。
- 副本的相关性越低越安全。
- 每个副本越可靠越安全。
- 故障检测越快,修复越安全。
在正常情况下,这些规则按重要性降序排列;额外的副本比更少的相关性更重要,比增加的副本可靠性更重要,比更快的检测和修复更重要。
我希望我的演讲没有他们希望的那么有用。
所有这一切都是说,安全标准是三或任何其他数字都没有强有力的理论依据。在理论计算机科学中有一个非常强大的理论结果可以追溯到 1982 年,称为拜占庭容错(BFT)。这证明了3f+1 个副本在最坏的情况下可以在f个同时发生的故障中存活下来。这将导致这样一种想法,即为了避免一次故障,需要四个副本。或者为了避免两次故障,需要七个副本。
那么为什么 Keepers Registry 和 NDSA 使用三个而不是至少七个呢?有两个原因:
- BFT 是可靠的计算机科学,表明系统在遇到不超过f个同时故障的情况下表现完美。但从工程的角度来看,问题在于,如果它确实遇到超过f个同时发生的故障,它就会完全失败。所以工程问题是“在系统的设计寿命期间, f+1同时发生故障的概率是多少?”。
- 7 意味着系统成本高出 233%。在实践中,通常没有足够的钱购买三个高质量的副本,因此选择七个意味着在每个副本上的花费减少 58%。结果将是由于收益递减规律,它们会更频繁地失败。这将大大增加两个同时发生故障的概率。
理论提供了明确的答案,工程学提供了一个关于概率的问题。
Keepers Registry 关注保存一个内容单元的不同服务的数量是正确的。让我们看看给定三个目标的经验法则:
- 副本越多越安全。据推测,这三个服务中的每一个都维护一个以上的副本,因此副本的数量很可能是三的几倍。
- 副本的相关性越低越安全。据推测,这三个服务中的每一个都运行不同的软件,处于不同的管理之下,并且在地理上与其他服务相距甚远。 *因此,虽然每个服务的副本之间的相关性会很高,但不同服务之间的相关性会很低。
- 每个副本越可靠越安全。三个服务都力求可靠,所以每个服务的可靠性水平都会比较高。
- 故障检测越快,修复越安全。据推测,这三个服务中的每一个都在不同的、不相关的时间表上运行固定性检查。
总体而言,评估是,尽管有一个数字似乎没有理论依据,但在现实世界中,保存在三个独立服务中的内容可能不会受到经济崩溃或重大日冕物质抛射的影响。虽然这两种威胁都是合理的,正如我在种子或代码中所讨论的那样? ,如果发生这种情况,社会可能会遇到比重新阅读旧学术论文更大的问题。
*) 请注意,服务使用Cloud For Preservation的可能性越来越大,而且很可能它们都使用同一个云提供商。 Keepers Registry 应该记录云提供商是否以及如果是的话,是他们跟踪的每项服务的基础。
原文: https://blog.dshr.org/2022/06/where-did-number-3-come-from.html