自从我在博客上发布 Backblaze 自 2015 年以来每季度发布一次的宝贵硬盘可靠性数据以来已经有很长时间了,所以我查看了他们的博客,发现了 ndy Klein 的《星球大战》主题Backblaze Drive Stats for Q1 2022以及他引人入胜的How磁盘驱动器寿命长吗? .在首屏下方,我对两者都发表了评论。
除了 Klein 用作章节标题的适当星球大战引述之外, 2022 年第一季度的统计数据中还有许多有趣的花絮。首先,向磁盘厂商的“ kaizen ”(持续改进)过程致敬:
上面列出的所有驱动器的生命周期年化故障率为 1.39%。这低于 2021 年底的 1.40%。一年前(2021 年 3 月 31 日),终生 AFR 为 1.49%。
听起来可能不多,但将已经非常可靠的产品的可靠性提高 0.1%/年是一项重大成就。
其次,当我说“非常可靠”时,我的意思是这样的:
6TB 希捷(型号:ST6000DX000)在 2022 年第一季度继续以零故障挑战时间,尽管平均使用时间近七年(83.7 个月)。 98% 的驱动器 (859) 是在 2015 年第一季度的同一两周内安装的。
近七年来,总共 886 个驱动器中只有 86 个发生故障。
三、克莱因对象限图的两种形式的创新:
资源 |
Drive Stats Failure Square 上的每个点都代表截至 2022 年 3 月 31 日在我们的环境中运行的硬盘模型,并且位于该模型的平均年龄和该模型的年故障率的交点。我们仅包括使用寿命总计为 100 万个驱动器日或所有驱动器模型的置信区间为 0.6 或更小的驱动器模型。
克莱因这样描述每个象限:
- 退休人员是不再可靠且应更换的驱动器。
- 优胜者是长期表现良好的驱动器。
- 挑战者是目前表现良好但还很年轻的驱动器。
- 混蛋是表现较差的年轻驱动器。
资源 |
更有趣的是克莱因的第二版象限图,只有“赢家”:
每个驱动模型都由一条类似蛇的线(飞机上的蛇!?)表示,它显示了驱动模型的 AFR,因为机队的平均年龄随着时间的推移而增加。
这张图表非常有用:
有趣的是,目前在象限 II 中的六个模型中的每一个都有不同的背景故事。例如,谁能预料到 6TB 希捷硬盘(型号:ST6000DX000)会在 2015 年开局不佳的情况下最终进入优胜者象限。而且该硬盘并不孤单。 8TB 希捷硬盘(型号:ST8000NM0055 和 ST8000DM002)也遇到了同样的情况。
该图表还可以为我们提供关于给定驱动器模型的年化故障率随时间变化方向的直观线索。例如,10TB 希捷硬盘似乎更有兴趣在下个季度左右进入退休象限,因此可以提高其更换优先级。
去年 12 月,Klein 发布了磁盘驱动器可以使用多长时间? ,更新 2013 年发布的版本:
最初的驱动器寿命研究是使用 25,000 个磁盘驱动器和大约四年的数据完成的。今天的研究包括来自超过 200,000 个磁盘驱动器的数据,其中许多磁盘驱动器已经存活了六年或更长时间。这给了我们更多的数据来审查,并让我们扩展我们的预测。例如,在我们最初的报告中,我们报告说我们购买的驱动器中有 78% 的使用寿命超过了四年。今天,我们拥有的大约 90% 的驱动器已经使用了四年,而 65% 的驱动器的使用寿命超过了六年。那么驱动器能持续多久呢?继续阅读。
克莱恩想弄清楚的是驱动器的半衰期:
应该能够计算的数字是新驱动器的中位寿命。那是一半驱动器发生故障的年龄。让我们看看考虑到我们多年来收集的所有数据,我们可以多接近预测新驱动器的平均寿命。
资源 |
克莱因绘制了存活率,即仍然存在的驱动器的比例,与驱动器的年龄。他指出:
预期寿命在前四年以每年 2% 到 2.5% 的相当稳定的速度下降,然后下降开始加速。回顾上面的季度图表 AFR,这是有道理的,因为失败率从第四年开始增加。六年后,我们的预期寿命达到 65%。换句话说,如果我们在六年前买了一块硬盘,那么它今天仍有 65% 的可能性。
资源 |
Klein 然后使用这些数据进行了六年的预测,这是他们拥有的具有统计意义的数据的极限:
当他们超过六岁时会发生什么?我们确实有超过六年的驱动器,那么我们为什么要停在那里呢?我们没有足够的数据来确定超过六年的时间,因为那时驱动器的数量下降并且几乎完全由一两个驱动器型号组成,而不是多样化的选择。相反,我们使用六年来的数据并从预期寿命线推断出一半驱动器将死亡的点。
驱动器可以使用多长时间?似乎对预期寿命中位数的合理估计是六年零九个月。
这实际上是对工程师的又一致敬。故障率(图表的斜率)在驱动器保修期满之前很低,然后会增加。这 (a) 降低了供应商的保修成本,并且 (b) 实施了计划报废,激励了驱动器的更换并为供应商创造了收入。因此,经济学意味着驱动器的使用寿命在未来可能会保持稳定,尽管前 4-5 年的 AFR 可能会继续缓慢下降,从而使图表斜率的突破更加尖锐。
原文: https://blog.dshr.org/2022/06/backblaze-on-hard-disk-reliability.html