存储评论网

Backblaze 2025 年第三季度驱动器统计数据:故障率攀升,异常值涌现,AI 工作负载重塑基础设施

企业版  ◇  硬盘

Backblaze 发布了 2025 年第三季度硬盘统计和网络统计报告,再次以丰富的数据展现了其庞大云存储基础设施的健康状况和性能。截至 3 月 30 日,Backblaze 管理着 332,915 个硬盘(其中 328,348 个为活跃数据硬盘)。本季度的分析重点关注了关键的可靠性趋势、整体故障率的上升以及一些高容量型号的突出表现。

与此同时,该公司还发布了最新的网络统计报告,该报告反映了由人工智能工作负载的增加所推动的流量模式的日益转变。

一堆硬盘

2025年第三季度硬盘故障率

本季度,公司观察到整体年度故障率(AFR)出现明显上升,达到1.55%。 高于第二季度的1.36%。该数字与2024年的年均增长率(1.57%)接近。不过,这标志着连续第二个季度呈上升趋势。

Backblaze 硬盘驱动器报告 2025 年第三季度快照

以下数据集包括所有在报告期(2025 年 7 月 1 日至 9 月 30 日)内部署超过 100 台且行驶天数至少达到 10,000 天的驱动模型。

Backblaze 2025年第三季度硬盘故障率
报告期: 2025年7月1日至9月30日(含当日)
截至 3 月 1 日,行驶次数超过 100 次且到 2025 年第三季度行驶天数超过 10,000 天的驾驶车型。

股份有限公司 型号 大小(TB) 驱动计数 平均年龄(月) 驾车日 故障 AFR
HGST HMS5C4040BLE640 4 187 100.24 17,194 0 0%
HGST HUH728080ALE600 8 1,079 87.41 98,985 6 2.21%
HGST HUH721212ALE600 12 2,615 69.57 239,677 9 1.37%
HGST HUH721212ALE604 12 13,417 58.60 1,227,806 65 1.93%
HGST HUH721212ALN604 12 9,985 74.97 912,361 109 4.36%
希捷 ST8000DM002 8 8,987 186.89 824,787 27 1.19%
希捷 ST8000NM000A 8 247 32.45 22,724 0 0%
希捷 ST8000NM0055 8 13,351 95.55 1,224,440 53 1.58%
希捷 ST10000NM0086 10 1,018 92.35 91,658 20 7.97%
希捷 ST12000NM0007 12 1,085 69.87 91,835 13 5.17%
希捷 ST12000NM0008 12 18,982 64.73 1,728,786 132 2.79%
希捷 ST12000NM000J 12 1,019 14.12 91,723 2 0.80%
希捷 ST12000NM001G 12 13,277 54.78 1,219,882 31 0.93%
希捷 ST14000NM000J 14 392 11.85 31,852 4 4.58%
希捷 ST14000NM001G 14 10,596 54.28 972,882 38 1.43%
希捷 ST14000NM0138 14 1,286 56.57 117,131 22 6.86%
希捷 ST16000NM001G 16 34,128 35.98 3,125,133 57 0.67%
希捷 ST16000NM002J 16 463 33.66 42,581 0 0%
希捷 ST24000NM002H 24 7,245 5.81 661,539 46 2.79%
Toshiba MG07ACA14TA 14 37,463 58.22 3,440,051 116 1.23%
Toshiba MG07ACA14TEY 14 970 35.12 85,530 8 3.41%
Toshiba MG08ACA16TA 16 40,184 24.83 3,686,376 85 0.84%
Toshiba MG08ACA16TE 16 6,177 43.84 553,332 16 1.06%
Toshiba MG08ACA16TEY 16 5,145 44.61 462,943 215 16.95%
Toshiba MG09ACA16TE 16 244 4.86 17,852 0 0%
Toshiba MG10ACA20TE 20 18,023 7.08 1,416,127 21 0.54%
Toshiba MG11ACA24TE 24 2,400 0.33 24,148 0 0%
WDC WUH721414ALE6L4 14 8,663 55.33 794,781 20 0.92%
WDC WUH721816ALE6L0 16 3,088 44.46 274,775 20 2.66%
WDC WUH721816ALE6L4 16 26,681 29.05 2,439,069 65 0.97%
WDC WUH722222ALE6L4 22 40,271 11.84 3,555,491 50 0.51%
总计 29,431,783 1,250 1.55%

观察

故障率增加

在连续两个季度保持在 1.3% 左右之后,上升至 1.55% 标志着该股在 2025 年首次出现显著增长。该数字仍在正常波动范围内,但 Backblaze 指出,一些特定型号的异常情况(包括与维护相关的事件)导致了更高的比率。

新进入者

东芝MG11ACA24TE(24TB)硬盘本季度首次亮相,累计销量达2,400台,累计运行天数达24,148天。虽然目前尚未达到终身跟踪标准,但其在首个完整季度的服务表现完美无瑕。

零失败俱乐部

本季度有四款机型实现了零故障:

  • 希捷 HMS5C4040BLE640 (4 TB)
  • 希捷 ST8000NM000A (8 TB)
  • 东芝 MG09ACA16TE (16 TB)
  • 东芝 MG11ACA24TE (24 TB)

值得注意的是,希捷 ST8000NM000A (8 TB) 继续保持其卓越的性能,其最后一次记录的故障发生在 2024 年第三季度。

高端异常值

另一方面,有三款车型的空燃比(AFR)非常高,促使 Backblaze 使用 Tukey 四分位法进行异常值分析。空燃比超过 5.88% 的驾驶记录被视为异常值:

  • 希捷 ST10000NM0086 (10 TB): 7.97%
  • 希捷 ST14000NM0138 (14 TB): 6.86%
  • 东芝 MG08ACA16TEY (16 TB):16.95%

这些数值代表了机队中的统计极端值,Backblaze 计划在接下来的几个季度中结合机队寿命性能趋势对这些数值进行进一步分析。

硬盘终身故障率

除了季度统计数据外,Backblaze 还发布硬盘生命周期故障指标,以跟踪其存储基础设施的长期性能趋势。这些数据基于多年累积数据,提供了更全面的视角。

要符合本次分析的条件,硬盘驱动器必须在2025年第二季度末至少部署500台,且累计运行天数超过10万天。截至2025年第三季度末,共有27款硬盘驱动器型号符合条件,总计部署402,675台,累计运行天数超过527亿天。

结果:年化故障率(AFR)为1.31%,与第一季度的AFR完全一致,仅比第二季度的1.30%略高。这种规模下的稳定性实属罕见,表明车队管理良好,即便驱动系统正向高容量型号转变。

Backblaze 终身驱动器统计数据(截至 2025 年第三季度)
报告期:截至2025年9月30日
行驶里程超过 500 次且累计行驶天数超过 100,000 天的车​​型。

股份有限公司 型号 大小(TB) 驱动计数 平均年龄(月) 驾车日 故障 AFR
HGST HMS5C4040ALE640 4 8,723 63.3 16,789,193 260 0.57%
HGST HMS5C4040BLE640 4 16,349 82.8 41,156,102 448 0.40%
HGST HUH728080ALE600 8 1,218 82.8 3,069,331 98 1.17%
HGST HUH721212ALE600 12 2,696 68.8 5,641,318 92 0.60%
HGST HUH721212ALE604 12 14,331 49.6 21,613,689 943 1.59%
HGST HUH721212ALN604 12 11,438 72.3 25,143,580 1,507 2.19%
希捷 ST8000DM002 8 10,320 100.9 31,658,329 1,317 1.52%
希捷 ST8000NM0055 8 15,680 89.6 42,736,967 2,309 1.97%
希捷 ST10000NM0086 10 1,304 85.5 3,389,398 282 3.04%
希捷 ST12000NM0007 12 38,843 31.4 37,147,796 2,277 2.24%
希捷 ST12000NM0008 12 21,037 61.9 39,632,553 2,225 2.05%
希捷 ST12000NM000J 12 1,043 13.9 439,834 20 1.66%
希捷 ST12000NM001G 12 13,875 53.8 22,706,260 615 0.99%
希捷 ST14000NM001G 14 11,268 52.8 18,113,014 701 1.41%
希捷 ST14000NM0138 14 1,690 49.4 2,540,557 413 5.93%
希捷 ST16000NM001G 16 34,936 35.6 37,817,926 741 0.72%
希捷 ST24000NM002H 24 7,281 5.8 1,282,596 81 2.31%
Toshiba MG07ACA14TA 14 39,387 57 68,245,826 1,944 1.04%
Toshiba MG07ACA14TEY 14 1,015 34.2 1,057,345 47 1.62%
Toshiba MG08ACA16TA 16 41,044 24.6 30,687,263 943 1.12%
Toshiba MG08ACA16TE 16 6,459 42.9 8,422,214 295 1.28%
Toshiba MG08ACA16TEY 16 5,349 44 7,151,157 442 2.26%
Toshiba MG10ACA20TE 20 18,069 7.1 3,885,513 67 0.63%
WDC WUH721414ALE6L4 14 8,859 54.8 14,772,985 210 0.52%
WDC WUH721816ALE6L0 16 3,070 44.2 4,123,025 98 0.87%
WDC WUH721816ALE6L4 16 26,870 28.9 23,614,641 285 0.44%
WDC WUH722222ALE6L4 22 40,521 11.8 14,533,863 293 0.74%
总计 527,372,275 18,953 1.31%

观察

终身AFR保持稳定

Backblaze的长期全机队平均故障率(AFR)保持异常稳定,维持在1.31%,与第一季度持平,仅略高于第二季度。这表明季度间的波动大多是孤立的,并不反映更深层次的系统性可靠性变化。

4TB硬盘老化淘汰

虽然老款 4TB 硬盘(HGST HMS5C4040 系列)正逐步退役,但它们庞大的部署量和较长的使用寿命仍然对数据集产生影响。目前剩余的硬盘数量极少(一种型号仅剩 11 块,另一种型号仅剩 187 块),但由于累计运行时间已达数千万个硬盘日,它们的平均使用年限保持不变。

高产能增长

容量为 20TB 及以上的硬盘市场持续增长。本季度新增 7,936 块 20TB 及以上容量的硬盘加入终身保修计划,使总数达到 67,939 块,约占总容量的 21%。随着东芝 MG11ACA24TE (24TB) 等新型号硬盘的成熟,符合终身保修标准,这一数字还将继续攀升。

随着这些大容量硬盘的普及,它们将在塑造 Backblaze 的长期可靠性概况方面发挥越来越重要的作用,无论是在平均故障率 (AFR) 方面,还是在了解高密度平台上的故障模式方面。

Backblaze 将什么情况视为硬盘故障?

虽然 Backblaze 的季度和生命周期年故障率 (AFR) 显示硬盘可靠性总体稳定,但解读这些数据的关键在于一个问题:究竟什么才算故障?并非所有移除或离线的硬盘都代表物理故障,有些故障只是表面现象;也就是说,可能是日常维护、固件更新甚至线缆松动造成的。

为了揭开这个谜团,Backblaze 解释了其硬盘监控流程背后的各个层面。从使用开源工具进行 SMART 属性跟踪,到定制的日志记录工具,再到将硬盘日志与服务工单关联的后端查询系统,识别实际故障是一个技术规则和操作细节复杂交织的过程。

为了更好地了解本季度报告的部分异常高故障率,Backblaze 使用 Tukey 方法进行了异常值分析。这是一种标准的统计方法,用于识别显著偏离正常值的数值。本季度,任何年故障率 (AFR) 高于 5.88% 的硬盘型号都被标记为异常值。

本次分析的目的是探究硬盘使用年限与故障频率之间的关系。虽然人们通常认为老旧硬盘更容易发生故障,但数据表明情况更为复杂。大多数硬盘型号,无论使用年限长短,其平均故障率 (AFR) 都远低于异常值阈值。这一趋势反映了成熟的基础设施,其中硬件健康状况和操作规范共同促成了硬盘群体的整体稳定运行。

不过,也有一些模型不符合这种模式,成为统计上的异常值(以及操作上的问题),需要进一步调查。

这些模型是:

  • 希捷 ST10000NM0086 (10TB)
  • 希捷 ST14000NM0138 (14TB)
  • 东芝 MG08ACA16TEY (16TB)

希捷 ST10000NM0086 (10TB) – 7.97% AFR

这款10TB型号的硬盘平均服役时间超过7.5年。由于机队中仅有1,018台,样本量较小,因此特别容易受到故障率剧烈波动的影响。即使只有少数几台硬盘发生故障,也会显著影响其平均故障率(AFR),使其与部署更广泛的硬盘型号相比出现明显偏差。历史数据显示,该型号硬盘的AFR在过去一年中一直处于波动状态。虽然第三季度的AFR值偏高,但这只是持续波动的一部分,而非系统性故障的征兆。

希捷 ST14000NM0138 (14TB) – 6.86% AFR

这款机型硬盘数量相对较低,仅为 1,286 个,且在前几个季度的年故障率 (AFR) 一直高于平均水平。如今已接近五年使用年限,其故障率依然较高,但与以往相比并未显著上升。鉴于该机型的成熟度以及 Backblaze 在该机型上的历史经验,它仍然值得关注。

东芝 MG08ACA16TEY (16TB) – 16.95% AFR

本季度最令人惊讶的结果来自一款通常表现良好的东芝16TB硬盘。这款硬盘上市不到四年,部署量达5,145台,但在第三季度故障率却出现了大幅飙升。不过,这并非意料之外:Backblaze证实,他们一直在与东芝合作,应用旨在提升性能的固件更新。该过程需要将部分硬盘离线,根据当前的跟踪标准,即使问题并非机械故障,这些硬盘也会被归类为“故障”。

Backblaze强调,东芝硬盘的故障率波动更多是流程问题而非实际故障,预计该型号硬盘的故障率将在未来几个季度趋于稳定。这也提醒我们,硬盘故障的分类可能非常复杂,尤其是在运营工作与报告期重叠的情况下。

人工智能流量改变网络格局

除了硬盘可靠性指标外,Backblaze 还发布了最新一期的网络统计报告,以全新的透明度展现了其全球基础设施中工作负载的演变情况。2025 年第三季度的数据显示,人工智能的快速发展显著推动了网络流量模式的转变,流量规模和流量行为都在迅速变化。

目前,AI 相关流量已占 Backblaze 基础设施所有网络活动的近 25%。与传统的 CDN 密集型流量模式不同,AI 工作流程的特点是来自较少 IP 地址的短时高强度突发流量,通常与基于 GPU 的训练和推理工作负载相关。这些数据流不仅流量更大,而且更加集中,某些端点的数据传输速率远超典型传输量。

这种转变标志着 Backblaze 所称的“AI 数据引力”效应——即为了提高性能和成本效益,存储和计算资源正朝着更紧密结合的方向发展。许多组织不再局限于单一的超大规模云服务提供商,而是选择多云架构,将专业的 AI 计算提供商与可扩展的对象存储平台相结合。

虽然这只是 Network Stats 首次正式公开发布季度报告,但它为追踪人工智能如何持续重塑数字基础设施奠定了基础。这些数据提供了关于工作负载如何演变、它们如何给网络带来压力和影响,以及像 Backblaze 这样的服务提供商如何调整以满足现代计算需求的新见解。

 

参与 StorageReview

资讯订阅 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter(现为X) | TikTok | RSS订阅

莱尔·史密斯

Lyle 是 StorageReview 的撰稿人,文章涵盖了广泛的终端用户和企业 IT 主题。