存储评论网

播客第143期:KIOXIA 245TB SSD来了!

企业版  ◇  SSD

KIOXIA 的 Maulik Sompura 与 Brian 就 Flash 的方方面面以及其他行业动态展开了深入而富有启发性的讨论。鉴于人工智能和现代工作负载的迅猛发展,这一话题可谓切合时宜且意义重大。

Maulik Sompura 是 KIOXIA 的产品规划与管理高级总监,在 NAND 闪存、内存和固态硬盘领域拥有超过 13 年的经验,其中最近六年就职于 KIOXIA。此外,他还曾在英特尔和东芝工作过。

KIOXIA LC9系列

讨论的内容不仅限于存储和内存,还延伸到液冷、超大规模数据中心和产品外形尺寸。他们还讨论了开源软件、新型晶圆厂、扩展性问题以及对再次出现“新冠疫情式繁荣与萧条”的担忧。

这是一场引人深思的对话,它会促使你进行一些长远的思考。我们把播客分成了几个五分钟的片段,你可以直接跳转到与你和你的环境最相关的部分。不过,完整地观看一遍也绝对值得。

Brian 和 Maulik 首先讨论了 SSD 和闪存存储的彻底发展,尤其是在人工智能和超大规模数据中心的压力下。

0:00–5:00:超大规模数据中心悄然主导市场

  • SSD 产品组合的复杂性呈爆炸式增长:外形尺寸、耐用性级别和性能等级多种多样。
  • 人工智能的蓬勃发展使得存储技术的重要性仅次于 GPU/HBM,成为首要任务。
  • 超大规模数据中心运营商(Meta、Google、Amazon 等)会规定详细的硬盘需求,而这些定制设计最终决定了企业能够获得什么。
  • OCP 规范通过为每个人在 NVMe 之上提供一个共同的目标,帮助统一和简化混乱局面。
  • 尽管传统外形尺寸仍然存在,但业界正在积极尝试减少 SKU 数量,并向 E3 等现代外形尺寸靠拢。

5:00–10:00:E3、E2 和 PB 级硬盘

  • 由于其更佳的功率和散热特性,E3 正在成为第六代及以上机型的首选企业级外形尺寸。
  • 由于产品生命周期长,2.5 英寸硬盘还会继续存在很多年,但新的设计正在转向 EDSFF(扩展硬盘驱动器)。
  • E2 是一款更大、容量优先的 SSD 外形尺寸,在大容量情况下可真正替代硬盘。
  • 借助先进的 NAND 堆叠技术,单个 E2 驱动器最终可以达到 1 PB 的容量。
  • 超大规模数据中心利用分片、纠删码和预测分析来降低巨型硬盘的风险;巨型 SSD 的重建时间仍然比大型 HDD 好得多。

10:00–15:00:固态硬盘也开始采用液冷散热。

  • 人工智能训练系统正在推动液冷技术的广泛应用,现在这种趋势也延伸到了存储领域。
  • E3 外形尺寸的 SSD 正在重新设计,以便与冷板直接接触(表面平整度、材料和连接器细节)。
  • 液冷式第五代固态硬盘将为第六代固态硬盘铺平道路,而第六代固态硬盘的功耗和发热量将会更高。
  • 企业对在数据中心引入水冷却持谨慎态度,但不断上涨的电力成本和 GPU 密度将使避免使用液冷变得更加困难。

15:00–20:00:人工智能存储:容量、性能和架构压力

  • 人工智能推动存储技术朝着两个方向发展:海量容量和极高性能。
  • KIOXIA 的 245 TB 级硬盘(采用 32 层 QLC 闪存)面向数据湖和大型存储库,而不仅仅是通用工作负载。
  • 在现代机箱中,存储速度可以达到 250–280 GB/s;瓶颈越来越在于网络架构,而不是驱动器。
  • 超大规模数据中心正在竞相推出 400/800 GbE 和更智能的网卡/DPU,而中端市场客户却难以跟上这种规模的网络架构投资。
  • 传统数据库和光纤通道依然存在,但矢量数据库和以人工智能为中心的数据存储也正在加入其中。

20:00–25:00:更智能的软件和真正的闪存超级循环

  • 铠侠不只是在出货硬盘,还在投资软件(例如 ISAAC),以减少对 HBM/DRAM 的需求,同时保持 AI 性能。
  • 该策略是整体性的:在系统层面提高成本效益,而不仅仅是通过更快的 NAND 闪存。
  • 像北上晶圆厂 (K2) 这样的新晶圆厂正在加速生产,但经历了新冠疫情时代的繁荣与萧条周期(给该行业造成了约 30 亿美元的损失)后,供应商们仍然保持谨慎。
  • NAND闪存的扩展(更多层、更精细的光刻技术)成本越来越高,发展速度也越来越快,因此供应量将会增长,但增长方式是可控的。
  • 许多人认为这是一个由人工智能和数据增长驱动的多年“超级周期”,而不仅仅是正常的 1-2 年的快速增长。

25:00–结束:人工智能无处不在、闪存与硬盘的比较,以及从高性能计算中学习

  • 数据不断增长,很少被删除;人工智能正在向数据所在的任何地方迁移,包括边缘、备份和二级存储层。
  • 高容量 SSD 每个机架可提供约 100 PB 的容量,而相同容量则需要多个机架的 HDD,而且 SSD 的性能和效率要好得多。
  • HDD 的性能不会随着容量的增加而提升;SSD 的 IOPS/GB 和吞吐量要高出几个数量级,从而改善了总体拥有成本,并且在大规模应用中更倾向于使用闪存。
  • 像 OCP 和超级计算 (SC) 这样的展会,让我们得以先睹为快未来:宽大的机架、800V 母线、奇特的冷却和电源设计。
  • 超大规模数据中心和高性能计算领域的创新正在稳步塑造“普通”企业服务器和数据中心的未来面貌,使其更具弹性和效率。

参与 StorageReview

订阅消息 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅

哈罗德弗里茨

自 IBM 创建 Selectric 以来,我一直在科技行业工作。 不过,我的背景是写作。 因此,我决定退出售前业务,回归本源,从事一些写作工作,但仍从事技术工作。