首頁 Facebook 推出靈活的 NVMe JBOF

Facebook 推出靈活的 NVMe JBOF

by 亞當·阿姆斯特朗

在今天的開放計算項目峰會上,Facebook 宣布了其靈活的 NVMe JBOF(只是一堆閃存)Lightning。 Facebook 正在引入 Lightning 作為閃存構建塊或閃存雪橇。 Lightning 將允許數據中心更好地跨多個應用程序擴展閃存容量,同時調整計算與存儲的比率。 Facebook 正在將這個新的 JBOF 貢獻給開放計算項目。


在今天的開放計算項目峰會上,Facebook 宣布了其靈活的 NVMe JBOF(只是一堆閃存)Lightning。 Facebook 正在引入 Lightning 作為閃存構建塊或閃存雪橇。 Lightning 將允許數據中心更好地跨多個應用程序擴展閃存容量,同時調整計算與存儲的比率。 Facebook 正在將這個新的 JBOF 貢獻給開放計算項目。

一段時間以來,Facebook 一直大力使用 Flash。 他們將其用於緩存、數據庫應用程序和引導驅動器。 雖然閃存為他們提供了他們正在尋找的性能,但它也有一些缺點,例如不能有效擴展。 閃存密度大約每半年翻一番,這使得高效擴展成為一個問題。 Facebook 一直在尋找方法來最大限度地減少硬件構建塊的數量,同時最大限度地增加給定應用程序可用的閃存總量。 Facebook 將分解硬件和軟件組件視為提高運營效率的可能解決方案。 輸入他們的 JBOF,Lightning。

Lightning 提供端到端(CPU 到 SSD)的 PCIe gen 3 連接。 為了加快上市速度、保持通用外觀、在 PCIe 交換機解決方案中實現模塊化並在 SSD 外形規格中實現靈活性,Facebook 正在利用現有的 Open Vault (Knox) SAS JBOD 基礎架構。 Facebook 必須使用某種拓撲結構來實現新的 JBOF(如上圖所示)和新的看板:

  • PCIe 重定時器卡。 這個 x16 PCIe gen 3 卡安裝在 Leopard 服務器中,用作 JBOF 的頭節點。 通過至少 8644 米的外部 mini-SAS HD (SFF-2) 電纜重新傳輸 PCIe 信號是一種簡單、低成本、低功耗的設計。
  • PCIe 擴展板 (PEB)。 PCIe 開關、Lightning BMC 和所有開關支持電路都位於該板上。 每個 SSD 托盤安裝一個 PEB,並替換 Knox 中使用的 SAS 擴展板 (SEB)。 這讓我們可以為兩個托盤使用一個通用的開關板,還可以讓我們輕鬆設計新的或不同的版本(例如,使用下一代開關),而無需修改其餘的基礎設施。 每個 PEB 具有多達 32 條 PCIe 通道作為到頭節點中重定時器的上行鏈路,以及 60 條 PCIe 通道到 SSD。 如果 PEB 發生故障,可以熱插拔而不影響系統中的其他托盤。
  • PCIe 驅動平面板 (PDPB)。 PDPB 包含 15 個 SFF-8639 (U.2) SSD 連接器和支持電路。 每個 SSD 連接器或插槽都連接到 4 個 PCIe 通道、PCIe 時鐘、PCIe 重置以及來自 PEB 上的一個或多個 PCIe 開關的附加邊帶信號。 每個 SSD 插槽也可以分為 2 個 x2 端口,這使我們能夠將每個托盤的 SSD 數量從 15 個增加到 30 個(從每個系統 30 個增加到每個系統 60 個),而無需額外的 PCIe 交換層。

優點包括:

  • Lightning 可以支持多種 SSD 外形規格,包括 2.5"、M.2 和 3.5" SSD。
  • Lightning 將支持 SSD 的意外熱添加和意外熱移除,使現場更換像 SAS JBOD 一樣簡單透明。
  • Lightning 將使用運行 OpenBMC 的 ASPEED AST2400 BMC 芯片。
  • Lightning 將支持多種交換機配置,這使我們能夠支持不同的 SSD 配置(例如,15x x4 SSD 與 30x x2 SSD)或不同的頭節點到 SSD 的映射,而無需以任何方式更改硬件。
  • Lightning 將能夠支持多達四個頭節點。 通過支持每個托盤多個頭節點,我們只需更改交換機配置即可根據需要調整計算與存儲比率。

雖然全 NVMe 聽起來是個好主意,但在將它們實施到各地的數據中心之前,需要解決一些問題。 NMVe 不能像 SAS 驅動器那樣進行熱插拔或熱添加。 目前PCIe熱插拔比較複雜。 PCIe 沒有像 SAS 那樣的帶內外殼和機箱管理方案,這使得管理變得棘手。 部分佈局和新電路板處理保持信號完整性。 與使用外部 PCIe 電纜相反,Facebook 選擇了 mini-SAS HD 電纜 (SFF-8644)。 這些電纜使用完整的 PCIe 邊帶信號和用於帶外管理連接的 USB 連接。 而Facebook正在處理NVMe的功耗,一個2.5英寸的NVMe SSD可以使用高達25W的功率。 Lightning 將功率限制為每個插槽 14W。

Lightning 旨在成為一種靈活、可擴展的閃存解決方案。 它支持多種 SSD 外形規格和多個頭節點,同時使用對其目標 IOPS/TB 有意義的功率級別。 將此解決方案添加到 OCP 應該會加強 NVMe 生態系統並加速 NVMe SSD 的採用。

Facebook 工程

打開計算項目

討論這個故事

註冊 StorageReview 時事通訊