首頁 企業雲端 使用 AWS Snowball Edge 設備更快地將數據傳輸到雲

使用 AWS Snowball Edge 設備更快地將數據傳輸到雲

by 布賴恩·比勒

我們最近完成了一個數據分析風格的項目,給我們留下了一個 100TB 輸出文件. 雖然我們的整個實驗室確實有足夠的存儲空間,但永久保留 100TB 的文件會帶來一系列獨特的挑戰。 此外,我們並不是真的“需要”該文件,但如果可能的話,我們更願意保留它。 雲顯然可以滿足這種需求,但通過網絡傳輸那麼多數據的時間非常長,因此我們選擇嘗試使用 AWS Snowball Edge 設備。 我們的目標是盡快將我們的數據從辛辛那提的實驗室傳輸到 AWS us-east-3 區域的 S2 存儲桶中。

我們最近完成了一個數據分析風格的項目,給我們留下了一個 100TB 輸出文件. 雖然我們的整個實驗室確實有足夠的存儲空間,但永久保留 100TB 的文件會帶來一系列獨特的挑戰。 此外,我們並不是真的“需要”該文件,但如果可能的話,我們更願意保留它。 雲顯然可以滿足這種需求,但通過網絡傳輸那麼多數據的時間非常長,因此我們選擇嘗試使用 AWS Snowball Edge 設備。 我們的目標是盡快將我們的數據從辛辛那提的實驗室傳輸到 AWS us-east-3 區域的 S2 存儲桶中。

什麼是 AWS Snowball 邊緣設備?

在我們深入研究數據遷移任務之前,有必要簡要介紹一下 AWS Snowball Edge 設備。 AWS Snow Family 是一系列專門構建的服務。 這些服務運行計算密集型工作負載,同時將數據存儲在邊緣位置以實現拒絕、中斷、間歇或受限 (DDIL) 網絡連接,以及從本地和堅固或移動環境傳輸大量數據。 AWS Snowball Edge 設備堅固耐用、便攜且安全,並提供存儲優化或計算優化功能。 這些設備旨在幫助客戶安全高效地移動(到 ​​AWS)或處理大量數據,即使在遠程或斷開連接的位置也是如此。

Snowball Edge 設備有兩個版本:我們在這裡使用的 Snowball Edge Storage Optimized 和 Snowball Edge Compute Optimized。 存儲優化版本專為數據傳輸和存儲用例而設計,具有高達 80TB 的存儲容量。 Compute Optimized 版本適用於數據處理和計算用例,配備多達 104 個虛擬 CPU 和 416GB RAM。 計算優化系統甚至可以選擇包含 GPU。 對於數據需求較少的用戶,還有一個小型、超便攜的 Snow Family,稱為 AWS Snowcone。

Snowball Edge 的兩個版本都具有內置的安全功能,例如防篡改外殼、256 位加密和可信平台模塊 (TPM) 芯片,以確保數據的完整性和機密性。 此外,Snowball Edge 設備可以配置為在邊緣運行 AWS Lambda 函數、Amazon EC2 實例和其他 AWS 服務,使客戶能夠在將數據傳輸到 AWS 之前在本地執行數據處理和分析。

對於我們的用例,Snowball Edge 設備為客戶提供了一種快速、安全且靈活的方式來在各種環境(包括遠程或斷開連接的位置)中傳輸和處理大量數據。

AWS Snowball 訂購流程

對於經驗豐富的 AWS 專業人士來說,Snowball 的訂購過程非常簡單。 即使對於像我這樣的新手,我也能夠在指導我們完成整個過程的 AWS 朋友的幫助下點擊完成這些步驟。

第 1 步是為您的作業命名並為您的 Snow 設備選擇作業類型。 我們的任務只是將數據傳輸到 S3,但 Snow 設備也可以從 S3 導出數據。 它們還可以用作點解決方案,為邊緣位置提供本地計算、存儲和 GPU。

第 2 步仍然很簡單,選擇 Snow 設備。 在我們的案例中,我們選擇了 Snowball Edge Storage Optimized 單元,可用容量為 80TB。 AWS Snowball 有多種定價選項。 有按天使用的定價選項,或者 AWS Snowball 為 62 年使用和 1 年使用承諾提供顯著折扣定價(高達 3%)。 通過這些長期交易,您可以預先支付折扣價使用 Snowball 設備,並且在預付費期結束之前無需支付任何額外服務費或每日費用。 訂購 Snowball 設備時,您可以在 AWS Snow 系列控制台中註冊承諾的預付費用。

最後,選​​擇導入所需的 EC2 實例和 S3 存儲桶。 這是一個新帳戶,因此我們創建了一個新的 S3 存儲桶。 我們也不需要任何 EC2,但最終還是 稍後側載 EC2 實例 找點樂子

第 3 步提供了一些額外的功能,例如可選的 AWS IoT Greengrass for Snow 和遠程設備管理選項。

第 4 步涵蓋安全、運輸和通知首選項。 在這裡,我們使用了默認加密並創建了建議的服務角色以允許 AWS 處理數據。 從那裡,它會添加您的地址並選擇一到兩天的送貨時間。 您還可以在此處添加電子郵件通知,儘管 AWS 控制台會顯示作業在系統中運行時的所有進度。

最後一步是驗證所有輸入和提交的信息。 這將創建作業,然後 AWS 的履行過程開始。 我們非常緩慢地逐步完成了 AWS 的流程,想要了解所有選項。 即使按照我們隨意的節奏,整個過程也需要大約 10 分鐘。 更激進的方法是讓訂購 Snow 設備最多花費 2-3 分鐘。

當時,我們認為我們需要兩台 Snowball Edge 設備。 回想起來,我們只需要一個。 克隆此作業的過程也非常簡單,只需點擊幾下即可為更大的數據集匯總幾個 Snowball。

從這裡開始,這是一個等待遊戲,因為履行過程通過系統進行。 因為這是一個全新的帳戶,所以我們立即訂購了兩台 Snowball Edge 設備時遇到了一些問題。 但對於有活動的賬戶,不應該有這樣的驗證。 Snowballs 在短短幾天內就出現了,我們開始準備傳輸數據。

Snowball 需要考慮的一件事是定價。 有工作費,其中包括在現場安裝設備的十天。 當然,一旦數據到達那裡,S3 中也會產生雲費用。 雖然 Snowball 的定價並不復雜,但它確實會因您選擇的系統、您需要它的時間以及您所在的地區而有所不同。在我們的案例中,工作費用是每個 Snowball 300 美元,甚至可能是長期合同大幅降低。 但是,您可以感受一下 Snowball 的定價; AWS 有一張桌子,把一切都擺出來.

資料準備

我們從一個 100TB 的文本文件開始,但對於任何有 S3 經驗的人來說,您都會知道這是一個問題。 S3 的對像大小限制為 5TB,這意味著我們需要對單個不合規文件採取一些措施。 我們的答案是將其切碎,看看我們是否可以同時獲得一些壓縮優勢。 我們希望能夠精簡到單個 Snowball 單元,最高可用容量為 80TB。 在等待 Snowball Edge 到達的同時,我們開始準備數據。

過程再造

我們用了 我們的最愛 處理大量數據的應用程序, y-cruncher,其中包括數字查看、拆分和壓縮實用程序。 由於 S3 的對像大小限制,我們選擇將 Pi 的所有 100 萬億位拆分為 200 個文件。 壓縮後,文件大小約為 191GB,每個文件包含 500,000,000,000(500 億)位數字。

AWS 雪球配置

準備好數據並準備好 Snowball 設備後,我們啟動了第一個單元使其聯機。 設置 Snowball 非常簡單,為其供電並訪問網絡; 我們選擇了 10GbE 端口。 許多人會選擇使用 CLI 與 Snowball 交互,這可能是首選方法。 儘管如此,為了視覺效果並希望從非 AWS 專業角度獲得體驗,我們還是選擇了 AWS OpsHub for Snow Family。

適用於 Snow 系列的 AWS OpsHub 是一種用戶友好的工具,可幫助客戶管理其 Snow 系列設備和本地 AWS 服務。 用戶可以通過圖形用戶界面解鎖和配置設備、傳輸文件、啟動和管理實例以及監控設備指標,從而提供設備上運行的 AWS 服務的統一視圖。 AWS OpsHub 可自動執行操作任務,旨在適應具有不同技術專業知識水平的用戶,從而更輕鬆地管理大量 Snow 系列設備。

使用 LCD 屏幕上的 IP 地址以及來自 AWS 控制台的解鎖代碼和清單文件,您可以解鎖和訪問 Snowball Edge。 這可能需要幾分鐘時間,因為 AWS 會驗證憑證、解密內容並處理一些其他內務處理任務。

登錄後,您將被帶到一個可視化儀表板,其中包含相關設備信息和已啟用的服務。 此時,我們在線,連接到網絡,並準備好移動我們的數據。

將數據傳輸到 AWS Snowball

在網絡上設置 Snowball Edge 並連接 OpsHub 後,是時候轉移我們的 200 個 200GB 文件了。 雖然大多數人會為此過程使用 CLI 界面,並且會受益於時間更優化的體驗,但我們選擇了簡單性。 在 Windows 中使用 OpsHub,我們只需選擇其中包含我們的 Pi 數據的文件夾,然後放開數據。 我們花了大約四天的時間才將文件傳送到 Snowball。

數據傳輸完成後,我們關閉了設備電源,此時電子墨水顯示屏變為用於攝取的地址。 在我們的案例中,這意味著俄亥俄州哥倫布市,us-east-2 的所在地。 順便說一句,一旦它到了托運人手中,訪問憑證也會從 Web 控制台消失,從而在途中保護數據。

AWS 跟踪雪球狀態

使用 UPS 投遞後,AWS Web 界面會使用跟踪編號和 Snowball 的運輸、分揀、AWS 接收和導入 S3 的進度更新作業狀態。 Snowball 花了幾天時間運抵哥倫布,兩天時間完成進口。

確認流程完成後,我們在 S3 中進行了可視化,以確保所有數據看起來都已正確導入。 為了讓客戶更正式地安心,AWS 還提供了整個過程的審計報告,以及任何異常情況。

在我們的日誌中,我們可以看到 200 個文件已完成且沒有失敗。 AWS 還記錄了 Snowball Edge 及其數據在系統中移動時的亮點。

最後的思考

AWS Snowball Edge 設備並不新鮮; 在為客戶提供一種安全的方式來加速將離線數據或遠程存儲移動到雲端方面,AWS 是先行者。 如果我們只是嘗試通過網絡將數據複製到 S3,我們可能仍在等待該工作完成,並且由於我們的 Internet 管道被佔用而無法做很多其他工作。 對我們來說,Snowball Edge Storage Optimized 單元正是我們盡快將數據傳輸到雲端所需要的。

這並非沒有代價。 雖然長期客戶可以獲得更優惠的價格,但我們為 Snowballs 支付的自付費用約為 700 美元。 不過,這還不錯,考慮到我們錯誤地訂購了一個額外的設備,並且我們沒有那麼快地移動所有設備以將這些設備轉回 AWS。 將數據提取到 S3 是免費的,持續的 S3 成本取決於您與 AWS 的合同費率。

應該注意的是,我們以最基本的方式使用了 Snowball Edge。 帶有計算功能的 Snowball 設備,尤其是帶有 GPU 的設備,為更密集的用例提供了更大的潛力。 有興趣的可以收看我們最近的 AWS 雪播客. 最終,Snow 設備只是 AWS 的更小型版本,具有存儲和計算限制。 但正如我們所見,它們非常靈活,非常容易部署,並且可以可靠地在需要的地方獲取數據。 對於考慮使用 AWS Snow 設備的任何人,我們強烈建議嘗試一下。

AWS Snowball 邊緣指南

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | 不和 | RSS訂閱