AWS、Google 和 Azure 等雲端運算巨頭正在建立客製化晶片以滿足 AI 需求,提高效能、效率和控制力。
雲端環境目前正經歷重大轉變。在過去的一年裡,包括亞馬遜網路服務 (AWS)、Google雲端和微軟 Azure 在內的超大規模企業大幅增加了對客製化晶片的投資。進入晶片市場的AI公司數量持續擴大。
晶片發展的浪潮正在重塑資料中心,有望實現新的效能、效率和差異化水準。典型的晶片製造商為大眾製造處理器和加速器,而這些新參與者則專門為要求苛刻的人工智慧工作負載設計晶片。
芯片設計
開發客製化矽片的動機源自於現成的 CPU 和加速器無法滿足超大規模雲端工作負載的需求。尤其是人工智慧和機器學習,推動了更高的運算密度、更低的延遲和更高的能源效率要求。超大規模企業的因應方式是建構適合其基礎設施和客戶需求的晶片。新的參與者以越來越快的速度進入市場,他們所生產的處理器和加速器被吹捧為業內「最快」、「最便宜」或「最好」的產品。
當然,這並不是什麼新現象。多年來,雲端供應商一直在建立客製化的網路硬體、儲存設備和伺服器。然而,工程處理器又是另一回事。
玩家是誰?
這不是一個完整的清單。目前,這些是該領域的主要參與者。我們也引進了新的供應商,為以人工智慧為中心的服務交付帶來他們的特色。
AWS
如今已是第四代, 亞馬遜的 Graviton 該系列為雲端基於 Arm 的 CPU 樹立了榜樣,與傳統 x86 產品相比,每瓦效能顯著提升。 AWS 也推出了客製化的 AI 加速器,例如 Inferentia和Trainium,針對大規模推理和訓練工作負載。
根據 AWS 網站報導,Anthropic 表示 AWS 將成為其主要訓練合作夥伴,並使用 AWS Trainium 來訓練和部署其最大的基礎模型。據稱,亞馬遜還將向 Anthropic 額外投資 4 億美元。
同時,Google繼續突破其張量處理單元 (TPU) 的極限,目前該單元正在為一些最大的生產中的 AI 模型提供支援。該公司最新的 TPU v5 和 鐵木 架構專為大規模並行而設計,並與 Google 的資料中心結構緊密整合。
天藍
微軟也緊跟其後,最近推出了客製化的 AI 晶片, Azure Maia 和 Azure Cobalt,針對人工智慧和通用工作負載進行了最佳化。這些晶片目前已經部署在微軟的資料中心,支援從大型語言模式到核心雲端服務的一切。
CSP 並非孤例
儘管不一定是雲端供應商,但其他參與者也參與了晶片開發市場。這些公司也意識到設計晶片的好處:降低成本、提高效能、加強管理和所有權。
格羅克
Groq 提供了一個以客製化為中心的 AI 推理平台 語言處理單元 (LPU) 和雲端基礎設施。它為流行的 AI 模型提供低成本的高性能。
與圖形設計的 GPU 不同,LPU 針對 AI 推理和語言任務進行了最佳化。 Groq 透過 GroqCloud™ 和內部解決方案提供 LPU,而不是單獨的晶片。
SambaNova系統
SambaNova系統 創建了一個針對複雜工作負載量身定制的 AI 平台。它以 DataScale® 系統和針對資料流運算最佳化的客製化可重構資料流單元 (RDU) 晶片為中心。
該公司提供預先訓練的基礎模型和 SambaNova Suite,它結合了硬體、軟體和模型,可實現快速的人工智慧部署,特別是在金融和醫療保健領域。
大腦
Cerebras 以其 AI 推理和訓練平台而聞名,該平台的特點是 晶圓級引擎 (WSE)。憑藉其眾多針對 AI 優化的內核和片上內存,這款大型晶片使 Cerebras 系統能夠處理傳統硬體難以處理的複雜模型。
醫學研究和能源領域的組織將 Cerebras 系統用於內部超級計算機,而開發人員可以透過 Cerebras Cloud 存取其功能。
騰訊視頻
騰訊視頻 正在開發先進的人工智慧和高效能運算硬件,由專門從事電腦架構和 ASIC 設計的團隊領導。他們的方法類似於Google的 TPU,專注於開放硬體和軟體,並吸引了傑夫貝佐斯等人物的投資。
該公司的 Blackhole™ PCIe 板專為可擴展 AI 處理而設計,具有 RISC-V 內核和 GDDR6 記憶體。 Blackhole p100a 型號包含 Blackhole Tensix 處理器,專為桌上型工作站而設計。
優勢:效能、效率和控制
客製化矽片為 CSP 和其他參與者提供了一套強大的槓桿。供應商可以透過內部設計晶片來優化其工作負載、資料中心架構和電源/冷卻限制。這使得單位成本性能更高、能源效率更高,並且能夠為客戶提供差異化服務。從策略上講,擁有矽堆疊可以減少對第三方供應商的依賴,降低供應鏈風險,並加快創新週期。在人工智慧模型以閃電般的速度發展的世界中,這種敏捷性是一種競爭優勢。
製造晶片並非易事。它需要深厚的工程專業知識、大量的資本投入以及與代工廠和設計合作夥伴的密切合作。 CSP 還在軟體堆疊、編譯器和開發工具方面投入了大量資金,以確保其客製化硬體易於存取且用戶友好。整個產業都感受到了連鎖反應。英特爾、AMD 和 NVIDIA 等傳統晶片製造商面臨新的競爭,而新創公司和 IP 供應商則找到了與 CSP 合作的新機會。隨著供應商尋求更靈活、更可自訂的架構,以 RISC-V 為代表的開源硬體運動正在獲得發展動力。
雲矽的未來
創新的速度沒有放緩的跡象。隨著人工智慧、分析和邊緣運算的發展,CSP 和超大規模企業預計將投資大量客製化矽片,同時擴展到新的網路、儲存和安全領域。下一代雲端基礎設施將由其內部的硬體以及頂層的軟體和服務共同塑造。
這項進步提供了更多的選擇、更高的效能以及處理企業和開發人員以前認為不可能實現的工作負載的能力。對業界來說,這標誌著一個新時代的開始,最大的雲端供應商也成為最具影響力的晶片設計者之一。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱