Meta 推出了 Llama 4,這是一個強大的基於 MoE 的 AI 模型系列,可提供更高的效率、可擴展性和多模式性能。
Meta 推出了最新的 AI 創新產品 Llama 4,這是一組可增強多模式智慧能力的模型。 Llama 4 基於 Mixture-of-Experts (MoE) 架構,可提供卓越的效率和效能。
理解 MoE 模型和稀疏性
混合專家 (MoE) 模型與傳統的密集模型有顯著不同,在傳統的密集模型中,整個模型會處理每個輸入。在 MoE 模型中,每個輸入僅會啟動總參數的一個子集(稱為「專家」)。這種選擇性活化取決於輸入的特性,使模型能夠動態地分配資源並提高效率。
稀疏性是 MoE 模型中的重要概念,表示特定輸入的非活動參數的比例。 MoE 模型可以利用稀疏性顯著降低計算成本,同時維持或提高效能。
認識 Llama 4 家族:Scout、Maverick 和 Behemoth
Llama 4 套件包括三種型號:Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。每個模型的設計都是為了滿足不同的用例和要求。
- Llama 4 Scout 是一個緊湊模型,擁有 17 位專家的 109 億個活躍參數和 16 億個總參數。它針對效率進行了最佳化,可以在單一 NVIDIA H100 GPU(FP4 Quantized)上運行。 Scout 擁有令人印象深刻的 10 萬個標記上下文窗口,使其成為需要長上下文理解的應用程式的理想選擇。
- Llama 4 Maverick 是一個更強大的模型,具有相同的 17 億個活躍參數,但擁有 128 位專家,總計 400 億個參數。 Maverick 在多模式理解、多語言任務和編碼方面表現出色,超越了 GPT-4o 和 Gemini 2.0 Flash 等競爭對手。
- Llama 4 Behemoth 是該套件中最大的模型,擁有 288 位專家的 2 億個活躍參數和近 16 兆個總參數。儘管仍處於訓練階段,Behemoth 已經在各種基準測試中展現出最先進的性能,超越了 GPT-4.5 和 Claude Sonnet 3.7 等模型。
用於評估 Llama 4 模型的基準涵蓋了一系列任務,包括語言理解(MMLU – 大規模多任務語言理解、GPQA – Google 證明問答)、數學問題解決(MATH – 數學問題解決、MathVista – 視覺環境中數學問題解決的基準)和多模態理解(MMMU – 大規模多模態多模態多任務理解)。這些標準基準對模型的能力進行了全面的評估,並有助於確定模型的優勢或需要進一步改進的領域。
《Llama 4》中教師模型的作用
教師模型是一個大型的、預先訓練的模型,它可以指導較小的模型,透過提煉將其知識和能力傳遞給它們。在 Llama 4 的案例中,Behemoth 充當了教師模型,將其知識傳授給 Scout 和 Maverick。提煉過程包括訓練較小的模型來模仿教師模型的行為,讓它們從其優點和缺點中學習。這種方法使得較小的模型能夠實現令人印象深刻的性能,同時更加高效和可擴展。
影響和未來方向
Llama 4的發布是人工智慧領域的一個重要里程碑,對研究、開發和應用具有深遠的影響。從歷史上看,駱駝模型一直是下游研究的催化劑,激發了各種研究和創新。 Llama 4 的發布預計將延續這一趨勢,使研究人員能夠建立和微調模型來應對複雜的任務和挑戰。
許多模型都是在Llama模型的基礎上微調和建構的,展示了Llama架構的多功能性和潛力。隨著研究人員和開發人員利用這些模型來創建新的創新應用程序,Llama 4 的發布可能會加速這一趨勢。這具有重要意義,因為 Llama 4 是一個強大的模型發布,並將支持廣泛的研究和開發活動。
值得注意的是,Llama 4 車型與前代車型類似,都是沒有思維的。因此,未來的 Llama 4 系列版本可能會進行推理後期訓練,進一步提高其效能。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱