MiniMax-01:具有 456B 參數的先進語言模型
MiniMax-01 代表人工智慧技術的重大突破,總共擁有 456B 參數,每個 token 激活 45.9B 參數。該模型採用混合架構,結合了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE),在各種任務中展現出卓越的性能。
卓越的基準測試表現
MiniMax-01 在多個基準測試中展現出優異的能力,在 MMLU 達到 88.5%、MMLU-Pro 達到 75.7%、GSM8K 達到 94.8%。模型在數學推理、程式設計任務和複雜問題解決方面表現出色。
先進的架構
模型採用 80 層架構,具有混合注意力機制,每 7 層 Lightning Attention 後接一層 Softmax Attention。配備 64 個注意力頭和 128 的頭部維度,MiniMax-01 在處理和理解複雜輸入時實現了顯著的效率。
長上下文處理能力
MiniMax-01 在推理時支援高達 400 萬個 token 的上下文長度,訓練時支援 100 萬個 token。這個廣闊的上下文視窗使其能夠有效處理長文檔和需要廣泛上下文理解的複雜任務。
Mixture-of-Experts 架構
模型使用 32 個專家,隱藏維度為 9216,採用 Top-2 路由策略。這種 MoE 架構實現了高效的參數激活和針對不同輸入類型的專門處理。
實際應用
從高級數學和程式設計到複雜的推理任務,MiniMax-01 在各個領域提供全面支援。模型的廣泛訓練和先進架構使其成為學術和專業應用的寶貴工具。