MiniMax-01: 4560億パラメータを持つ先進的な言語モデル
MiniMax-01はAI技術における画期的な進歩を示し、トークンごとに459億個が活性化される総計4560億個のパラメータを特徴としています。このモデルは、Lightning Attention、Softmax Attention、Mixture-of-Experts (MoE)を組み合わせたハイブリッドアーキテクチャを採用し、様々なタスクで卓越したパフォーマンスを実現しています。
ベンチマークにおける優れたパフォーマンス
MiniMax-01は複数のベンチマークで優れた性能を発揮し、MMLUで88.5%、MMLU-Proで75.7%、GSM8Kで94.8%を達成しています。このモデルは数学的推論、コーディングタスク、複雑な問題解決において特に優れています。
先進的なアーキテクチャ
このモデルは80層のアーキテクチャを採用し、7つのlightning attention層ごとに1つのsoftmax attention層を配置したハイブリッド注意機構を特徴としています。64個の注意ヘッドとヘッドあたり128の次元を持つMiniMax-01は、複雑な入力の処理と理解において顕著な効率性を実現しています。
長文脈処理能力
MiniMax-01は推論時に最大400万トークン、学習時に100万トークンのコンテキスト長をサポートしています。この広範なコンテキストウィンドウにより、長文書や広範な文脈理解を必要とする複雑なタスクを効果的に処理できます。
Mixture-of-Expertsアーキテクチャ
このモデルは9216の隠れ次元を持つ32個のエキスパートを採用し、top-2ルーティング戦略を使用しています。このMoEアーキテクチャにより、効率的なパラメータ活性化と異なる種類の入力の専門的な処理が可能になります。
実用的なアプリケーション
高度な数学やプログラミングから複雑な推論タスクまで、MiniMax-01は多様な分野で包括的なサポートを提供します。このモデルの広範な学習と先進的なアーキテクチャは、学術的および専門的なアプリケーションの両方において貴重なツールとなっています。