MiniMax-01

MiniMax-01：拥有4560亿参数的高级语言模型

体验配备混合注意力机制和MoE架构的强大语言模型，在推理、数学和编程任务方面表现出色，支持高达400万token的上下文长度

4560亿参数

459亿活跃参数

400万Token上下文

体验 MiniMax-01 访问 API

免费网站集成

通过简单的iframe代码将我们先进的AI对话界面集成到您的网站中。无需注册。

体验 MiniMax-01 聊天

MiniMax 聊天

体验 Mistral 聊天体验 DeepSeek 聊天

核心特性

探索 MiniMax-01 的强大功能

混合架构

创新地结合了闪电注意力、Softmax注意力和专家混合（MoE）技术，总参数量达456B，每个token激活45.9B参数

•80层架构
•64个注意力头
•32个专家网络
•Top-2路由策略

基准测试性能

在多个基准测试中取得出色成绩，包括MMLU（88.5%）、MMLU-Pro（75.7%）和GSM8K（94.8%）

•强大的数学推理
•先进的编程能力
•复杂问题求解
•长文本理解

长文本处理

推理时支持高达400万个token，训练时支持100万个token

•扩展上下文窗口
•高效token处理
•文档理解能力
•大规模分析

高级注意力机制

混合注意力机制，每7层闪电注意力后接一层softmax注意力

•增强上下文理解
•高效信息处理
•均衡注意力分布
•优化性能表现

专家网络

32个专业化专家网络，隐藏维度9216，配备高效路由策略

•专业化处理
•动态路由
•任务优化
•高效计算

模型架构

为最佳性能和效率设计的最先进架构

•隐藏层大小：6144
•词表大小：200,064
•RoPE位置编码
•高级参数共享

多样化应用

在数学、编程和推理等多个领域具备全面能力

•数学计算
•代码生成
•复杂推理
•知识检索

性能优化

采用先进技术实现训练和推理的高度优化

•高效参数激活
•均衡负载分布
•优化内存使用
•快速推理速度

MiniMax-01 成就

在语言和视觉任务中的领先表现

基准测试卓越表现

MiniMax-01在各项基准测试中表现出色，包括在MMLU上达到88.5%，在MMLU-Pro上达到75.7%，在GSM8K上达到94.8%，展示了强大的推理和问题解决能力。

先进架构

MiniMax-01拥有4560亿参数，每个token激活459亿参数，结合了Lightning Attention、Softmax Attention和MoE技术以实现最佳性能。

长文本处理

在推理过程中支持高达400万个token，训练过程中支持100万个token，能够有效处理大量文档和复杂任务。

视觉处理能力

MiniMax-VL-01扩展了模型的视觉处理能力，具有从336×336到2016×2016的动态分辨率，在视觉任务上取得了强劲的表现。

MiniMax-01 性能指标

通用知识与推理

MMLU（88.5%）

DROP（87.8%）

编程与开发

HumanEval（86.9%）

MBPP（71.7%）

数学推理

GSM8K（94.8%）

MATH（77.4%）

技术规格

探索 MiniMax-01 的先进架构和能力

MiniMax-01 架构详情

结合闪电注意力和MoE的先进神经网络架构

•总参数量456B，每个token激活45.9B参数

•80层混合注意力机制

•64个注意力头，头维度128

•32个专家网络，隐藏维度9216

•MoE采用Top-2路由策略

•隐藏层大小：6144

•词表大小：200,064

•RoPE位置编码

MiniMax-01 研究

通过创新架构和技术推进AI发展

混合架构

革命性地结合闪电注意力、Softmax注意力和专家混合（MoE）架构，配备先进的并行策略

长文本处理

通过LASP+和变长环形注意力等创新技术，在推理时支持高达400万token的扩展上下文能力

高效扩展

先进的并行策略，包括线性注意力序列并行加强版（LASP+）和专家张量并行（ETP）

技术论文

阅读我们的研究论文《MiniMax-01：使用闪电注意力扩展基础模型》，详细了解我们的创新架构和成就。

阅读论文

关于 MiniMax

通过创新架构推进AI发展

公司概览

MiniMax 致力于通过注意力机制和专家系统的创新架构和先进研究，开发最先进的AI模型。

核心技术

我们的旗舰模型结合了闪电注意力、Softmax注意力和专家混合（MoE）架构，在各种任务中实现卓越性能。

下载 MiniMax-01 模型

选择 MiniMax-Text-01 和 MiniMax-VL-01 模型

MiniMax-Text-01

具有混合注意力和MoE架构的高级语言模型

文本

•4560亿总参数量
•459亿激活参数
•400万词元上下文长度
•80层架构

下载文本模型

MiniMax-VL-01

基于MiniMax-Text-01构建的视觉语言模型

视觉语言

•3.03亿ViT参数
•动态分辨率
•336×336至2016×2016
•高级视觉处理

下载视觉语言模型

安装说明

通过Hugging Face访问模型：

# For Text Model
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-Text-01

# For VL Model
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-VL-01

查看文本模型查看视觉语言模型

MiniMax-01 部署选项

量化选项

支持int8量化，配备专门模块以实现最佳性能

Int8权重量化
选择性模块转换
优化内存使用

多GPU部署

使用先进的并行策略在多个GPU上高效分布

设备映射配置
层级分布
均衡工作负载

模型加载

支持bfloat16的灵活加载选项和缓冲区管理

Bfloat16精度
缓冲区卸载
自定义设备映射

生成设置

可配置的生成参数以实现最佳输出控制

自定义token限制
缓存管理
响应格式化

如何使用 MiniMax-01

多种方式访问和使用 MiniMax-01 的功能

选项 1

选择访问方式

在我们的在线聊天界面（海螺AI）、API平台或通过 Hugging Face 直接访问模型中进行选择

选项 2

在线聊天

访问 www.hailuo.ai 即可立即与 MiniMax-01 开始对话 - 无需注册

选项 3

API 集成

访问我们的 API 平台 intl.minimaxi.com 获取开发者文档和集成指南

选项 4

模型部署

从 Hugging Face 下载和部署模型，支持文本和视觉语言任务

立即开始

常见问题

关于 MiniMax-01 的常见问题

MiniMax-01 的架构是什么？

MiniMax-01 采用结合闪电注意力、Softmax注意力和专家混合（MoE）的混合架构。总参数量为4560亿，每个token激活459亿参数，包含80层和64个注意力头。

MiniMax-01 的上下文长度是多少？

MiniMax-01 在推理时支持高达400万个token，训练时支持100万个token，能够有效处理长文档和复杂任务。

MiniMax-01 在基准测试中表现如何？

MiniMax-01 在各种基准测试中取得了优异成绩，包括MMLU 88.5%、MMLU-Pro 75.7%和GSM8K 94.8%，展示了出色的推理和问题解决能力。

什么是 MiniMax-VL-01？

MiniMax-VL-01 是我们基于 MiniMax-Text-01 构建的视觉语言模型。它包含3.03亿参数的视觉转换器（ViT），支持从336×336到2016×2016的动态分辨率。

如何访问 MiniMax-01？

您可以通过我们的在线聊天界面（Hailuo AI）、API平台（intl.minimaxi.com）访问 MiniMax-01，或从 Hugging Face 下载模型。

有哪些部署选项？

MiniMax-01 支持多种部署选项，包括int8量化、多GPU分布式部署，以及支持bfloat16的灵活加载。

硬件要求是什么？

模型可以在多个GPU上部署，支持自定义设备映射和负载均衡以获得最佳性能。

是否提供API？

是的，我们在 intl.minimaxi.com 提供全面的API平台，包含开发者文档和集成指南。

开始使用 MiniMax-01

在线聊天体验

通过我们的海螺 AI 聊天界面体验 MiniMax-01 的功能

开始聊天

访问 MiniMax API

通过我们的开发者平台将 MiniMax-01 的功能集成到您的应用中

访问平台

探索模型

通过 Hugging Face 访问 MiniMax-01 模型，提供文本和视觉语言两个版本

查看模型

阅读研究论文

了解我们的架构和创新成果

查看论文