MiniMax-01

MiniMax-01:拥有4560亿参数的高级语言模型

体验配备混合注意力机制和MoE架构的强大语言模型,在推理、数学和编程任务方面表现出色,支持高达400万token的上下文长度

4560亿参数
459亿活跃参数
400万Token上下文

免费网站集成

通过简单的iframe代码将我们先进的AI对话界面集成到您的网站中。无需注册。

<iframe src="https://www.minimax01.com/embed" width="100%" height="600px" frameborder="0"></iframe>

体验 MiniMax-01 聊天

核心特性

探索 MiniMax-01 的强大功能

混合架构

创新地结合了闪电注意力、Softmax注意力和专家混合(MoE)技术,总参数量达456B,每个token激活45.9B参数

  • 80层架构
  • 64个注意力头
  • 32个专家网络
  • Top-2路由策略

基准测试性能

在多个基准测试中取得出色成绩,包括MMLU(88.5%)、MMLU-Pro(75.7%)和GSM8K(94.8%)

  • 强大的数学推理
  • 先进的编程能力
  • 复杂问题求解
  • 长文本理解

长文本处理

推理时支持高达400万个token,训练时支持100万个token

  • 扩展上下文窗口
  • 高效token处理
  • 文档理解能力
  • 大规模分析

高级注意力机制

混合注意力机制,每7层闪电注意力后接一层softmax注意力

  • 增强上下文理解
  • 高效信息处理
  • 均衡注意力分布
  • 优化性能表现

专家网络

32个专业化专家网络,隐藏维度9216,配备高效路由策略

  • 专业化处理
  • 动态路由
  • 任务优化
  • 高效计算

模型架构

为最佳性能和效率设计的最先进架构

  • 隐藏层大小:6144
  • 词表大小:200,064
  • RoPE位置编码
  • 高级参数共享

多样化应用

在数学、编程和推理等多个领域具备全面能力

  • 数学计算
  • 代码生成
  • 复杂推理
  • 知识检索

性能优化

采用先进技术实现训练和推理的高度优化

  • 高效参数激活
  • 均衡负载分布
  • 优化内存使用
  • 快速推理速度

MiniMax-01 成就

在语言和视觉任务中的领先表现

基准测试卓越表现

MiniMax-01在各项基准测试中表现出色,包括在MMLU上达到88.5%,在MMLU-Pro上达到75.7%,在GSM8K上达到94.8%,展示了强大的推理和问题解决能力。

先进架构

MiniMax-01拥有4560亿参数,每个token激活459亿参数,结合了Lightning Attention、Softmax Attention和MoE技术以实现最佳性能。

长文本处理

在推理过程中支持高达400万个token,训练过程中支持100万个token,能够有效处理大量文档和复杂任务。

视觉处理能力

MiniMax-VL-01扩展了模型的视觉处理能力,具有从336×336到2016×2016的动态分辨率,在视觉任务上取得了强劲的表现。

MiniMax-01 性能指标

通用知识与推理

MMLU(88.5%)
DROP(87.8%)

编程与开发

HumanEval(86.9%)
MBPP(71.7%)

数学推理

GSM8K(94.8%)
MATH(77.4%)

技术规格

探索 MiniMax-01 的先进架构和能力

MiniMax-01 架构详情

结合闪电注意力和MoE的先进神经网络架构

总参数量456B,每个token激活45.9B参数
80层混合注意力机制
64个注意力头,头维度128
32个专家网络,隐藏维度9216
MoE采用Top-2路由策略
隐藏层大小:6144
词表大小:200,064
RoPE位置编码

MiniMax-01 研究

通过创新架构和技术推进AI发展

混合架构

革命性地结合闪电注意力、Softmax注意力和专家混合(MoE)架构,配备先进的并行策略

长文本处理

通过LASP+和变长环形注意力等创新技术,在推理时支持高达400万token的扩展上下文能力

高效扩展

先进的并行策略,包括线性注意力序列并行加强版(LASP+)和专家张量并行(ETP)

技术论文

阅读我们的研究论文《MiniMax-01:使用闪电注意力扩展基础模型》,详细了解我们的创新架构和成就。

阅读论文

关于 MiniMax

通过创新架构推进AI发展

公司概览

MiniMax 致力于通过注意力机制和专家系统的创新架构和先进研究,开发最先进的AI模型。

核心技术

我们的旗舰模型结合了闪电注意力、Softmax注意力和专家混合(MoE)架构,在各种任务中实现卓越性能。

下载 MiniMax-01 模型

选择 MiniMax-Text-01 和 MiniMax-VL-01 模型

MiniMax-Text-01

具有混合注意力和MoE架构的高级语言模型

文本
  • 4560亿总参数量
  • 459亿激活参数
  • 400万词元上下文长度
  • 80层架构
下载文本模型

MiniMax-VL-01

基于MiniMax-Text-01构建的视觉语言模型

视觉语言
  • 3.03亿ViT参数
  • 动态分辨率
  • 336×336至2016×2016
  • 高级视觉处理
下载视觉语言模型

安装说明

通过Hugging Face访问模型:

# For Text Model
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-Text-01

# For VL Model
git lfs install
git clone https://huggingface.co/MiniMaxAI/MiniMax-VL-01

MiniMax-01 部署选项

量化选项

支持int8量化,配备专门模块以实现最佳性能

  • Int8权重量化
  • 选择性模块转换
  • 优化内存使用

多GPU部署

使用先进的并行策略在多个GPU上高效分布

  • 设备映射配置
  • 层级分布
  • 均衡工作负载

模型加载

支持bfloat16的灵活加载选项和缓冲区管理

  • Bfloat16精度
  • 缓冲区卸载
  • 自定义设备映射

生成设置

可配置的生成参数以实现最佳输出控制

  • 自定义token限制
  • 缓存管理
  • 响应格式化

如何使用 MiniMax-01

多种方式访问和使用 MiniMax-01 的功能

选项 1

选择访问方式

在我们的在线聊天界面(海螺AI)、API平台或通过 Hugging Face 直接访问模型中进行选择

选项 2

在线聊天

访问 www.hailuo.ai 即可立即与 MiniMax-01 开始对话 - 无需注册

选项 3

API 集成

访问我们的 API 平台 intl.minimaxi.com 获取开发者文档和集成指南

选项 4

模型部署

从 Hugging Face 下载和部署模型,支持文本和视觉语言任务

常见问题

关于 MiniMax-01 的常见问题

MiniMax-01 的架构是什么?

MiniMax-01 采用结合闪电注意力、Softmax注意力和专家混合(MoE)的混合架构。总参数量为4560亿,每个token激活459亿参数,包含80层和64个注意力头。

MiniMax-01 的上下文长度是多少?

MiniMax-01 在推理时支持高达400万个token,训练时支持100万个token,能够有效处理长文档和复杂任务。

MiniMax-01 在基准测试中表现如何?

MiniMax-01 在各种基准测试中取得了优异成绩,包括MMLU 88.5%、MMLU-Pro 75.7%和GSM8K 94.8%,展示了出色的推理和问题解决能力。

什么是 MiniMax-VL-01?

MiniMax-VL-01 是我们基于 MiniMax-Text-01 构建的视觉语言模型。它包含3.03亿参数的视觉转换器(ViT),支持从336×336到2016×2016的动态分辨率。

如何访问 MiniMax-01?

您可以通过我们的在线聊天界面(Hailuo AI)、API平台(intl.minimaxi.com)访问 MiniMax-01,或从 Hugging Face 下载模型。

有哪些部署选项?

MiniMax-01 支持多种部署选项,包括int8量化、多GPU分布式部署,以及支持bfloat16的灵活加载。

硬件要求是什么?

模型可以在多个GPU上部署,支持自定义设备映射和负载均衡以获得最佳性能。

是否提供API?

是的,我们在 intl.minimaxi.com 提供全面的API平台,包含开发者文档和集成指南。

开始使用 MiniMax-01

在线聊天体验

通过我们的海螺 AI 聊天界面体验 MiniMax-01 的功能

开始聊天

访问 MiniMax API

通过我们的开发者平台将 MiniMax-01 的功能集成到您的应用中

访问平台

探索模型

通过 Hugging Face 访问 MiniMax-01 模型,提供文本和视觉语言两个版本

查看模型

阅读研究论文

了解我们的架构和创新成果

查看论文