MiniMax-01: 456B 파라미터를 가진 첨단 언어 모델
MiniMax-01은 토큰당 45.9B가 활성화되는 총 456B 파라미터를 특징으로 하는 AI 기술의 혁신입니다. 이 모델은 Lightning Attention, Softmax Attention, Mixture-of-Experts (MoE)를 결합한 하이브리드 아키텍처를 채택하여 다양한 작업에서 탁월한 성능을 발휘합니다.
벤치마크에서의 우수한 성능
MiniMax-01은 MMLU에서 88.5%, MMLU-Pro에서 75.7%, GSM8K에서 94.8%를 달성하며 여러 벤치마크에서 뛰어난 능력을 보여줍니다. 이 모델은 수학적 추론, 코딩 작업, 복잡한 문제 해결 과제에서 탁월한 성능을 발휘합니다.
첨단 아키텍처
이 모델은 7개의 lightning attention 레이어마다 softmax attention 레이어가 배치된 하이브리드 어텐션 메커니즘을 갖춘 80개 레이어 아키텍처를 특징으로 합니다. 64개의 어텐션 헤드와 128의 헤드 차원을 가진 MiniMax-01은 복잡한 입력을 처리하고 이해하는 데 놀라운 효율성을 달성합니다.
긴 컨텍스트 처리 능력
MiniMax-01은 추론 시 최대 4백만 토큰, 학습 시 1백만 토큰의 컨텍스트 길이를 지원합니다. 이 광범위한 컨텍스트 윈도우는 긴 문서와 넓은 컨텍스트 이해가 필요한 복잡한 작업을 효과적으로 처리할 수 있게 합니다.
Mixture-of-Experts 아키텍처
이 모델은 9216의 은닉 차원을 가진 32개의 전문가와 top-2 라우팅 전략을 사용합니다. 이 MoE 아키텍처는 효율적인 파라미터 활성화와 다양한 유형의 입력에 대한 전문화된 처리를 가능하게 합니다.
실용적 응용
고급 수학과 프로그래밍부터 복잡한 추론 작업까지, MiniMax-01은 다양한 분야에서 포괄적인 지원을 제공합니다. 모델의 광범위한 학습과 첨단 아키텍처는 학술적, 전문적 응용 모두에서 귀중한 도구가 됩니다.