مینیمکس-۰۱: مدل زبانی پیشرفته با ۴۵۶ میلیارد پارامتر
مینیمکس-۰۱ نشاندهنده پیشرفتی چشمگیر در فناوری هوش مصنوعی است که دارای ۴۵۶ میلیارد پارامتر کل با ۴۵.۹ میلیارد پارامتر فعال برای هر توکن است. این مدل از معماری ترکیبی Lightning Attention، Softmax Attention و Mixture-of-Experts (MoE) استفاده میکند که عملکرد استثنایی در وظایف مختلف را امکانپذیر میسازد.
عملکرد برتر در معیارهای سنجش
مینیمکس-۰۱ قابلیتهای برجستهای در معیارهای سنجش متعدد نشان میدهد و به نتایج ۸۸.۵٪ در MMLU، ۷۵.۷٪ در MMLU-Pro و ۹۴.۸٪ در GSM8K دست یافته است. این مدل در استدلال ریاضی، وظایف برنامهنویسی و چالشهای حل مسائل پیچیده برتری دارد.
معماری پیشرفته
این مدل دارای معماری ۸۰ لایهای با مکانیسمهای توجه ترکیبی است، که در آن یک لایه softmax attention پس از هر ۷ لایه lightning attention قرار دارد. مینیمکس-۰۱ با ۶۴ هسته توجه و بُعد هسته ۱۲۸، کارایی قابل توجهی در پردازش و درک ورودیهای پیچیده به دست میآورد.
قابلیتهای متن طولانی
مینیمکس-۰۱ از طول متن تا ۴ میلیون توکن در زمان استنتاج، با طول متن آموزشی ۱ میلیون توکن پشتیبانی میکند. این پنجره متنی گسترده، پردازش مؤثر اسناد طولانی و وظایف پیچیده که نیازمند درک متن گسترده هستند را امکانپذیر میسازد.
معماری Mixture-of-Experts
این مدل از ۳۲ متخصص با بُعد پنهان ۹۲۱۶ استفاده میکند و از استراتژی مسیریابی top-2 بهره میبرد. این معماری MoE امکان فعالسازی کارآمد پارامترها و پردازش تخصصی انواع مختلف ورودیها را فراهم میکند.
کاربردهای عملی
از ریاضیات پیشرفته و برنامهنویسی تا وظایف استدلالی پیچیده، مینیمکس-۰۱ پشتیبانی جامعی در حوزههای مختلف ارائه میدهد. آموزش گسترده و معماری پیشرفته این مدل، آن را به ابزاری ارزشمند برای کاربردهای دانشگاهی و حرفهای تبدیل کرده است.