中国 MiniMax 社(上海稀宇科技)が 2026 年に公開した最新世代 LLM。MoE 構造と 1M トークン級の長文脈処理に強く、要約/対話/コード生成のバランス型として Qwen3.5/DeepSeek V3/GLM-4.7 と並ぶ中国オープン LLM の主要選択肢。
MiniMax M2.7 は、中国上海の AI スタートアップ MiniMax(稀宇科技)が 2026 年に公開した最新世代の大規模言語モデルです。同社は前作 M1 / M2 / M2.5 で MoE と長文脈処理を磨いてきた研究機関型の会社で、M2.7 はその集大成としてリリースされました。中国語・英語の両言語で高性能を発揮し、要約・対話・コード生成・推論のバランス型として位置付けられています。
最大の特徴は、MoE と Lightning Attention(線形注意機構)を組み合わせた設計で、1M トークン超のコンテキスト窓を従来の Transformer ベース MoE より少ないメモリで実現している点です。これにより、論文 50 本分の同時要約や、大規模コードベース全体の解析といった超長文コンテキストの実用ワークロードに耐えます。Hugging Face にウェイトが公開され、LM Studio v0.4 系・vLLM・llama.cpp などの主要ランタイムで動作します。
| モデル | パラメータ | コンテキスト | ベンチ平均 | 公開時期 |
|---|---|---|---|---|
| MiniMax M2.7 | 230B/25B | 1M | 83 | 2026 |
| GLM-4.7 Flash | 200B/18B | 256K | 81 | 2026 |
| Qwen3.5-72B | 72B Dense | 128K | 82 | 2025 |
| DeepSeek V3 | 671B/37B | 128K | 84 | 2024 |
| Claude Sonnet 4.6 | 非公開 | 200K | 86 | 2025 |
M2.7 をローカルで動かすには、4bit 量子化版で 100-120GB 程度のメモリが必要です。Mac Studio M3 Ultra(192GB)、4× RTX 5090(128GB VRAM)、または GH200(96GB HBM3)などが候補となります。1M コンテキストを最大限使うなら、KV キャッシュ用に追加で 30-50GB のメモリが必要なため、Mac Studio M3 Ultra 256GB 構成や 8× H100 ノードが推奨されます。
ただし、通常の 32K-128K コンテキスト用途であれば Qwen3.5-72B(80GB VRAM)で十分なケースも多く、超長文ワークロードがあるかどうかで M2.7 採用の是非が決まります。
Q1: 1M コンテキストは本当に実用的ですか? A: 論文 50 本同時要約や大規模リポジトリ解析では実用性が高いです。ただし、推論速度は通常 8K プロンプトの 1/4 程度に落ちるため、用途を見極めて使い分ける必要があります。
Q2: M2.7 と GLM-4.7 Flash どちらを選ぶべきですか? A: 1M 長文処理が必要なら M2.7、汎用速度重視なら GLM-4.7 Flash です。短文では GLM-4.7 が 2-3 倍高速な場合があります。
Q3: 日本語応答の品質は? A: Qwen 系より一段劣るものの、英中混在の長文要約では十分な品質が得られます。