中国 Zhipu AI(智谱AI)が 2026 年に公開した高速推論型 LLM。MoE 構造を採用し、マルチモーダル対応かつ低コスト推論が可能。中国語と英語の双方に強く、Apache 2.0 系のオープンウェイトでローカルや LM Studio での運用にも適する。
GLM-4.7 Flash は、中国の AI スタートアップ Zhipu AI(智谱AI、清華大学発)が 2026 年に公開した高速推論型大規模言語モデルです。GLM(General Language Model)系列の 4.7 世代に属し、Flash の名のとおり推論速度を重視したチューニングが施されています。Mixture of Experts(MoE)アーキテクチャを採用しており、巨大な総パラメータ数の中から入力ごとに数 % のエキスパートのみを活性化することで、品質と速度の両立を狙っています。
ライセンスはオープンウェイトに準ずるもので、Hugging Face で重みが配布されており、リリース直後からコミュニティが GGUF / MLX / AWQ といった量子化版を作成しています。LM Studio や llama.cpp、vLLM、SGLang などの主要推論ランタイムで動作し、Mac mini M4 Pro(64GB UMA)や RTX 5090(32GB VRAM)クラスのワークステーションでもローカル運用が可能です。
| モデル | 公開時期 | 構造 | 推奨VRAM | ライセンス | 強み |
|---|---|---|---|---|---|
| GLM-4.7 Flash | 2026 | MoE 200B/18B | 80GB | Open | 中英バイリンガル・高速 |
| Qwen3.5-72B | 2025 | Dense 72B | 80GB | Apache 2.0 | 多言語・コーディング |
| DeepSeek V3 | 2024 | MoE 671B/37B | 192GB+ | OpenWeight | 推論・数学 |
| MiniMax M2.7 | 2026 | MoE | 80GB+ | Open | 長文要約 |
| Llama 4 Maverick | 2025 | MoE 400B/17B | 192GB | Llama License | 汎用・英語 |
GLM-4.7 Flash をローカルで動かすなら、4bit 量子化(Q4_K_M)で約 100GB 前後の VRAM/メモリが目安です。Mac Studio M3 Ultra 192GB UMA、デュアル RTX 5090(64GB)、または Mac mini M4 Pro(64GB)+ MLX 量子化(Q3_K)の構成が現実的な選択肢です。LM Studio v0.4 系で MLX 版が動作し、llama.cpp 系でも GGUF 版が対応しています。VPS や Linode の GPU 環境では、A100 80GB / H100 80GB を 1 枚で 4bit 推論できます。
中国語処理が中心の用途なら GLM-4.7 が最有力候補ですが、英語のみのコーディング/エージェント用途なら Qwen3 Coder Next や Devstral Small 2 の方が適性が高い場合もあります。
Q1: 商用利用は可能ですか? A: ライセンス条項を満たせば商用利用可能です。月間アクティブユーザー数の閾値や用途制限が含まれる場合があるため、必ず最新の LICENSE を確認してください。
Q2: 日本語性能はどの程度ですか? A: 英中ほどではありませんが、Qwen 系より日本語応答品質が一段下、Llama 系よりはやや上といった水準です。日本語特化なら Qwen 系や Sarashina 系が無難です。
Q3: M4 Mac mini 64GB でローカル運用できますか? A: 4bit 量子化版を MLX 経由で動かせば 30-40 tok/s 程度が出ます。1M コンテキスト版はメモリ不足になるため、標準 128K 版を推奨します。