GLM-4.7 Flashとは？（ジーエルエムヨンナナフラッシュ）わかりやすく解説

Q: GLM-4.7 Flashとは？

中国 Zhipu AI(智谱AI)が 2026 年に公開した高速推論型 LLM。MoE 構造を採用し、マルチモーダル対応かつ低コスト推論が可能。中国語と英語の双方に強く、Apache 2.0 系のオープンウェイトでローカルや LM Studio での運用にも適する。

主な特徴・仕組み

MoE 構造: 総パラメータ数 200B 級・活性化 18B 程度の構成で、推論時の演算量を抑制。

高速推論: 4bit 量子化 + Mac Studio M3 Ultra(192GB)で 60-90 tok/s、H100 80GB で 120-150 tok/s クラス。

中英強化: CMMLU / C-Eval / MMLU などの中英ベンチで Qwen3.5-72B と同等以上のスコア。

マルチモーダル: 画像入力対応(VL バリアント)で、図表理解や OCR タスクにも利用可能。

1M トークン超のコンテキスト窓拡張モデルもバリエーション展開。

Apache 2.0 系のオープンウェイトで、商用利用可能(規約条項あり)。

主要ライバルとの比較

モデル	公開時期	構造	推奨VRAM	ライセンス	強み
GLM-4.7 Flash	2026	MoE 200B/18B	80GB	Open	中英バイリンガル・高速
Qwen3.5-72B	2025	Dense 72B	80GB	Apache 2.0	多言語・コーディング
DeepSeek V3	2024	MoE 671B/37B	192GB+	OpenWeight	推論・数学
MiniMax M2.7	2026	MoE	80GB+	Open	長文要約
Llama 4 Maverick	2025	MoE 400B/17B	192GB	Llama License	汎用・英語

自作PCでの選び方・注意点

GLM-4.7 Flash をローカルで動かすなら、4bit 量子化(Q4_K_M)で約 100GB 前後の VRAM/メモリが目安です。Mac Studio M3 Ultra 192GB UMA、デュアル RTX 5090(64GB)、または Mac mini M4 Pro(64GB)+ MLX 量子化(Q3_K)の構成が現実的な選択肢です。LM Studio v0.4 系で MLX 版が動作し、llama.cpp 系でも GGUF 版が対応しています。VPS や Linode の GPU 環境では、A100 80GB / H100 80GB を 1 枚で 4bit 推論できます。

中国語処理が中心の用途なら GLM-4.7 が最有力候補ですが、英語のみのコーディング/エージェント用途なら Qwen3 Coder Next や Devstral Small 2 の方が適性が高い場合もあります。

メニュー

GLM-4.7 Flash（ジーエルエムヨンナナフラッシュ）

この用語に関連するコンテンツ

メニュー

GLM-4.7 Flash（ジーエルエムヨンナナフラッシュ）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

主要ライバルとの比較

自作PCでの選び方・注意点

関連用語との違い

よくある質問(FAQ)

まとめ

関連用語