IBM Granite 4 世代の超小型 LLM。エンタープライズ向けに完全クリーンライセンスの学習データで構築され、エッジ推論やプライベートデプロイ用途のコンプライアンス特化型モデルとして 2026 年公開。
Granite 4 H-Tiny は、IBM Research が 2026 年に公開した Granite 4 世代の超小型 LLM です。H(Hybrid)は、Mamba/SSM(State Space Model)と Transformer Attention を組み合わせたハイブリッドアーキテクチャを意味します。Tiny サブグレードはエッジ推論・オンデバイス推論・プライベートクラウドのコンパクトデプロイ向けで、3B 級のパラメータ数ながら 7B-13B 級の品質を狙う設計が特徴です。
エンタープライズ向けの最大の差別化要因は、学習データセットのライセンス整理を徹底している点です。インターネットから無差別に収集した一般的な OSS LLM とは異なり、IBM が訴訟リスクを「インデムニファイ(損害補償)」できるレベルでデータソースを管理しています。これは規制業種(金融・医療・公共)で生成 AI を導入する企業にとって、極めて重要なコンプライアンス要件を満たします。
| モデル | サイズ | ライセンス | indemnify | 用途 |
|---|---|---|---|---|
| Granite 4 H-Tiny | 3B | Apache 2.0 | あり | エッジ・組込 |
| Granite 4 Small | 8B | Apache 2.0 | あり | RAG・社内 Bot |
| Phi-4 mini | 3.8B | MIT | なし | 教育・実験 |
| Llama 3.2 3B | 3B | Llama License | なし | 汎用 |
| Liquid LFM 2.5 1.2B | 1.2B | 商用 | なし | エッジ |
3B クラスなので、4bit 量子化で約 2GB の VRAM/メモリで動作します。Raspberry Pi 5 や Apple Silicon M2/M3 系の MacBook、RTX 3050 など、廉価な構成でも実用速度(20-50 tok/s)が得られます。
エッジデバイスや IoT ゲートウェイへの組込にも適しており、IBM Research は Apple Neural Engine(MLX)・Qualcomm NPU・Intel NPU 向けの量子化版もコミュニティ経由で配布しています。エンタープライズ用途では IBM watsonx を経由することで、運用ログ・モデル管理・SLA をワンストップで提供する利点もあります。
Q1: なぜエンタープライズで Granite が選ばれるのですか? A: 学習データが IBM 管理下でクリーンに整理されており、生成物による著作権訴訟リスクを IBM が補償する点が大きな差別化要因です。OSS で他に同等の補償を提供するベンダーは限られています。
Q2: 3B モデルで本当に実用になりますか? A: 単純なチャットや RAG 検索の応答生成、ドキュメント要約程度なら 3B でも十分実用的です。複雑な推論や長文生成では Granite 4 Small(8B)以上を推奨します。
Q3: Raspberry Pi 5 で動きますか? A: 4bit 量子化(GGUF Q4_K_M)で約 2GB、Pi 5(8GB RAM)で 5-10 tok/s 程度の応答速度が出ます。エッジ推論ノードとしては十分実用的です。