BGE-M3（ビージーイーエムスリー）

BAAI（北京智源人工知能研究院）が開発した多言語・多粒度・多機能の埋め込みモデル。Dense・Sparse・ColBERT の3種類のベクトルを同時生成し、100言語以上に対応する2024年公開のオープンソース Embedding モデル。

0 回閲覧

0 いいね

2026/6/20 更新

BGE-M3とは

BGE-M3は、中国の北京智源人工知能研究院（BAAI）が2024年1月に公開したオープンソースのテキスト埋め込みモデルである。名称の「M3」は Multi-linguality（多言語）、Multi-functionality（多機能）、Multi-granularity（多粒度）の3つの「M」に由来する。1つのモデルで Dense・Sparse・ColBERT の3種類のベクトル表現を同時生成でき、100言語以上・最大8,192トークンの入力に対応する。

主な特徴

Multi-linguality（多言語）: 100言語以上をサポート。英語・中国語・日本語・韓国語はもちろん、アラビア語・ヒンディー語・スワヒリ語等の低リソース言語でも高品質な埋め込みを生成
Multi-functionality（多機能）: 1モデルで3種類の検索方式を同時サポート
- Dense retrieval: 1024次元の密ベクトルによるセマンティック検索
- Sparse retrieval（Lexical）: 学習済みの疎ベクトルでBM25相当のキーワードマッチングを実現
- Multi-vector（ColBERT）: トークンレベルの細粒度マッチングで高精度なリランキング
Multi-granularity（多粒度）: 短文（クエリ）から長文（最大8,192トークン）まで対応。文・段落・文書レベルの検索に使える
パラメータ数: 568M（XLM-RoBERTa-largeベース）
ライセンス: MIT（商用利用可）
学習データ: RetroMAE前訓練 → 対照学習 → Self-Knowledge Distillation の3段階で訓練

Dense・Sparse・ColBERT の違い

方式	ベクトル形状	得意な場面	速度
Dense	1024次元の1ベクトル	セマンティック類似検索	高速
Sparse

ベンチマーク	BGE-M3	E5-Mistral	Voyage-3
MIRACL（多言語検索）	71.8 nDCG@10	64.2	—
MTEB Retrieval（英語）	58.4 nDCG@10	56.9	67.3
BEIR（英語14タスク平均）	51.8 nDCG@10	50.1	—
最大入力長	8,192 tokens	4,096 tokens	16,000 tokens

メニュー

BGE-M3（ビージーイーエムスリー）

メニュー

BGE-M3（ビージーイーエムスリー）

BGE-M3とは

主な特徴

Dense・Sparse・ColBERT の違い

この用語に関連するコンテンツ

ベンチマーク性能

利用方法

RAGでの活用パターン

関連モデルとの違い

よくある質問（FAQ）

まとめ

関連用語