SentencePiece Unigramモデルとは？（センテンスピース ユニグラムモデル）わかりやすく解説

Q: SentencePiece Unigramモデルとは？

SentencePieceに実装されたUnigramサブワード分割アルゴリズムで、確率的言語モデルに基づくトップダウン方式の語彙最適化により、BPEより高い圧縮率と柔軟なトークン化を実現する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

SentencePiece Unigramモデルとは？（センテンスピースユニグラムモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アルゴリズムの仕組み

学習フェーズ（語彙構築）

Unigramモデルの学習は以下の3ステップで進行する：

初期語彙の構築：コーパスから出現する全ての部分文字列（サブストリング）を抽出し、目標語彙サイズの10〜20倍の初期候補を生成する（通常100万〜500万候補）
EMアルゴリズムによる確率推定：各サブワードの出現確率を期待値最大化（EM）アルゴリズムで推定する。E-stepでViterbiアルゴリズムにより最適分割を計算し、M-stepで頻度から確率を再推定する
語彙の削減：各サブワードを語彙から除外した場合のコーパス尤度の減少量（センテンスピースロス）を計算し、影響の小さいサブワードを順次削除する。目標語彙サイズに達するまで繰り返す

推論フェーズ（トークン化）

学習済みモデルによるトークン化では、Viterbiアルゴリズムを用いて入力テキストの最尤分割を求める：

P(x) = Π p(xi)  where x = (x1, x2, ..., xn) は最適分割
x* = argmax P(x)  Viterbiで効率的に計算

BPEとの比較

比較項目	Unigram	BPE
語彙構築方向	トップダウン（削減）	ボトムアップ（結合）
分割の決定論性	確率的（複数候補可能）	決定論的（一意）
学習計算量	O(N × V²) 大

import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load('unigram_model.model')

text = '機械学習'
# 最尤分割（デフォルト）
best = sp.encode(text, out_type=str)
# ['▁機械', '学習']

# 確率的サンプリング（nbest_size=-1, alpha=0.1）
for _ in range(5):
    sampled = sp.encode(text, out_type=str, enable_sampling=True, alpha=0.1, nbest_size=-1)
    print(sampled)
# ['▁機', '械', '学習']
# ['▁機械', '学', '習']
# ['▁機械', '学習']  ← 最尤と同じ
# ['▁', '機', '械', '学', '習']
# ['▁機械学習']

パラメータ	推奨値	説明
`vocab_size`	32,000〜256,000	語彙サイズ。多言語では大きめ
`character_coverage`	0.9995	CJK言語では0.9995推奨
`num_sub_iterations`	2	EMアルゴリズムの内部反復数
`shrinking_factor`	0.75	各ステップで語彙を75%に削減
`max_sentencepiece_length`	16	1トークンの最大文字数
`seed_sentencepiece_size`	1,000,000	初期候補サイズ
`input_sentence_size`	0 (全件)	学習に使う文数

メニュー

SentencePiece Unigramモデル（センテンスピースユニグラムモデル）

メニュー

SentencePiece Unigramモデル（センテンスピースユニグラムモデル）

この用語に関連するコンテンツ

SentencePiece Unigramモデルとは

アルゴリズムの仕組み

学習フェーズ（語彙構築）

推論フェーズ（トークン化）

BPEとの比較

サブワード正則化

主要パラメータ設定ガイド

実用例：多言語モデルでの活用

よくある質問（FAQ）

まとめ

関連用語