SentencePiece語彙管理とは？（センテンスピース ゴイカンリ）わかりやすく解説

Q: SentencePiece語彙管理とは？

SentencePieceにおける語彙（ボキャブラリー）の構造・管理・最適化手法の総称で、語彙サイズの選定・特殊トークン設計・多言語バランス調整・語彙の分析と評価を包括的に扱う。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

SentencePiece語彙管理とは？（センテンスピースゴイカンリ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

語彙ファイルの構造

SentencePieceの学習により出力される.vocabファイルは、タブ区切りのテキスト形式で以下の構造を持つ：

&lt;unk>	0
&lt;s>	0
&lt;/s>	0
▁the	-2.3456
▁a	-3.4567
▁is	-3.7891
ing	-4.1234
▁機械	-8.9012
学習	-9.0123

各行は「サブワード（タブ）ログ確率」の形式で、確率が高い（値が0に近い）サブワードほど頻出する基本的なトークンである。

語彙サイズの設計指針

モデル規模と語彙サイズの関係

モデル規模	パラメータ数	推奨語彙サイズ	理由
Small	100M〜500M	16,000〜32,000	埋め込み層のパラメータ効率
Medium	1B〜7B	32,000〜64,000	カバレッジと効率のバランス
Large	13B〜70B	64,000〜128,000	トークン効率の最大化

モデル	語彙サイズ	年	増加の理由
BERT	30,522	2018	WordPiece、英語中心
GPT-2	50,257	2019	BPE、バイトレベル
T5	32,000	2019	SentencePiece Unigram
LLaMA 1/2	32,000	2023	SentencePiece BPE
Mistral	32,000	2023	LLaMA互換
GPT-4	100,256	2023	tiktoken、多言語拡張
LLaMA 3	128,256	2024	tiktoken、多言語大幅強化
Gemma	256,128	2024	SentencePiece Unigram、多言語最大

import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load('model.model')

# 語彙サイズの確認
print(f'語彙サイズ: {sp.get_piece_size()}')

# 特定トークンの確認
print(f'ID→トークン: {sp.id_to_piece(100)}')
print(f'トークン→ID: {sp.piece_to_id("▁the")}')

# トークンのスコア（ログ確率）
print(f'スコア: {sp.get_score(100)}')

# 特殊トークンの確認
print(f'UNK ID: {sp.unk_id()}')
print(f'BOS ID: {sp.bos_id()}')
print(f'EOS ID: {sp.eos_id()}')
print(f'PAD ID: {sp.pad_id()}')

指標	計算方法	良好な値
文字カバレッジ	語彙内文字 / 全文字	99.95%以上
トークン/文字比	全トークン数 / 全文字数	0.3〜0.6
UNK率	UNKトークン数 / 全トークン数	0%（byte_fallback時）
平均トークン長	全文字数 / 全トークン数	1.5〜4.0文字
語彙利用率	出現語彙数 / 全語彙サイズ	80%以上

def evaluate_vocabulary(sp, test_corpus_path):
    total_chars = 0
    total_tokens = 0
    unk_count = 0
    used_ids = set()

    with open(test_corpus_path, 'r') as f:
        for line in f:
            line = line.strip()
            total_chars += len(line)
            ids = sp.encode(line, out_type=int)
            total_tokens += len(ids)
            unk_count += ids.count(sp.unk_id())
            used_ids.update(ids)

    return {
        'token_char_ratio': total_tokens / total_chars,
        'unk_rate': unk_count / total_tokens,
        'vocab_utilization': len(used_ids) / sp.get_piece_size(),
        'avg_token_length': total_chars / total_tokens,
    }

言語	LLaMA 2 (32K)	LLaMA 3 (128K)	Gemma (256K)
英語	1.0x（基準）	1.0x	1.0x
フランス語	1.4x	1.1x	1.05x
日本語	3.2x	1.5x	1.2x
中国語	2.8x	1.4x	1.15x
韓国語	3.5x	1.6x	1.3x
アラビア語	2.1x	1.3x	1.1x

&lt;|begin_of_text|>     # テキスト開始
&lt;|start_header_id|>   # ヘッダー開始（system/user/assistant）
&lt;|end_header_id|>     # ヘッダー終了
&lt;|eot_id|>            # ターン終了
&lt;|end_of_text|>       # テキスト終了

メニュー

SentencePiece語彙管理（センテンスピースゴイカンリ）

メニュー

SentencePiece語彙管理（センテンスピースゴイカンリ）

この用語に関連するコンテンツ

SentencePiece語彙管理とは

語彙ファイルの構造

語彙サイズの設計指針

モデル規模と語彙サイズの関係

実例：主要モデルの語彙サイズ推移

語彙の分析手法

Python APIによる語彙探索

語彙カバレッジの評価

多言語語彙のバランス調整

Fertility（トークン増殖率）

語彙バランスの改善手法

特殊トークンの設計パターン

チャットモデル向け

コード生成モデル向け

よくある質問（FAQ）

まとめ

関連用語