SentencePieceトレーナーとは？（センテンスピーストレーナー）わかりやすく解説

Q: SentencePieceトレーナーとは？

SentencePieceの語彙学習エンジンで、BPEまたはUnigramアルゴリズムを使用して生テキストコーパスからカスタムトークナイザーモデルを構築する。語彙サイズ・文字カバレッジ・正規化ルール等の詳細なパラメータ制御が可能。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

SentencePieceトレーナーとは？（センテンスピーストレーナー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

基本的な使い方

コマンドライン

spm_train \
  --input=corpus.txt \
  --model_prefix=my_sp \
  --vocab_size=32000 \
  --model_type=unigram \
  --character_coverage=0.9995 \
  --num_threads=16 \
  --input_sentence_size=10000000 \
  --shuffle_input_sentence=true

Python API

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='corpus.txt',
    model_prefix='my_sp',
    vocab_size=32000,
    model_type='unigram',
    character_coverage=0.9995,
    num_threads=16,
    input_sentence_size=10000000,
    shuffle_input_sentence=True,
    normalization_rule_name='nfkc',
    byte_fallback=True,
    split_digits=True,
    allow_whitespace_only_pieces=True,
    remove_extra_whitespaces=False,
    max_sentencepiece_length=16,
    add_dummy_prefix=True,
    unk_id=0,
    bos_id=1,
    eos_id=2,
    pad_id=-1,
    user_defined_symbols=['&lt;mask>', '&lt;sep>'],
)

主要パラメータ一覧

パラメータ	デフォルト	推奨範囲	説明
`vocab_size`	8,000	16,000〜256,000	目標語彙サイズ
`model_type`

トークン	デフォルトID	用途	カスタマイズ例
`<unk>`	0	未知語	変更不推奨
`<s>`	1	文頭（BOS）	`bos_id=1`
`</s>`	2	文末（EOS）	`eos_id=2`
`<pad>`	-1 (無効)	パディング	`pad_id=3`
ユーザー定義	-	マスク等	`user_defined_symbols=['<mask>']`

モデル規模	推奨コーパスサイズ	学習時間（16スレッド）
小規模（1B以下）	100MB〜1GB	10分〜1時間
中規模（1B〜10B）	1GB〜10GB	1〜6時間
大規模（10B以上）	10GB〜100GB	6〜48時間

メニュー

SentencePieceトレーナー（センテンスピーストレーナー）

メニュー

SentencePieceトレーナー（センテンスピーストレーナー）

この用語に関連するコンテンツ

SentencePieceトレーナーとは

基本的な使い方

コマンドライン

Python API

主要パラメータ一覧

特殊トークンの制御

コーパス準備のベストプラクティス

データ形式

データ量の目安

多言語コーパスの調整

出力ファイルの構造

.modelファイル

.vocabファイル

よくある質問（FAQ）

まとめ

関連用語