SentencePieceとは？（センテンスピース）わかりやすく解説

Q: SentencePieceとは？

Googleが開発したオープンソースのサブワードトークナイザーライブラリで、言語非依存の前処理不要なテキスト分割を実現し、LLaMA・T5・ALBERT等の主要LLMで広く採用されている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

SentencePieceとは？（センテンスピース）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

開発背景と設計思想

従来のトークナイザー（WordPiece等）は英語を前提とした空白分割（Pre-tokenization）を必要としていた。しかし日本語・中国語・タイ語のように単語間に空白を置かない言語では、形態素解析器（MeCab等）による前処理が必須となり、言語ごとに異なるパイプラインを構築する必要があった。

SentencePieceはこの問題を根本的に解決するため、以下の設計原則を採用している：

空白もトークンの一部として扱う：空白文字を特殊記号「▁」（U+2581）に置換し、テキスト全体を一つの連続した文字列として処理する
Unicode正規化の統合：NFKC正規化をトレーニングパイプラインに組み込み、表記揺れを自動的に統一する
可逆変換の保証：トークン列から元テキストを完全に復元できるロスレス変換を実現する
C++実装による高速処理：コア部分をC++で実装し、Python/Javaバインディングを提供する

主要アルゴリズム比較

項目	SentencePiece BPE	SentencePiece Unigram	WordPiece (BERT)	tiktoken (GPT)
開発元	Google	Google	Google	OpenAI
前処理	不要	不要	空白分割必須	正規表現分割

モデル	リリース年	語彙サイズ	アルゴリズム	備考
T5 / Flan-T5	2019/2022	32,000	Unigram	mC4コーパスで学習
ALBERT	2019	30,000	Unigram	語彙共有で軽量化
XLNet	2019	32,000	Unigram	Transformer-XL基盤
mBART	2020	250,000	Unigram	25言語対応
LLaMA / LLaMA 2	2023	32,000	BPE	Meta開発、英語中心
LLaMA 3	2024	128,256	BPE	tiktoken互換に拡張
Mistral 7B	2023	32,000	BPE	LLaMA互換語彙
Gemma / Gemma 2	2024	256,128	Unigram	Google最新モデル

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='corpus.txt',
    model_prefix='my_tokenizer',
    vocab_size=32000,
    model_type='unigram',  # または 'bpe'
    character_coverage=0.9995,
    num_threads=16
)

sp = spm.SentencePieceProcessor()
sp.load('my_tokenizer.model')

text = '自然言語処理は急速に進歩している'
tokens = sp.encode(text, out_type=str)
# ['▁', '自然', '言語', '処理', 'は', '急速', 'に', '進歩', 'している']

ids = sp.encode(text, out_type=int)
# [1, 4523, 8901, 3456, 12, 7890, 45, 6789, 2345]

decoded = sp.decode(ids)
# '自然言語処理は急速に進歩している'

メニュー

SentencePiece（センテンスピース）

メニュー

SentencePiece（センテンスピース）

この用語に関連するコンテンツ

SentencePieceとは

開発背景と設計思想

主要アルゴリズム比較

採用モデルと語彙サイズ一覧

インストールと基本的な使い方

インストール

モデルの学習

トークナイズの実行

HuggingFace Transformersとの統合

よくある質問（FAQ）

まとめ

関連用語