Top-k サンプリングとは？（トップケーサンプリング）わかりやすく解説

LLMのテキスト生成で確率上位k個のトークンのみを候補として残し、それ以外を除外した上でサンプリングする手法。kの値が小さいほど出力は決定的になり、大きいほど多様性が増す。シンプルで計算コストが低い反面、確率分布の形状に適応できない制約がある。

Top-k サンプリングとは？（トップケーサンプリング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

動作原理

Top-k サンプリングの処理は以下のステップで行われる。

Top-k の最大の弱点は、確率分布の形状に関わらず常に固定数のトークンを候補にする点である。次のトークンがほぼ確定している場面（例: 「東京」の後の「都」）でも k=40 なら39個の不要なトークンが候補に残り、逆に多くの選択肢が妥当な場面ではk個に絞ることで有効な選択肢を除外してしまう。

OpenAI API と Anthropic API は Top-k パラメータを直接公開しておらず、Top-p による制御を推奨している。ローカル LLM ランタイム（llama.cpp、Ollama、LM Studio）では Top-k が標準パラメータとして提供される。

A1: 一般的には Top-p の方が適応的で優れているとされる。ただしローカル LLM では Top-k がデフォルトで有効なことが多く、k=40 + top_p=0.9 の併用が実用的。

A2: 結果はほぼ同じ（最も確率の高いトークンを選択）だが、実装上は異なる。k=1 はフィルタリング後にサンプリング、Temperature=0 はソフトマックス段階で確率を集中させる。

A3: k が語彙サイズ（32,000〜128,000）に近づくと事実上フィルタなしと同じになり、Temperature だけで制御する状態になる。計算リソースの無駄は少ないが、低確率トークンが選ばれるリスクが増す。