用語集

LLMソース引用（エルエルエムソースインヨウ）

LLMが回答を生成する際に参照した情報源のURLやドキュメント名を回答に付記する機能で、ユーザーが出典を確認・検証できるようにする仕組み。

LLM ソフトウォーターマーク（エルエルエムソフトウォーターマーク）

LLM生成テキストに統計的検出可能なシグナルを埋め込む手法。Greenlist/Redlistトークン選択で生成分布を偏らせる。

LLMチェイニング（エルエルエムチェイニング）

複数のLLM呼び出しを直列に連鎖させ、前段の出力を次段のプロンプトに組み込むことで、単一呼び出しでは困難な複雑なタスクを段階的に解決する手法。

LLM知識蒸留（エルエルエムチシキジョウリュウ）

大規模な教師モデル（Teacher）の知識を小規模な生徒モデル（Student）に転写する圧縮技術。モデルサイズを10-50倍縮小しつつ教師の80-95%の性能を維持する。TinyLlama、Phi-4 Mini、Gemma 2 2Bなどが代表的な蒸留モデルである。

LLM知識蒸留データ（Knowledge Distillation Data）（エルエルエムチシキジョウリュウデータ）

LLM知識蒸留データとは、大規模な教師モデル（GPT-4・Claude等）の出力を収集して小型の生徒モデルの学習に使用するデータであり、Orca方式やAlpaca方式が代表的な蒸留データ生成手法である。

LLM忠実性評価（エルエルエムチュウジツセイヒョウカ）

LLMの出力が入力コンテキスト（ソース文書・プロンプト・検索結果）に対してどれだけ正確に沿っているかを定量的に測定する評価手法。要約・QA・RAGシステムの品質管理に不可欠。

LLM 抽象推論（エルエルエムちゅうしょうすいろん）

LLMが具体例を超えて一般的なパターンや関係性を認識・適用する能力。アナロジー推論・規則帰納・関係推論などを含み、AGI研究の中核テーマ。

LLMツールユース（エルエルエムツールユース）

LLMが外部ツールやAPIを呼び出して情報取得・計算・データ操作などを自律的に行う機能。テキスト生成だけでは対応できないリアルタイム検索や数値計算を補完し、AIアシスタントの実用性を大幅に高める技術である。

LLM低ランク分解（エルエルエムテイランクブンカイ）

LLMの重み行列を低ランクの行列積に分解してパラメータ数を削減する手法。LoRA（Low-Rank Adaptation）の理論的基盤であり、SVD分解やTensor Decompositionを用いてモデルの冗長性を除去する。

LLMデータ汚染（エルエルエムデータオセン）

LLMの訓練データにベンチマークや評価用データが混入し、モデルの性能測定が不正確になる現象。公平な評価を阻害する重大な課題として研究が進む。

LLMデータキュレーション（エルエルエムデータキュレーション）

LLMの学習に使用するデータセットを収集・選別・整理・品質管理する一連のプロセス。モデル性能の80%以上がデータ品質に依存するとされ、近年最も注目される研究領域の一つ。

LLMデータキュレーション（エルエルエムデータキュレーション）

LLM（大規模言語モデル）の学習データを収集・選別・品質管理する一連のプロセス。CommonCrawl等の大規模Webコーパスから有害コンテンツ除去・重複排除・品質フィルタリングを行い、高品質な学習データセットを構築する。

LLMデータキュレーションパイプライン（エルエルエムデータキュレーションパイプライン）

LLMデータキュレーションパイプラインとは、ファインチューニング用データセットの収集・クリーニング・フィルタリング・重複排除・品質スコアリング・多様性確保を体系的に管理するワークフローである。Argilla・Label Studio・Lilac等のツールが主流で、データ品質がモデル品質を決定する。

LLMデータ重複除去（エルエルエムデータジュウフクジョキョ）

LLMの学習データセットから重複・類似テキストを検出・除去する技術。MinHash LSHやSuffix Arrayなどのアルゴリズムを用い、学習効率の向上とmemorization（暗記）リスクの軽減を実現する。

LLMデータ抽出（エルエルエムデータチュウシュツ）

LLM（大規模言語モデル）を活用して非構造化テキストや文書から構造化データを自動的に抽出する技術。従来の正規表現やルールベースNLPでは対応困難だった曖昧な表現や文脈依存の情報を、LLMの言語理解能力によって高精度に抽出できる。

LLMデータ重複排除（エルエルエムデータチョウフクハイジョ）

大規模言語モデルの学習データから重複・類似コンテンツを検出・除去する技術。完全一致（Exact Dedup）と近似一致（Fuzzy Dedup）の2段階で実施し、MinHash LSHやSimHashが代表的なアルゴリズムである。

初級

LLMデータパイプライン（エルエルエムデータパイプライン）

大規模言語モデル（LLM）の学習に必要なデータを収集・前処理・品質管理・トークン化する一連のワークフロー。Common CrawlやFineWebなどの大規模コーパスを入力とし、学習可能な形式に変換する。

LLMデータ品質フィルタリング（エルエルエムデータヒンシツフィルタリング）

大規模言語モデルの学習データから低品質テキスト・有害コンテンツ・個人情報（PII）を自動検出・除外するフィルタリング技術。fastText分類器やperplexityベースのスコアリングが代表的な手法である。