11000件の用語
LLM創発的能力(Emergent Abilities)とは、大規模言語モデルのパラメータ数や訓練データ量が一定の閾値を超えた際に、小規模モデルでは観測されなかった新たな能力が突然出現する現象を指す。Chain-of-Thought推論、In-Context Learning、多桁演算などが代表例として挙げられるが、2023年以降その解釈は論争の的となっている。
LLMが回答を生成する際に参照した情報源のURLやドキュメント名を回答に付記する機能で、ユーザーが出典を確認・検証できるようにする仕組み。
LLM生成テキストに統計的検出可能なシグナルを埋め込む手法。Greenlist/Redlistトークン選択で生成分布を偏らせる。
複数のLLM呼び出しを直列に連鎖させ、前段の出力を次段のプロンプトに組み込むことで、単一呼び出しでは困難な複雑なタスクを段階的に解決する手法。
大規模な教師モデル(Teacher)の知識を小規模な生徒モデル(Student)に転写する圧縮技術。モデルサイズを10-50倍縮小しつつ教師の80-95%の性能を維持する。TinyLlama、Phi-4 Mini、Gemma 2 2Bなどが代表的な蒸留モデルである。
LLM知識蒸留データとは、大規模な教師モデル(GPT-4・Claude等)の出力を収集して小型の生徒モデルの学習に使用するデータであり、Orca方式やAlpaca方式が代表的な蒸留データ生成手法である。
LLMの出力が入力コンテキスト(ソース文書・プロンプト・検索結果)に対してどれだけ正確に沿っているかを定量的に測定する評価手法。要約・QA・RAGシステムの品質管理に不可欠。
LLMが具体例を超えて一般的なパターンや関係性を認識・適用する能力。アナロジー推論・規則帰納・関係推論などを含み、AGI研究の中核テーマ。
LLMが外部ツールやAPIを呼び出して情報取得・計算・データ操作などを自律的に行う機能。テキスト生成だけでは対応できないリアルタイム検索や数値計算を補完し、AIアシスタントの実用性を大幅に高める技術である。
LLMの重み行列を低ランクの行列積に分解してパラメータ数を削減する手法。LoRA(Low-Rank Adaptation)の理論的基盤であり、SVD分解やTensor Decompositionを用いてモデルの冗長性を除去する。
LLMの訓練データにベンチマークや評価用データが混入し、モデルの性能測定が不正確になる現象。公平な評価を阻害する重大な課題として研究が進む。
LLMの学習に使用するデータセットを収集・選別・整理・品質管理する一連のプロセス。モデル性能の80%以上がデータ品質に依存するとされ、近年最も注目される研究領域の一つ。
LLM(大規模言語モデル)の学習データを収集・選別・品質管理する一連のプロセス。CommonCrawl等の大規模Webコーパスから有害コンテンツ除去・重複排除・品質フィルタリングを行い、高品質な学習データセットを構築する。
LLMデータキュレーションパイプラインとは、ファインチューニング用データセットの収集・クリーニング・フィルタリング・重複排除・品質スコアリング・多様性確保を体系的に管理するワークフローである。Argilla・Label Studio・Lilac等のツールが主流で、データ品質がモデル品質を決定する。
LLMの学習データセットから重複・類似テキストを検出・除去する技術。MinHash LSHやSuffix Arrayなどのアルゴリズムを用い、学習効率の向上とmemorization(暗記)リスクの軽減を実現する。
LLM(大規模言語モデル)を活用して非構造化テキストや文書から構造化データを自動的に抽出する技術。従来の正規表現やルールベースNLPでは対応困難だった曖昧な表現や文脈依存の情報を、LLMの言語理解能力によって高精度に抽出できる。
大規模言語モデルの学習データから重複・類似コンテンツを検出・除去する技術。完全一致(Exact Dedup)と近似一致(Fuzzy Dedup)の2段階で実施し、MinHash LSHやSimHashが代表的なアルゴリズムである。
大規模言語モデル(LLM)の学習に必要なデータを収集・前処理・品質管理・トークン化する一連のワークフロー。Common CrawlやFineWebなどの大規模コーパスを入力とし、学習可能な形式に変換する。
大規模言語モデルの学習データから低品質テキスト・有害コンテンツ・個人情報(PII)を自動検出・除外するフィルタリング技術。fastText分類器やperplexityベースのスコアリングが代表的な手法である。
LLMの訓練データや微調整データに意図的に汚染データを混入し、特定の入力に対して攻撃者が望む誤動作を引き起こすバックドア攻撃手法。