2472件の用語
LLM生成テキストに統計的検出可能なシグナルを埋め込む手法。Greenlist/Redlistトークン選択で生成分布を偏らせる。
LLM(大規模言語モデル)の学習時にモデル出力と正解の乖離を数値化する関数。Cross-Entropy Loss を基本とし、RLHF や DPO など人間の選好を反映する損失関数が 2024-2026 年に急速に多様化した。損失関数の設計がモデルの品質・安全性・効率を左右する。
複数のLLM呼び出しを直列に連鎖させ、前段の出力を次段のプロンプトに組み込むことで、単一呼び出しでは困難な複雑なタスクを段階的に解決する手法。
大規模な教師モデル(Teacher)の知識を小規模な生徒モデル(Student)に転写する圧縮技術。モデルサイズを10-50倍縮小しつつ教師の80-95%の性能を維持する。TinyLlama、Phi-4 Mini、Gemma 2 2Bなどが代表的な蒸留モデルである。
LLM知識蒸留データとは、大規模な教師モデル(GPT-4・Claude等)の出力を収集して小型の生徒モデルの学習に使用するデータであり、Orca方式やAlpaca方式が代表的な蒸留データ生成手法である。
LLM知識転移(Knowledge Transfer)とは、事前学習済みの大規模言語モデルが保持する言語理解・生成能力・ドメイン知識を、異なるアーキテクチャやサイズのモデル、あるいは異なるタスクに効率的に移転する技術の総称である。
LLMの出力が入力コンテキスト(ソース文書・プロンプト・検索結果)に対してどれだけ正確に沿っているかを定量的に測定する評価手法。要約・QA・RAGシステムの品質管理に不可欠。
LLMが具体例を超えて一般的なパターンや関係性を認識・適用する能力。アナロジー推論・規則帰納・関係推論などを含み、AGI研究の中核テーマ。
LLMが外部ツールやAPIを呼び出して情報取得・計算・データ操作などを自律的に行う機能。テキスト生成だけでは対応できないリアルタイム検索や数値計算を補完し、AIアシスタントの実用性を大幅に高める技術である。
OpenAI/Anthropic が提唱した手法で、2つの LLM エージェントが特定の主張について議論を交わし、人間またはジャッジモデルが最終判定を行うことで超人的タスクのアライメントを実現するアプローチ。
LLMの重み行列を低ランクの行列積に分解してパラメータ数を削減する手法。LoRA(Low-Rank Adaptation)の理論的基盤であり、SVD分解やTensor Decompositionを用いてモデルの冗長性を除去する。
LLMの訓練データにベンチマークや評価用データが混入し、モデルの性能測定が不正確になる現象。公平な評価を阻害する重大な課題として研究が進む。
大規模言語モデル(LLM)の訓練・ファインチューニングにおいて、既存のデータセットを変換・合成して訓練データ量と多様性を増加させる技法群。Back-Translation・Paraphrase・Self-Instruct・Synthetic QA 生成などの手法があり、データ不足やドメイン偏りの課題を解決する。
LLM(大規模言語モデル)の学習データを収集・選別・品質管理する一連のプロセス。CommonCrawl等の大規模Webコーパスから有害コンテンツ除去・重複排除・品質フィルタリングを行い、高品質な学習データセットを構築する。
LLMの学習に使用するデータセットを収集・選別・整理・品質管理する一連のプロセス。モデル性能の80%以上がデータ品質に依存するとされ、近年最も注目される研究領域の一つ。
LLMデータキュレーションパイプラインとは、ファインチューニング用データセットの収集・クリーニング・フィルタリング・重複排除・品質スコアリング・多様性確保を体系的に管理するワークフローである。Argilla・Label Studio・Lilac等のツールが主流で、データ品質がモデル品質を決定する。
LLMの学習データセットから重複・類似テキストを検出・除去する技術。MinHash LSHやSuffix Arrayなどのアルゴリズムを用い、学習効率の向上とmemorization(暗記)リスクの軽減を実現する。
LLM(大規模言語モデル)を活用して非構造化テキストや文書から構造化データを自動的に抽出する技術。従来の正規表現やルールベースNLPでは対応困難だった曖昧な表現や文脈依存の情報を、LLMの言語理解能力によって高精度に抽出できる。
大規模言語モデルの学習データから重複・類似コンテンツを検出・除去する技術。完全一致(Exact Dedup)と近似一致(Fuzzy Dedup)の2段階で実施し、MinHash LSHやSimHashが代表的なアルゴリズムである。
大規模言語モデル(LLM)の学習に必要なデータを収集・前処理・品質管理・トークン化する一連のワークフロー。Common CrawlやFineWebなどの大規模コーパスを入力とし、学習可能な形式に変換する。