2472件の用語
LLM(大規模言語モデル)の推論処理を高速化・省メモリ化するための総合的な技術体系。量子化・KVキャッシュ最適化・バッチング戦略・アテンション高速化などを組み合わせ、レイテンシ削減とスループット向上を実現する。
LLM推論チェーンとは、大規模言語モデルが複雑な問題を解決する際に、中間的な推論ステップを連鎖的に生成しながら最終回答へ到達する手法の総称である。Chain-of-Thought(CoT)を代表とし、2022年のGoogle Brain論文以降急速に発展した。
LLM推論バッチングは、複数の推論リクエストを束ねて同時に処理するスケジューリング技術。Static Batching(静的バッチング)・Dynamic Batching(動的バッチング)・Continuous Batching(連続バッチング)の3段階で進化し、GPUのTensor Core稼働率とメモリ帯域利用率を最大化する。連続バッチングの導入によりスループットは静的バッチング比で2〜5倍向上し、現代の推論エンジンの標準技術となっている。
LLM透かし回避手法とは、AI生成テキストに埋め込まれた統計的透かしを無効化・弱体化する技術の総称であり、パラフレーズ攻撃・翻訳ループ・トークン置換・蒸留攻撃など複数の手法が存在する。
LLM透かし検出とは、大規模言語モデルが生成したテキストに埋め込まれた統計的透かし(ウォーターマーク)を検出する技術であり、AI生成コンテンツの識別・追跡・著作権保護に活用される。
LLM透かし検出ツールとは、テキストに埋め込まれたLLM透かし(ウォーターマーク)を検出・分析するためのソフトウェアやAPIサービスの総称であり、GPTZero・Originality.ai・SynthID Detectorなどの商用サービスからオープンソース実装まで多様な選択肢がある。
LLM透かし蒸留攻撃とは、透かし付きLLMの出力を教師データとして別のモデルを学習させることで、透かしなしのテキスト生成能力を獲得する手法であり、LLM透かし技術の根本的な脆弱性として研究が進められている。
LLMスケーリング則とは、大規模言語モデルのパラメータ数・訓練データ量・計算量を増大させると、モデルの性能(損失)がべき乗則(Power Law)に従って予測可能に改善されるという経験的法則である。2020年のKaplan et al.論文で体系化され、GPT-4やLlama 3など現代の大規模モデル設計の理論的基盤となっている。
LLMの出力をJSON、XMLなど事前定義されたスキーマに厳密に準拠させる機能。OpenAI structured outputs、Anthropic tool_use、Google Gemini controlled generationなど各プロバイダが独自実装を提供し、アプリケーション統合の信頼性を飛躍的に向上させる。
LLMが生成したトークンを全文完成を待たずに逐次クライアントへ送信する出力方式。ユーザーの体感待ち時間を大幅に短縮し、ChatGPTやClaudeなどの対話型AIサービスで標準的に採用されている。
LLMの重みの多くをゼロにすることでメモリ削減・推論高速化を図る技術群。非構造化・半構造化・構造化の3カテゴリが存在する。
LLMの重み行列においてほとんどの値をゼロに近づけることでメモリ削減と演算効率化を実現するモデル圧縮アプローチの総称。
大規模言語モデル(LLM)の訓練時に過学習を防ぎ汎化性能を高めるための正則化手法群。Dropout・Weight Decay・Label Smoothing・Gradient Clipping などが代表的で、モデル規模が巨大になるほど適切な組み合わせと強度調整が精度・安定性の鍵を握る。
LLMの出力が人間の意図・価値観・倫理基準に沿うよう調整する技術領域の総称。RLHF・Constitutional AI・Guardrails等の手法を包括し、有害出力の抑制と有用性の維持を両立させる。
LLM Semantic Router(セマンティックルーター)とは、ユーザークエリの意味的内容をベクトル埋め込みで分類し、適切な処理パス(モデル・ツール・ワークフロー)へ高速に振り分ける仕組みである。LLM を呼び出さずにルーティング判定を行うため、レイテンシ 1-5ms で動作する。
Self-Consistency(自己一貫性)とは、大規模言語モデル(LLM)の推論精度を向上させるデコーディング手法であり、同一の問題に対して複数の推論パス(Chain-of-Thought)をサンプリングし、最終回答の多数決(majority voting)によって最も一貫性のある答えを選択するアプローチである。Wang et al.(2022)の論文 "Self-Consistency Improves Chain of Thought Reasoning in Language Models" で提案され、greedy decodingと比較してGSM8Kで+17.9%、SVAMPで+11.0%の精度向上を達成した。
LLMが自分自身のコピーや過去バージョンと対戦・対話することで、外部の人間フィードバックなしに応答品質を向上させる学習パラダイム。SPIN・Self-Rewarding LM・Debate などの手法が含まれる。
不確実性が高い質問に対してLLMが回答を保留・棄権する能力。回答精度と棄権率のトレードオフを最適化し、高信頼な回答のみ出力する手法。
LLM創発的能力(Emergent Abilities)とは、大規模言語モデルのパラメータ数や訓練データ量が一定の閾値を超えた際に、小規模モデルでは観測されなかった新たな能力が突然出現する現象を指す。Chain-of-Thought推論、In-Context Learning、多桁演算などが代表例として挙げられるが、2023年以降その解釈は論争の的となっている。
LLMが回答を生成する際に参照した情報源のURLやドキュメント名を回答に付記する機能で、ユーザーが出典を確認・検証できるようにする仕組み。