2472件の用語
大規模言語モデルの学習データから低品質テキスト・有害コンテンツ・個人情報(PII)を自動検出・除外するフィルタリング技術。fastText分類器やperplexityベースのスコアリングが代表的な手法である。
LLMデータフライホイールとは、大規模言語モデルの本番運用で蓄積されるユーザーフィードバック・推論ログ・品質評価データを体系的に収集し、モデルの継続的改善に活用する好循環サイクルの総称である。データ収集→品質評価→サンプル選定→アノテーション→再学習→再デプロイの各段階を自動化パイプラインで結合することで、運用期間が長くなるほどモデル性能が加速度的に向上する仕組みを構築できる。
大規模言語モデルの学習データに対して行うテキスト正規化・クリーニング・言語判定・エンコーディング修正などの初期処理工程。生データを後続の品質フィルタリングやトークン化に適した形式に変換する。
LLMが特定のテキスト(個人情報・著作物・テストデータ)を訓練時に記憶し、プロンプト誘導によって再現・出力できる状態を検出・定量化する手法。記憶抽出攻撃と汚染検出の両面を含む。
LLMが生成したテキストに人間には見えない統計的パターンを埋め込み、後から出所を検証できる技術。
LLM(大規模言語モデル)がテキストを生成する際に、次のトークンを選択するアルゴリズムの総称。貪欲法・ビームサーチ・サンプリング系など複数の手法があり、生成品質・多様性・速度のトレードオフを制御する。
LLM(大規模言語モデル)の出力品質・安全性・信頼性を体系的に検証する手法の総称。従来のソフトウェアテストとは異なり、確率的な出力を扱うためファジーマッチング・LLM-as-Judge・統計的評価など独自のアプローチが必要となる。
LLMの推論フェーズにおいて追加の計算リソースを投入し、生成品質や正確性を向上させる手法の総称。訓練時の計算量(Train-Time Compute)に対し、推論時に計算を増やすことでモデルの実効性能を引き上げる考え方。
LLMアプリケーションの動作状況をリアルタイムに計測・収集・可視化する技術体系。トークン消費量、レイテンシ、エラー率、コストなどのメトリクスを統合的に監視し、本番環境での品質と費用対効果を継続的に最適化する。
LLMの投機的推論(Speculative Reasoning)とは、大規模言語モデルが複数の推論パスを並行して生成し、検証ステップで最も妥当な結果を選択する手法である。推論精度の向上とレイテンシ削減を両立させるアプローチとして2025年以降注目されている。
LLM投機的推論の応用分野とは、複数推論パスの並行生成と検証選択の手法が実際に活用されている具体的なドメインを指す。数学的推論、コード生成、科学的発見、医療診断支援、法的文書分析などで顕著な精度改善が報告されている。
LLM投機的推論の検証メカニズムとは、複数生成された推論パスの正確性を評価し、誤った推論を排除するための技術体系である。Process Reward Model(PRM)やOutcome Reward Model(ORM)、自己反省(Self-Reflection)などが含まれる。
LLM投機的推論のパフォーマンス最適化とは、複数推論パスの並行生成に伴う計算コスト増大を抑制しつつ推論精度を維持するための技術群である。適応的パス数制御、早期終了、キャッシュ活用などの手法が含まれる。
LLM投機的推論プロセスとは、仮説生成・自己検証・合意選択の3段階から成る推論手順である。モデルが複数の解答候補を生成し、論理的整合性を内部評価した上で最終回答を決定する一連のパイプラインを指す。
LLM(大規模言語モデル)がテキストを処理する際に、入力文字列を数値トークン列に変換するトークナイザーの設計思想・構成要素・アルゴリズム選択を体系的にまとめた技術概念。BPE・WordPiece・Unigram LM・SentencePieceなど複数の分割アルゴリズムと、語彙テーブル・特殊トークン・正規化ルールで構成される。
BPE・SentencePiece・WordPieceなどのサブワードトークナイザを学習データに適用し、テキストをトークンID列に変換する処理系。トークナイザの学習・適用・語彙管理を含む。
LLMの利用コストを決定するトークン単位の経済モデル。入力・出力トークン数に基づく従量課金体系と、プロンプトキャッシュ・バッチAPI・Provisioned Throughputなどを組み合わせた費用対効果の最適化フレームワークを指す。
LLM APIの課金単位であるトークンに基づく料金体系。入力トークンと出力トークンで異なる単価が設定され、モデルの性能クラスに応じて価格が大きく異なる。1トークンは英語で約4文字、日本語で約1〜2文字に相当する。
OpenAI・Anthropic・Google・DeepSeek等のLLMプロバイダーが採用するトークン単位の従量課金体系。入力と出力で異なる単価を設定し、バッチAPI割引・プロンプトキャッシュ割引・予約容量契約等の多層的な料金最適化オプションを提供する。
LLM APIへのリクエストごとにinput/outputトークン数を記録・集計し、コスト管理や使用パターン分析に活用する仕組み。プロバイダのレスポンスヘッダーやusageオブジェクトからデータを取得し、ユーザー別・機能別に按分する。