2472件の用語
LM Studio v0.3.10+詳細設定。MLX Engine (Apple Silicon M2/M3/M4 Native最適化)・CUDA Backend (RTX 3000/4000/5000)・ROCm 6.4 Backend (RX 7000+/9070+)・Vulkan Backend・GPU Offload Layer (-1全部・部分)・Context Length 8192-128K・Flash Attention・KV Cache f16/q8_0/q4_0・Mlock/Mmap・Server Mode (OpenAI互換)・¥0、2026年MLX Apple M4 LLM最強。
ローカルLLM実行GUI。LM Studio 0.4.2(2026年Q1・OpenAI API互換)・Jan.ai 0.5・GPT4All 3.10・text-generation-webui(oobabooga)・AnythingLLM・Msty・Ollama WebUI(Open WebUI)・Enchanted(macOS)・Private LLM・Cherry Studio・Faraday.dev・Llamafile(Mozilla)代表、2026年Mac/Win/Linux対応普及期。
Shanghai AILabが開発したLLM推論・デプロイフレームワーク。TurboMind推論エンジンを搭載しvLLM比で最大1.8倍のスループットを実現。Quantization(AWQ/GPTQ/W4A16/W8A8)・INT4/INT8キャッシュ量子化・Infight Batching・Prefix Cachingを統合した商用グレードのサービング基盤。
2024年InternLM Shanghai AI Lab発表LMDeploy・Industry-leading TurboMind C++ runtime + Industry-leading 1.8x throughput vs vLLM + Industry-leading W4A16 quantization + Industry-leading Apache 2.0 Shanghai AI Lab LLM serving framework。
LLMのトークン生成時にJSON Schema・正規表現などのフォーマット制約をトークンレベルで強制するPythonライブラリ。Transformers・vLLM・ExLlamaV2等に対応。
概要
LLM の生テキスト出力を構造化データに変換するコンポーネント。JSON、リスト、キー値ペアなどのフォーマットを解析し、アプリケーションが扱えるデータ構造に変換する。
LLMがリアルタイムでウェブ検索を実行し、最新情報を回答に反映する機能。ChatGPT Search・Perplexity・Gemini with Google Search・Claude with Web Search等が代表例で、知識カットオフ問題を解消する。
LLM 推論時の KV キャッシュがメモリ上限に達した際に、不要なエントリを追い出して新しいデータのための空きを確保するメモリ管理戦略。LRU、スコアベース、ウィンドウ方式などがある。
LLM の推論リクエストにおいて、KV キャッシュやプレフィックスキャッシュが再利用された割合。ヒット率が高いほど Prefill 処理がスキップされ、レイテンシとコストが削減される。
LLMがPythonなどのコードを生成し、サンドボックス環境で実際に実行して結果をフィードバックとして受け取る機能。ChatGPTのCode Interpreter(Advanced Data Analysis)・Anthropic Claude・Gemini Code Executionが代表例。
LLM API で同一のシステムプロンプトやプレフィックスを繰り返し送信する際に、サーバー側で処理済みの中間状態をキャッシュして再利用する技術。レイテンシとコストを大幅に削減する。
LLM の構造化出力が事前定義した JSON Schema に準拠しているか検証するプロセス。Constrained Decoding によるモデル側制約と、アプリケーション側の後処理検証の 2 層で実現する。
LLMが外部ツール・APIを呼び出せるようにする機能。モデルはユーザーの意図に応じてJSON形式の関数呼び出し命令を生成し、アプリ側がその結果を受け取って実行する。OpenAI GPT-4・Claude・Geminiが対応する。
複数の LLM 推論リクエスト間で、共通するプロンプトプレフィックス部分の KV キャッシュを共有・再利用する技術。同一システムプロンプトを使う複数ユーザーのリクエストを効率化する。
トレーニング済みLLMを推論リクエストに応答できる形でデプロイする技術基盤。スループット・レイテンシ・コスト効率のトレードオフを管理し、vLLM/TGI/TensorRT-LLMなど専用エンジンでバッチ処理・連続バッチング・KVキャッシュを最適化する。
LLM が敵対的入力・分布外データ・ノイズ・攻撃に対してどの程度安定した出力を維持できるかを定量評価するプロセス。HarmBench・AdvBench・WildGuard 等の標準ベンチマークで実施される。
LLM(大規模言語モデル)が一度に処理できるトークン数の上限を大幅に拡張した技術。従来の4K〜8Kトークンから128K〜10Mトークンへと飛躍的に増加し、長大な文書の要約・分析や複数文書の横断的な質問応答が可能になった。GPT-4 Turbo(128K)、Claude 3.5(200K)、Gemini 1.5 Pro(2M)などが代表例。
LLMが生成した自然言語テキストから構造化データ(JSON、XML、テーブル、リストなど)を抽出・解析する技術。正規表現、専用パーサー、再帰的修正プロンプトなどの手法で、プログラムが処理可能な形式に変換する。
LLMの出力が事前定義したルール・スキーマ・品質基準に適合しているかを検証し、不適合な場合に修正・リトライ・フォールバックを行う機構。Guardrails AI、Instructor、Pydanticバリデーターなどのツールが提供し、LLMアプリケーションの信頼性を担保する。