2472件の用語
LLMの推論においてプロンプトの前半(プレフィックス)のKVキャッシュを保存・再利用することで、同じシステムプロンプトを繰り返し使うコストとレイテンシを削減する最適化技術。
Transformer の各層の Key-Value ペアに学習可能な連続ベクトル(Prefix)を挿入するパラメータ効率的ファインチューニング手法。Prompt Tuning が入力 embedding 層のみに作用するのに対し、Prefix Tuning は全層の Attention に介入するため、より細かな制御が可能。
入力の先頭部分(Prefix)に双方向自己注意、後続部分に因果的(一方向)自己注意を適用するハイブリッドLMアーキテクチャ。GLM・ChatGLMシリーズで採用され、理解と生成を単一モデルで高精度に実行する。
2024年Industry-emerging LLM inference paradigm・Prefill phase + Decode phase separation architecture・LLM inference 2-phase characterization + Compute-intensive Prefill + Memory-bandwidth-intensive Decode + Industry-emerging Disaggregated Inference paradigm 2024年wave concept foundation・Mooncake + SplitWise + DistServe + vLLM Disaggregated + 多Industry-emerging research papers + production systems共有concept foundation・Industry-leading paradigm shift 2024年・GPU pool specialization + Industry-leading inference throughput + Industry-leading inference latency optimization。
2024年Q3 Avi Schiffmann (元19歳開発者・NCOV2019 Live COVID tracker 2020年バイラル成功) 設立Friend Inc発表のFriend AI Pendant・$99 one-time purchase (Subscription無・1-time payment + No recurring revenue model)・Emotional AI companion (Always-listening Pendant + Personal AI friend interaction + Text message-style replies + Emotional support + Companionship-focused AI use case + Personality persistent character)・Cloud-only processing + 15-hour battery + Pendant strap wear-mode + Bluetooth + iOS/Android app interaction・Controversial product positioning ($1.8M domain purchase friend.com + Always-listening privacy concern + Emotional AI ethical debate + Lonely audience targeting controversy) + AI Emotional companion category pioneer。
LLMのフルファインチューニングをランダム射影で低ランク勾配更新に変換するメモリ効率化手法。Han et al. 2024提案。LoRAと異なりウェイト行列の構造を変えず、オプティマイザ状態のメモリを削減しながらフルFTに近い精度を達成する。
Microsoftが2024年発表の統合ビジョン基盤モデル。キャプション・検出・グラウンディング・OCRを単一Seq2Seqアーキテクチャで処理。FLD-5Bデータセットで学習。
LLMが数値計算や論理的推論をPythonコードとして生成し、コードインタープリタで実行して正確な答えを得るプロンプト手法。
2023年Liu et al. + UC Berkeley発表Blockwise Parallel Transformer paper・Industry-leading Blockwise computation memory efficient + Industry-emerging Blockwise Attention UC Berkeley Pioneer。
2023年にKonstantinos Mishchenko・Aaron Defazzio(Meta・Samsung)が提案した学習率ハイパーパラメータ不要のLLM向けオプティマイザー。プロキシ距離推定によって最適学習率を自動適応し、グリッドサーチなしでAdamW相当以上の性能を達成する。
Pryzant et al.(2023)が提案した自動プロンプト最適化手法。LLM が失敗したケースをテキスト形式で批評し、その批評を「テキスト勾配」として使ってプロンプトを反復改善する。
Frontier大規模言語モデル比較。Anthropic Claude Opus 4.7 1M context・Claude Sonnet 4.6・OpenAI GPT-5・GPT-4o-mini・o3 Pro・Google Gemini 2.5 Pro/Flash・Meta Llama 4 (Maverick/Scout MoE)・Qwen3 235B/72B/32B (Alibaba)・DeepSeek V3/R1 671B・xAI Grok 3・Mistral Large 2 Medium 25.01・Reka Core 2、2026年Reasoning競争主流。
2024年発表Prompt Injection Defense LLM・Industry-leading prompt injection defense LLM + Industry-leading Spotlighting/StruQ/SecAlign/PromptShield + Industry-leading indirect prompt injection defense + Industry-leading Microsoft Prompt Shields。
LLM Prompt技術。Zero-shot/Few-shot/Many-shot ICL(In-Context Learning)・CoT(Chain-of-Thought・「Step-by-step」)・Self-Consistency(複数CoT sampling+majority vote)・ReAct(Reasoning + Acting・Tool use loop)・Tree of Thoughts(ToT)・Graph of Thoughts(GoT)・Reflexion(self-feedback)・PAL(Program-aided LM)・Active Prompting・PromptLayer(observability)・LangSmith(LangChain trace)・OpenAI Prompt Generator・Anthropic Prompt Library・2026年 Reasoning model(o3/Claude Extended Thinking)で CoT internalize、Promptシンプル化進行。
Prompt Engineering 5主要技法(2026年)。Zero-shot(直接質問・simple Q&A)・Few-shot(2-3 example示・format learning・classification)・CoT(Chain-of-Thought・「Step-by-step」「考えてください」・math/code/reasoning improve)・Self-Consistency(複数CoT sampling+majority vote・accuracy +5-10%)・ReAct(Reasoning + Acting・Tool use loop・search→reason→act→observe)・ToT(Tree of Thoughts・branch exploration・複雑推論)・Reflexion(self-feedback・iterative improvement)・PAL(Program-aided LM・Code execute reasoning)・Active Prompting・選択: Simple Q&A = Zero-shot・Format = Few-shot・Math/Code = CoT・Tool integration = ReAct・極限accuracy = Self-Consistency・2026年 Reasoning Models(o3/Claude Extended)で CoT internalize、Promptシンプル化進行。
Anthropic Claude API高度機能。Prompt Caching(2024年8月-・cached input 90%割引・最低1024 token・5min cache・1h cache extended)・cache_control field(ephemeral type)・System prompt/Tools/Messages cache・Extended Thinking(Claude 3.7+/Opus 4.7・thinking budget設定 1k-32k token・推論時間scaling)・Visible thinking trace・Interleaved thinking(2025年・tool use間考察)・Batch API(50%割引・24h処理)・Files API(100MB upload)・Citations・Computer Use・2026年 caching必須でcost管理、Extended Thinking推論力倍増。
入力シーケンス先頭に学習可能なソフトプロンプトトークンのみを追加してファインチューニングする最軽量 PEFT 手法。モデル重みは一切変更しない。
LLM の重みを固定したまま、入力に付加する学習可能な連続トークン(Soft Prompt)だけを最適化するパラメータ効率的なファインチューニング手法。Google Research が 2021 年に提案し、フルファインチューニングの 0.01% 未満のパラメータで同等性能を達成できることを示した。
LLM のパラメータ効率的ファインチューニング(PEFT)における 2 大手法の比較。Prompt Tuning は入力に Soft Prompt を追加する手法、LoRA は重み行列に低ランク分解の差分を追加する手法。タスク特性・モデルサイズ・運用要件に応じた使い分けが重要。
2023年Ian Webster (元Cognition AI Devin Pre-Training Lead・元Discord/Google AI) 発表のPromptfoo・OSS CLIベースのLLM Application Evaluation framework。Y Combinator W23採択 (一部・Independent Project)・GitHub Star 5k+ (2024年Q4)・MIT License・YAML設定でPrompt vs Modelの自動Eval実行 (Custom Assertion/LLM-as-Judge/Cosine Similarity/Factuality等) + CI/CD統合 (GitHub Actions/GitLab CI) + Web UI Viewer・Red Team Security testing (Jailbreak/Prompt Injection検出)・OpenAI/Anthropic/Google/Llama/Ollama/Bedrock/Vertex AI/HuggingFace対応の Local-first LLMOps tool。