1978件の用語
LLM への API クエリを通じて学習データの一部や個人情報を再構成する攻撃手法。モデルの出力確率や反復クエリを利用して、学習時に使われたプライベートテキストを漏洩させるリスク。
Anthropic策定AIエージェント-ツール接続規格(MCP・2024年11月)。JSON-RPC 2.0 over stdio/HTTP/SSE・Resources/Tools/Promptsの3抽象・Server/Client/Host構造、Claude Desktop・VS Code Cursor・Windsurf・Cline・Amp・Zed Agent・Warp 2が2026年MCP対応、OpenAI Connectors・Gemini Extensionsも共通採用。
Model Compressionは、人工知能(AI)および機械学習分野において注目されている技術です。深層学習モデルの普及に伴い、その規模は爆発的に増加しており、推論に必要な計算資源やメモリ容量も増大しています。Model Compressionは、このような課題を解決し、AIモデルの効率的な運用を実現するためのキーテクノロジーとして登場しました。本稿では、Model Compressionの基
ML Model Serving。NVIDIA Triton Inference Server (Multi-Framework・TensorRT/PyTorch/ONNX)・TorchServe (PyTorch Native Maintenance)・BentoML 1.3+ (Python Native)・Cog (Replicate)・Ray Serve・Seldon Core 2.x・KServe 0.13 (Knative Native)・MLflow Models・vLLM Production Stack・Modal Function・Cloudflare Workers AI・¥0 OSS-¥¥¥¥¥/月、2026年BentoML+Cog急成長。
LLMモデル変換ワークフロー。Hugging Face Transformers 4.47・safetensors (Pickle代替)・GGUF (llama.cpp convert_hf_to_gguf.py・llama-quantize)・AutoAWQ・AutoGPTQ・ExLlamaV2 convert.py・vLLM (HF Native+AWQ/GPTQ)・mlx-lm convert (Apple Silicon)・bitsandbytes・llmcompressor (Sparse+Quant)・Marlin Kernel・¥0 OSS、2026年MLX/GGUF両対応必須。
LLMモデル合成技術。Mergekit(Python・Charles Goddard)・Linear(重み加算)・SLERP(Spherical Linear・球面補間)・TIES・DARE(Magnitude-based)・Passthrough/Franken-merge(層追加)・MoE Merge・Mixtral化・Nous/Maxime Labonne/Hugging Face Hub Trending・NeverSleep/ReMM-Mistral・WizardLM・BeyondInfinity・Frankendistill(Layer Duplicate)・2026年OSS LLM熟成期カスタマイズ手法。
複数のLLMのモデルウェイト(重み)を数学的に統合して、それぞれの長所を持つ新しいモデルを作成する技術。追加学習なしに異なるファインチューニング済みモデルを組み合わせられる。
Moonshot AI(Kimi)が2025年に提案した、長文脈向けブロック疎アテンション。文脈をブロックに分割し、MoEのゲーティングの発想で各クエリが関連ブロックだけを選んで注意を払う。全注意との無損失切替が可能。
2020年Sun et al. (Google+CMU)発表MobileBERT・Industry-leading mobile-optimized knowledge distillation LLM + Industry-leading 4.3× smaller BERT + Industry-leading bottleneck architecture + Industry-leading 99.2% BERT performance retained。
Allen Institute for AI(AI2)が2024年9月に公開したApache 2.0完全オープンソースのVLM。1B〜72Bの4サイズと「指差し機能」が独自の強み。
2024年9月Allen AI発表Molmo・Industry-leading 72B open-data + open-weight VLM + Industry-leading PixMo dataset + Industry-leading pointing capabilities + Industry-leading Allen AI Molmo Apache 2.0 open-data open-weight VLM 2024。
Allen Institute for AI(AI2)が2024年9月に発表したオープンソースマルチモーダルLLM。完全公開の学習データ・コード・モデルウェイトで構成され、独自の高品質キャプションデータセット「PixMo」と「Pointing」機能(画像内の特定座標指示)が特徴。
Allen AI 2024年9月発表 OSS マルチモーダル LLM。72B/7B/1B 派生・GPT-4V 同等性能・Apache 2.0・完全オープン
中国科学院・武漢大学が開発した高解像度ドキュメント理解マルチモーダルLLM。入力画像を複数サブパッチに分割して処理し、細かいテキストや図表を高精度に認識する。
Yet another RoPE extensioNの略。RoPEの低周波・高周波成分を異なる比率でスケールし、少量の継続学習でLLMのコンテキスト長を最大32倍拡張する手法。Mistral-7B-128KやLlama 3.1の長コンテキスト対応に採用。
Yet Another RoPE extensioN の略。周波数次元ごとに異なるスケーリング係数を割り当てるNTK-awareスケーリングの発展版で、Mistral 7B v0.2等に採用されたコンテキスト拡張手法。
2023年Bowen Peng et al. (Nous Research+EleutherAI)発表YaRN・Industry-leading RoPE NTK-aware extension + Industry-leading Yet another RoPE extensioN + Industry-leading 128K context + Industry-leading widespread RoPE long context method。
2023年Bowen Peng et al.発表YaRN paper・Industry-leading Yet another RoPE extensioN paradigm + Industry-leading efficient RoPE scaling + Industry-leading NTK-Aware improved + Industry-leading Mistral + Llama 2 adoption + Industry-leading context length extension efficient paradigm。
2024年成熟YaRN・Industry-leading RoPE NTK-by-parts interpolation + Industry-leading 64K-128K context extension + Industry-leading minimal fine-tuning + Industry-leading Nous Research YaRN Yet another RoPE extensioN context extension 2024。
LLMのコンテキスト長を学習済みモデルのファインチューニングなしで大幅に延長するRoPE位置エンコーディング改良手法。Eleuther AI・UT Austin共同研究。