513件の用語
Model Compressionは、人工知能(AI)および機械学習分野において注目されている技術です。深層学習モデルの普及に伴い、その規模は爆発的に増加しており、推論に必要な計算資源やメモリ容量も増大しています。Model Compressionは、このような課題を解決し、AIモデルの効率的な運用を実現するためのキーテクノロジーとして登場しました。本稿では、Model Compressionの基
ML Model Serving。NVIDIA Triton Inference Server (Multi-Framework・TensorRT/PyTorch/ONNX)・TorchServe (PyTorch Native Maintenance)・BentoML 1.3+ (Python Native)・Cog (Replicate)・Ray Serve・Seldon Core 2.x・KServe 0.13 (Knative Native)・MLflow Models・vLLM Production Stack・Modal Function・Cloudflare Workers AI・¥0 OSS-¥¥¥¥¥/月、2026年BentoML+Cog急成長。
小型LLM構築技術。Knowledge Distillation(Teacher-Student)・SLM(Small Language Model・1-7B param)・Phi-4 Mini 3.8B(Microsoft・2025年)・Qwen2.5 1.5B/3B・Llama 3.2 1B/3B・Gemma 3 1B/4B・MiniCPM 3 4B・SmolLM2 1.7B(HuggingFace)・TinyLlama・Mistral 7B・DeepSeek R1 Distill 8B・Teacher-forced sampling・Reasoning Distillation、2026年Edge+モバイル定着。
LLMモデル変換ワークフロー。Hugging Face Transformers 4.47・safetensors (Pickle代替)・GGUF (llama.cpp convert_hf_to_gguf.py・llama-quantize)・AutoAWQ・AutoGPTQ・ExLlamaV2 convert.py・vLLM (HF Native+AWQ/GPTQ)・mlx-lm convert (Apple Silicon)・bitsandbytes・llmcompressor (Sparse+Quant)・Marlin Kernel・¥0 OSS、2026年MLX/GGUF両対応必須。
LLMモデル合成技術。Mergekit(Python・Charles Goddard)・Linear(重み加算)・SLERP(Spherical Linear・球面補間)・TIES・DARE(Magnitude-based)・Passthrough/Franken-merge(層追加)・MoE Merge・Mixtral化・Nous/Maxime Labonne/Hugging Face Hub Trending・NeverSleep/ReMM-Mistral・WizardLM・BeyondInfinity・Frankendistill(Layer Duplicate)・2026年OSS LLM熟成期カスタマイズ手法。
Yolo Algorithmは、人工知能・機械学習分野における重要な概念・技術です。
LLM/RAG評価フレームワーク。RAGAS(Retrieval-Augmented Generation Assessment・Faithfulness/Answer Relevance/Context Precision)・LLM-as-Judge(Claude/GPT-5 judge・Bias対策注意)・Ragas metrics・DeepEval(Python・14+ metric)・Promptfoo(CLI・YAML test)・Giskard・TruLens・PhoenixArize・LangSmith Evaluator・Braintrust Eval・Confident AI・2026年RAG品質測定標準。
Retrieval-Augmented Generation の略で、LLM の出力生成時に外部知識ベースから関連情報を検索し、コンテキストとして与える手法。ハルシネーション削減と最新情報対応の主要技術。
Retrieval-Augmented Generation。Vector Search+LLM生成統合。Naive RAG・Advanced(Pre/Post retrieval)・Modular RAG・Agentic RAG・GraphRAG(Microsoft)・HyDE・Contextual Retrieval(Anthropic)・RAG Fusion・Self-RAG・Corrective RAG・LlamaIndex・LangChain・Haystack・RAGFlow・DSPy・R2R対応、2026年LLM応用定番。
RAG (Retrieval-Augmented Generation)主要Framework。LangChain 0.3+/LangGraph 0.2 (Stateful Agent)・LlamaIndex 0.12+ (Workflows・Property Graph)・Haystack 2.x by deepset・DSPy by Stanford (Auto Prompt Optimize)・PydanticAI 0.2・LiteLLM 1.55・Phidata/Agno・LangFlow GUI・Flowise・¥0 OSS、2026年Agentic RAG+GraphRAG主流化。
RAG用ベクトルデータベース。Qdrant 1.12(Rust・オンプレ無料)・Pinecone(SaaS・$70/month起)・Weaviate 1.27(Go・ハイブリッド)・Milvus 2.5・Chroma DB 0.6・pgvector 0.8(PostgreSQL拡張)・Redis Stack・Typesense Cloud・Turbopuffer(Elasticsearch類似)・LanceDB(Rust・Serverless)・Cloudflare Vectorize・SurrealDB対応、2026年オンプレQdrant+Postgres pgvector定着。
RAG検索結果並び替え。Cohere Rerank 3.5(100言語・5x高速)・Voyage rerank-2.5・Jina Reranker v2・BGE reranker v2-m3・Qwen3-Reranker-4B・ColBERT v2・Cohere Rerank 3.5 Lite・LLM Rerank(LlamaIndex)・MMR(Maximum Marginal Relevance)・Cross-Encoder vs Bi-Encoder・Hybrid(BM25+Dense) + Rerank 3段構成、2026年RAG品質改善必須。
LLM応用RAG/Agentsフレームワーク。LlamaIndex 0.13(2026年Q1)・LlamaParse(PDF/Excel/PPT高精度解析)・Workflows 1.0・Property Graph Index・LlamaCloud managed Index・400+ Data Connectors・LangChain競合、2026年Enterprise RAG案件で多用される。
llama.cpp b4400+詳細パラメータ。-ngl/--n-gpu-layers (GPU offload数・-1=ALL)・-t/--threads・-c/--ctx-size (Context)・-fa/--flash-attn・-ctk/-ctv (KV Cache type f16/q8_0/q4_0)・--rope-scaling-yarn・--mlock・--mmap=false・--no-mmap・llama-server (HTTP API)・llama-bench・llama-cli・GGUF Quantization Q4_K_M/Q5_K_M/Q6_K・--split-mode row/layer、2026年Multi-GPU NVLink分散主流。
ローカルLLM推論サーバー。llama.cpp(Georgi Gerganov・C++・CPU+GPU CUDA/Metal/Vulkan)・GGUF format(軽量・量子化Q4_K_M推奨)・llama-server(OpenAI互換API)・Ollama(llama.cpp wrapper・Model Hub)・LM Studio(GUI)・llamafile(単一バイナリ)・llama-swap(自動切替)・Text Generation Web UI・KoboldCpp・vLLM(Python・高速)・SGLang・Aphrodite Engine・2026年M4 Max+Ollama定着。
Meta が 2025 年 4 月に公開した次世代オープンソース LLM シリーズ。Llama 3 の後継として、マルチモーダル対応、より長いコンテキスト、MoE アーキテクチャを採用し、オープンモデルの最高水準を目指す。
LLMアプリ開発OSS(2022-)。LangChain 1.0(2025年Q4 stable)・LangGraph 0.3(Agent Workflow)・LangSmith(観測)・LangServe・LangChain.js・Python/JS両対応、tool/tool_calling・runnable・prompt template・OpenAI/Anthropic/Gemini/Bedrock 100+LLM統合、2026年LLMOps標準。
RAG/Agent Framework。LangChain 0.3(Python/TypeScript・2024年10月・Runnable API・LangGraph統合)・LangSmith(tracing・observability)・LangGraph(stateful agent・Cyclic workflow)・LlamaIndex 0.11(RAG特化・Data indexing・Agent workflows)・Haystack 2.0(deepset)・DSPy(Stanford・prompt optimization)・Semantic Kernel(Microsoft)・Flowise(low-code)・Langflow(OSS)・CrewAI/Autogen との役割分担、2026年 LangGraph+Claude Agent SDK主流化。
LLMアプリ開発フレームワーク。LangChain 0.3(Python/JS)・LangGraph(グラフベースエージェント)・LangSmith(トレース)・LlamaIndex(RAG特化)・DSPy(Stanford・プロンプト最適化)・Haystack(Deepset)・Pydantic AI・Instructor(構造化出力)・Autogen(Microsoft Multi-agent)・CrewAI・Semantic Kernel(MS)・Griptape・Rivet(GUI)対応、2026年エージェント+RAG本格運用基盤。
LLMエージェント構築FW。LangChain 0.3(Python/JS)・LangGraph 0.3(状態機械)・LangSmith(trace/eval)・LangGraph Platform・CrewAI・AutoGen(MS)・DSPy(Stanford)・LlamaIndex 0.11・Haystack 2.8・OpenAI Swarm/Agents SDK・Anthropic Agent SDK、2026年LLM Agent開発の二大framework+MCP統合。