767件の用語
主要LLM API料金比較(2026年Q1)。Claude Opus 4.7 $15/$75 (in/out M tok)・Sonnet 4.6 $3/$15・Haiku 4.5 $0.25/$1.25・GPT-5 Pro $30/$60・o3 Pro $20/$80・Gemini 2.5 Pro $3.5/$10.5・DeepSeek V3 $0.27/$1.10・Grok 4 $3/$15・Prompt Caching 90%削減・Batch API 50%割引対応、長時間対話+Agent運用コスト比較必須。
LLMコンテキスト容量進化。Claude Opus 4.7 1M context(2025年・Extended Thinking含)・Gemini 2.5 Pro 2M context(8hours音声/動画)・GPT-5 128K/Pro 1M・Llama 4 Scout 10M context(実用限界)・DeepSeek V3 128K・Qwen3 128K extend・RoPE Scaling(Rotary Position Embedding拡張)・Needle in Haystack test・Long Context Benchmark・RULER 128K・2026年1M+主流化、コスト問題課題。
大規模言語モデル推論実行。vLLM 0.8・llama.cpp・TensorRT-LLM 0.14・Ollama 0.5・LM Studio 0.4・Text Generation Inference(TGI)・SGLang・MLC LLMが代表フレームワーク、PagedAttention+Continuous Batching+Speculative Decoding+FP8/INT4 AWQ量子化で2026年H200/B200 SXM搭載サーバで100-1000 tok/s/user達成。
AI幻覚低減手法。RAG(Retrieval Augmented Generation)・Citation/Source linking(Perplexity AI/You.com)・Self-Consistency・Chain-of-Verification(CoVe・Meta)・REALM/Self-RAG・Confidence threshold・Temperature 0-0.3・Structured Output(JSON Schema)・Constrained decoding・Guardrails(NeMo Guardrails・Guardrails AI)・Anthropic Opus 4.7 27% hallucination・GPT-5 25%・Claude reliance 最小化設計・2026年Production必須対策。
LLM出力評価ライブラリ。DeepEval・Ragas・Promptfoo・Arize Phoenix・Langfuse・OpenAI Evals・LiteLLM Eval・Braintrust・Weights & Biases Weave・Inspect AI(UK AISI)が2026年代表、LLM-as-Judge+Metrics(faithfulness/answer-relevancy/context-precision)で品質測定。
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLM Evaluation Framework。EleutherAI lm-evaluation-harness 0.4 (50+ Tasks・Standard)・OpenAI evals・RAGAS (RAG Eval・Faithfulness/Answer Relevancy)・promptfoo 0.106 (Web UI/CI)・DeepEval (Confident-AI)・Inspect AI (UK AISI)・METR Time Horizon・LLMonitor・Phoenix (Arize)・LangSmith Eval・Braintrust・¥0 OSS-¥¥¥¥¥/月、2026年Inspect AI+RAGAS主流。
Embedding Model最新。Qwen3-Embedding-8B/4B/0.6B (MMTEB SOTA 2025)・BAAI BGE-M3 (Multi-vector・Dense+Sparse+ColBERT)・bge-reranker-v2-m3・jina-embeddings-v3・Stella v5 1.5B (4096dim)・nomic-embed-text-v2 (Local)・mxbai-embed-large-v1・OpenAI text-embedding-3-large・Voyage AI voyage-3 (Anthropic推奨)・Cohere Embed v3・E5 Large (Microsoft)・¥0 OSS-API・MMTEB Benchmark、2026年Multi-vector Embedding主流。
Text Embedding Model(2024-2026年)。BGE-M3(BAAI・8K context・multilingual・$0 Free)・BGE-Large/Small・Jina Embeddings v3(8K context・Matryoshka)・mxbai-embed-large(MixedBread)・Snowflake Arctic Embed・Qwen3-Embedding 0.6B/4B/8B(2024年・SOTA MTEB・100+ language)・stella(General)・OpenAI text-embedding-3-small($0.02/M token)/large($0.13/M)・Voyage AI(Anthropic推奨)・Cohere Embed v3・Nomic Embed・LM Studio + Qwen3-Embedding-8B Local・2026年 Qwen3 OSS主流、Voyage commercial。
テキストEmbeddingモデル。Qwen3-Embedding-8B/4B/0.6B (Alibaba・MMTEB SOTA)・BAAI BGE-M3・BGE-Large-EN-1.5・E5 Large/Mistral・Voyage AI voyage-3 (Anthropic推奨)・OpenAI text-embedding-3-large・Cohere Embed v3.0・NVIDIA NV-Embed-v2・Mixedbread mxbai・Stella v5 1.5B・jina-embeddings-v3・¥0-¥0.13/M tokens、2026年MMTEB日本語SOTA Qwen3。
テキストベクトル化モデル。BGE-M3(BAAI・8192 token・Multilingual)・Nomic Embed v2(768dim)・Voyage-3-large・Qwen3-Embedding-8B(4096dim)・Jina Embeddings v4・OpenAI text-embedding-3-large・Cohere Embed v4・mxbai-embed-large-v2・Snowflake Arctic Embed L 2.0・Stella 1.5B・MiniLM-L6代表、2026年1024-4096dim主流。
Microsoft+Facebook 2017年OSS化のニューラルネットワーク交換フォーマット。PyTorch/TF/Caffe2等のモデル相互変換+推論実行統一。
2024年12月20日OpenAI announce o3。Pro AGI Benchmark ARC-AGI 87.5% Pro Famous類無し + Pro 推論Cost $20-3000/Task + Pro Frontier Math 25.2% + Pro Codeforces 2727 Elo + Pro o1後継Pro Mainstream Top + 2025-04 o3 Full + Pro o4-mini対応 + 累計2024-2025年1年Heritage Pro Top独占。
OpenAI が 2024 年 12 月に発表した推論特化型 LLM。o1 の後継として、数学・科学・コーディング分野で人間の専門家レベルの推論能力を実現した次世代モデル。
米 OpenAI 2025年2月発表の推論モデルコスパ。o3 ベース + 主流コスパ + 数学 + コーディング主流・$1.10/1M input + $4.40/1M output・「推論モデルコスパ業界主流」.
AutoML Framework。H2O.ai AutoML 3.46 (FOSS)・H2O Driverless AI (商用)・AutoGluon 1.x (Amazon)・AutoKeras 2.x・PyCaret 3.x・TPOT 0.12 (Genetic)・AutoSklearn・FLAML (Microsoft Fast)・LightAutoML (Sber)・mljar AutoML・AutoML-Zero (Google)・FedML AutoML・OpenML・Vertex AI AutoML・Azure AutoML・¥0 OSS-¥¥¥¥¥/月、2026年LLM Driven AutoML増加。