513件の用語
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLM Evaluation Framework。EleutherAI lm-evaluation-harness 0.4 (50+ Tasks・Standard)・OpenAI evals・RAGAS (RAG Eval・Faithfulness/Answer Relevancy)・promptfoo 0.106 (Web UI/CI)・DeepEval (Confident-AI)・Inspect AI (UK AISI)・METR Time Horizon・LLMonitor・Phoenix (Arize)・LangSmith Eval・Braintrust・¥0 OSS-¥¥¥¥¥/月、2026年Inspect AI+RAGAS主流。
Embedding Model最新。Qwen3-Embedding-8B/4B/0.6B (MMTEB SOTA 2025)・BAAI BGE-M3 (Multi-vector・Dense+Sparse+ColBERT)・bge-reranker-v2-m3・jina-embeddings-v3・Stella v5 1.5B (4096dim)・nomic-embed-text-v2 (Local)・mxbai-embed-large-v1・OpenAI text-embedding-3-large・Voyage AI voyage-3 (Anthropic推奨)・Cohere Embed v3・E5 Large (Microsoft)・¥0 OSS-API・MMTEB Benchmark、2026年Multi-vector Embedding主流。
Text Embedding Model(2024-2026年)。BGE-M3(BAAI・8K context・multilingual・$0 Free)・BGE-Large/Small・Jina Embeddings v3(8K context・Matryoshka)・mxbai-embed-large(MixedBread)・Snowflake Arctic Embed・Qwen3-Embedding 0.6B/4B/8B(2024年・SOTA MTEB・100+ language)・stella(General)・OpenAI text-embedding-3-small($0.02/M token)/large($0.13/M)・Voyage AI(Anthropic推奨)・Cohere Embed v3・Nomic Embed・LM Studio + Qwen3-Embedding-8B Local・2026年 Qwen3 OSS主流、Voyage commercial。
テキストEmbeddingモデル。Qwen3-Embedding-8B/4B/0.6B (Alibaba・MMTEB SOTA)・BAAI BGE-M3・BGE-Large-EN-1.5・E5 Large/Mistral・Voyage AI voyage-3 (Anthropic推奨)・OpenAI text-embedding-3-large・Cohere Embed v3.0・NVIDIA NV-Embed-v2・Mixedbread mxbai・Stella v5 1.5B・jina-embeddings-v3・¥0-¥0.13/M tokens、2026年MMTEB日本語SOTA Qwen3。
テキストベクトル化モデル。BGE-M3(BAAI・8192 token・Multilingual)・Nomic Embed v2(768dim)・Voyage-3-large・Qwen3-Embedding-8B(4096dim)・Jina Embeddings v4・OpenAI text-embedding-3-large・Cohere Embed v4・mxbai-embed-large-v2・Snowflake Arctic Embed L 2.0・Stella 1.5B・MiniLM-L6代表、2026年1024-4096dim主流。
OpenAI が 2024 年 12 月に発表した推論特化型 LLM。o1 の後継として、数学・科学・コーディング分野で人間の専門家レベルの推論能力を実現した次世代モデル。
AutoML Framework。H2O.ai AutoML 3.46 (FOSS)・H2O Driverless AI (商用)・AutoGluon 1.x (Amazon)・AutoKeras 2.x・PyCaret 3.x・TPOT 0.12 (Genetic)・AutoSklearn・FLAML (Microsoft Fast)・LightAutoML (Sber)・mljar AutoML・AutoML-Zero (Google)・FedML AutoML・OpenML・Vertex AI AutoML・Azure AutoML・¥0 OSS-¥¥¥¥¥/月、2026年LLM Driven AutoML増加。
データの次元削減や特徴抽出に使用されるニューラルネットワーク。入力を圧縮して再構築する。
マルチエージェントフレームワーク。Microsoft Autogen 0.4(Python・Conversation-based・AgentChat)・CrewAI(Role-based・Sequential/Hierarchical・Process)・LangGraph(Graph-based・LangChain)・MetaGPT(SOP・Software Company simulate)・Swarm(OpenAI Cookbook experimental)・AgentNetwork・Phidata・BabyAGI・AutoGPT(legacy)・SuperAGI・Devin AI・2026年Claude Agent SDK + Subagents主流、Enterprise採用拡大。
Overfitting(オーバーフィット)は、人工知能(AI)や機械学習において避けて通れない課題であり、モデルの汎化性能を大きく損なう可能性のある現象です。本稿では、Overfittingの基本概念から、具体的な種類、選択・購入ガイド、実際の取り扱い方法までを網羅的に解説します。PC自作に関わるAI・機械学習の応用例にも触れながら、初心者から上級者まで理解を深めることを目指します。
OpenAI Agent構築SDK(2025年3月)。Agents SDK(Python)・Handoffs(Agent間委譲)・Guardrails(入力/出力検証)・Tracing(完全可視化)・Responses API・Computer Use Tool(GPT-4.1 + o3)・Web Search Tool・File Search Tool・Code Interpreter・Operator($200 ChatGPT Pro)・Deep Research・Realtime API・2026年Claude Agent SDK/Gemini Agent Toolkit競合。
OpenAI Reasoning Model Series(2024年9月-)。o1-preview/o1(Strawberry・Chain-of-Thought内部化・$15/$60 per M token)・o1-mini(推論特化・Math/Code)・o3(2024年12月発表・AGI benchmark記録)・o3-mini・o4(2025年Q4予想)・Anthropic Claude Extended Thinking・DeepSeek-R1(OSS reasoning・2025年1月)・Google Gemini 2.0 Thinking・推論時間scaling law・Test-time compute・2026年reasoning model主流、science/math domain超人化。
OpenAI公式オープンウェイトLLM(2025年8月)。gpt-oss-20b(20B active・apachi 2.0 license・consumer GPU 16GB対応)・gpt-oss-120b(120B MoE・5.1B active・H100/4090可能)・ChatGPT-4 mini相当品質・Tool Use対応・Harmony response format・MXFP4量子化・Ollama + LM Studio即対応・Groq/Cerebras hosting・2026年OpenAI約7年ぶりOSS公開。
Opencvは、人工知能・機械学習分野における重要な概念・技術です。
Open vs Closed Model勢力図。Open: Meta Llama 4 Maverick 400B/Scout 109B・Alibaba Qwen3 235B/72B・DeepSeek V3 671B/R1・Mistral Large 2/Codestral・Allen AI Molmo・xAI Grok 2 (Open Weight)・Closed: OpenAI GPT-5/o3・Anthropic Claude 4・Google Gemini 2.5 Pro・xAI Grok 3・Apache 2.0/MIT vs MAH Meta AI Hub License・¥0 OSS-API、2026年Open急追完成・Frontier Closedの差縮小。