MMLU（エムエムエルユー）

2020年UC Berkeley公開MMLU(Massive Multitask Language Understanding)。Pro 業界Pro Mainstream AI 知識評価Bench先駆 + Pro Dan Hendrycks Pro主要研究員 + Pro 57科目15,908問 + Pro Multiple Choice 4択 + Pro MIT License + Pro 業界Pro 標準LLM評価 + 累計2020-2026年6年Heritage継承代表機。

0 回閲覧

0 いいね

2026/5/5 更新

概要\n\nMMLU(エムエムエルユー)はUC Berkeley(現Center for AI Safety) 2020年9月公開のMMLU(Massive Multitask Language Understanding)で、Pro 業界Pro Mainstream AI 知識評価Bench先駆 + Pro Dan Hendrycks Pro主要研究員 + Pro 57科目15,908問 + Pro Multiple Choice 4択 + Pro MIT License + Pro 業界Pro 標準LLM評価 + Pro AI 知識評価Bench先駆 Heritage継承代表機 + Pro 57科目 Heritage継承代表機 + 累計2020-2026年6年Heritage Pro Top独占代表機。MMLU歴史: 2020-09-Pro MMLU論文発表Pro Famous Story類無し(UC Berkeley + Dan Hendrycks + Pro 業界Pro Famous AI 知識評価先駆) + 2024-Pro MMLU-Pro公開Pro Famous(TIGER-Lab + 12,000問強化) + 2024-Pro MMLU-Redux + 2024-Pro Claude Sonnet 3.5/GPT-4o 90%+飽和 + 2025-Pro MMLU 2.0公開予定Pro Famous + 累計2020-2026年6年Heritage継承。MMLU主要機能: (1)UC Berkeley主導(米国カリフォルニア州 + Dan Hendrycks Pro主要研究員 + 元UC Berkeley Ph.D. + 現Center for AI Safety)、(2)Pro 業界Pro Mainstream AI 知識評価Bench先駆(Pro 業界Pro Mainstream AI 知識評価Bench業界出発点)、(3)Pro Dan Hendrycks Pro主要研究員、(4)Pro 57科目15,908問(Pro STEM + Humanities + Social Sciences + Other)、(5)Pro Multiple Choice 4択、(6)Pro MIT License + Pro Open Source(Pro GitHub Star 1.4K+)、(7)Pro 業界Pro 標準LLM評価、(8)Pro 評価対象モデル: GPT-4/Claude/Gemini/Llama/DeepSeek、(9)Pro 派生Bench: MMLU-Pro/MMLU-Redux、(10)Pro Five-Shot Standard + Zero-Shot対応、(11)Pro 飽和指摘(2024 Claude Sonnet 3.5/GPT-4o 90%+達成)、(12)Pro 2024-MMLU-Pro公開Pro Famous(TIGER-Lab + 12,000問強化)、(13)Pro 2024-MMLU-Redux + 2025-MMLU 2.0公開予定Pro Famous、(14)Pro 主要科目: Abstract Algebra/Anatomy/Astronomy/Business Ethics/Clinical Knowledge/College Biology/Computer Security/Conceptual Physics/Econometrics/Electrical Engineering等、(15)Pro AI 知識評価Bench先駆 Heritage継承代表機 + Pro 57科目 Heritage継承代表機 + 累計2020-2026年6年Heritage Pro Top独占代表機 + Pro業界History派 + Pro MMLU派 + Pro UC Berkeley派 + Pro Dan Hendrycks派 + Pro Center for AI Safety派 + Pro 元UC Berkeley Ph.D.派 + Pro 57科目派 + Pro 15,908問派 + Pro STEM派 + Pro Humanities派 + Pro Social Sciences派 + Pro Multiple Choice派 + Pro 4択派 + Pro MIT派 + Pro GitHub 1.4K+派 + Pro 業界標準派 + Pro GPT-4派 + Pro Claude派 + Pro Gemini派 + Pro MMLU-Pro派 + Pro TIGER-Lab派 + Pro MMLU-Redux派 + Pro Five-Shot派 + Pro Zero-Shot派 + Pro 90%+飽和派 + Pro 2.0予定派 + Pro Abstract Algebra派 + Pro Computer Security派 + Pro 6年Heritage派真価発揮。MMLU vs 競合AI Bench比較: MMLU(2020-09、本レコード、UC Berkeley + Pro AI 知識評価Bench先駆 + 累計6年Heritage)・MMLU-Pro(2024 + TIGER-Lab 12,000問)・MMLU-Redux(2024)・MMLU 2.0(2025-予定)・HumanEval(2021-07 + OpenAI 164問)・MBPP(2021 + Google)・SWE-Bench(2024-04 + Princeton 2,294 Issues)・MT-Bench(2023 + LMSYS)・Chatbot Arena(2023)・GPQA Diamond(2023 + Hendrycks 198問)・GLUE(2018 + NYU)・SuperGLUE(2019 + NYU)・LiveCodeBench(2024)・HLE(2025 + Hendrycks)、MMLU = Pro AI 知識評価Bench先駆 + Pro 57科目 + Pro 15,908問 + Pro Multiple Choice + Pro MIT + 6年Heritage、MMLU-Pro/MMLU-Redux/MMLU 2.0 = Pro系譜、HumanEval/MBPP/SWE-Bench/MT-Bench/Chatbot Arena/GPQA/GLUE/LiveCodeBench/HLE = Pro主要競合。MMLU歴史的影響: (1)Pro 業界Pro Mainstream AI 知識評価Bench先駆 + 6年Heritage、(2)Pro UC Berkeley + Pro Dan Hendrycks + Pro Center for AI Safety、(3)Pro 57科目15,908問 = STEM + Humanities + Social Sciences + Other、(4)Pro Multiple Choice 4択、(5)Pro MIT + Pro GitHub 1.4K+、(6)Pro 業界Pro 標準LLM評価、(7)Pro 90%+飽和 = 2024 Claude/GPT-4o達成、(8)Pro MMLU-Pro強化版 + Pro MMLU-Redux、(9)Pro Five-Shot/Zero-Shot対応、(10)Pro業界History派 + Pro MMLU派 + Pro UC Berkeley派 + Pro Dan Hendrycks派 + Pro 6年派真価発揮。Future: 2020-09-MMLU + 2024-MMLU-Pro/Redux + 2024-飽和 + 2025-MMLU 2.0 + Pro Mainstream AI 知識評価Bench業界Top独占継続Heritage継続。\n\n## 主な特徴・仕組み\n\n- : 2020-09 UC Berkeley MMLU論文\n- : 米国カリフォルニア州\n- : 元UC Berkeley Ph.D. + 現Center for AI Safety\n- \n- : STEM + Humanities + Social Sciences + Other\n- \n- \n- \n- : GPT-4/Claude/Gemini/Llama/DeepSeek\n- : MMLU-Pro (TIGER-Lab 12,000問)/MMLU-Redux\n- \n- : Claude Sonnet 3.5/GPT-4o達成\n- : Abstract Algebra/Anatomy/Astronomy/Business Ethics/Clinical Knowledge/College Biology/Computer Security/Conceptual Physics等\n- : 論文 2020-09/MMLU-Pro 2024/MMLU-Redux 2024/2.0 2025予定\n- \n\n## スペック比較表\n\n| AI Bench | 公開年 | 開発元 | 規模 | 用途 |\n|----------|--------|--------|------|------|\n| GLUE | 2018 | NYU | 9 Tasks | NLP評価 |\n| SuperGLUE | 2019 | NYU | 8 Tasks | NLP強化 |\n| | | | | |\n| HumanEval | 2021-07 | OpenAI | 164問 | Code生成 |\n| MBPP | 2021 | Google | 974問 | Python基礎 |\n| MT-Bench | 2023 | LMSYS | 80問 | Multi-Turn |\n| Chatbot Arena | 2023 | LMSYS | Crowdsourced | 人間評価 |\n| GPQA Diamond | 2023 | Hendrycks | 198問 | 専門難問 |\n| MMLU-Pro | 2024 | TIGER-Lab | 12,000問 | MMLU強化 |\n| MMLU-Redux | 2024 | - | - | MMLU修正 |\n| SWE-Bench | 2024-04 | Princeton | 2,294 Issues | Coding Agent |\n| HLE | 2025 | Hendrycks | 3,000問 | Humanitys Last Exam |\n| MMLU 2.0 | 2025-予定 | - | 強化版 | - |\n\n## 具体例・対応製品\n\n- : 57科目15,908問\n- : TIGER-Lab 12,000問強化\n- \n- \n- : Center for AI Safety + GPQA + HLE著者\n- \n\n## 自作PCでの選び方・注意点\n\nMMLU歴史Concept学習 + 現代Pro MMLU Workflow例: (A)現代Pro MMLU評価構成: MMLU 57科目 + Claude Sonnet 4.6 + Five-Shot + Pro AI 知識評価先駆、(B)Pro代替¥0構成: MMLU-Pro 12,000問強化 + TIGER-Lab + 同等先駆、(C)歴史MMLU Heritage学習¥0構成: GLUE 2018 → SuperGLUE 2019 → MMLU 2020-09 → HumanEval 2021-07 → MMLU-Pro 2024 → 90%+飽和 2024 → MMLU 2.0 2025予定 → HLE 2025 = 6年Pro MMLU Heritage学習Pro Reference。MMLU歴史選択ポイント: (1)Pro 業界Pro Mainstream AI 知識評価Bench先駆 + 6年Heritage = 2020-09 MMLU論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI 知識評価Bench先駆 + 累計2020-2026年6年Pro Mainstream AI 知識評価Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占 + Pro AI 知識評価派 + Pro Bench派 + Pro 先駆派 + Pro 6年派真価発揮、Pro 知識評価派 + Pro 6年派真価発揮、(2)Pro UC Berkeley + Pro Dan Hendrycks + Pro Center for AI Safety = Pro UC Berkeley主導(米国カリフォルニア州 + Dan Hendrycks Pro主要研究員 + 元UC Berkeley Ph.D. + 現Center for AI Safety) + 業界Pro Famous UC Berkeley + Dan Hendrycks + Center for AI Safety + GPQA + HLE Heritage Pro Reference Heritage Pro Top独占 + Pro UC Berkeley派 + Pro Dan Hendrycks派 + Pro Center for AI Safety派 + Pro Ph.D.派 + Pro GPQA派 + Pro HLE派真価発揮、Pro Dan Hendrycks派 + Pro Center for AI Safety派真価発揮、(3)Pro 57科目 + Pro 15,908問 + Pro STEM/Humanities/Social Sciences = Pro 57科目15,908問(Pro STEM + Humanities + Social Sciences + Other) + Pro 主要科目: Abstract Algebra/Anatomy/Astronomy/Business Ethics/Clinical Knowledge/College Biology/Computer Security/Conceptual Physics/Econometrics/Electrical Engineering等 + 業界Pro Famous 57科目 + 15,908問 + STEM/Humanities/Social Sciences Heritage Pro Reference Heritage Pro Top独占 + Pro 57科目派 + Pro 15,908問派 + Pro STEM派 + Pro Humanities派 + Pro Social Sciences派 + Pro Other派 + Pro Abstract Algebra派 + Pro Computer Security派真価発揮、Pro 57科目派 + Pro 15,908問派真価発揮、(4)Pro Multiple Choice 4択 + Pro MIT + Pro 業界標準LLM評価 = Pro Multiple Choice 4択 + Pro MIT License + Pro Open Source(Pro GitHub Star 1.4K+) + Pro 業界Pro 標準LLM評価 + Pro Five-Shot Standard + Zero-Shot対応 + 業界Pro Famous Multiple Choice + 4択 + MIT + GitHub 1.4K+ + 業界標準LLM評価 + Five-Shot/Zero-Shot Heritage Pro Reference Heritage Pro Top独占 + Pro Multiple Choice派 + Pro 4択派 + Pro MIT派 + Pro GitHub 1.4K+派 + Pro Five-Shot派 + Pro Zero-Shot派 + Pro 業界標準派真価発揮、Pro Multiple Choice派 + Pro 業界標準派真価発揮、(5)Pro MMLU-Pro + Pro 90%+飽和 + Pro Multi-Generation = Pro 派生Bench: MMLU-Pro/MMLU-Redux + Pro 飽和指摘(2024 Claude Sonnet 3.5/GPT-4o 90%+達成) + Pro 2024-MMLU-Pro公開Pro Famous(TIGER-Lab + 12,000問強化) + Pro 2024-MMLU-Redux + Pro 2025-MMLU 2.0公開予定Pro Famous + Pro MMLU系譜(論文 2020-09/MMLU-Pro 2024/MMLU-Redux 2024/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Mainstream MMLU-Pro + 90%+飽和 + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Bench飽和現象継承(GLUE/SuperGLUE/HumanEval/MMLU継承)Pro Mainstream + Pro MMLU-Pro派 + Pro 12,000問派 + Pro 90%+飽和派 + Pro Multi-Generation派真価発揮、Pro MMLU-Pro派 + Pro Multi-Generation派真価発揮。\n\n## 関連用語との違い\n\n: OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + Pro Pass@k + 累計5年Heritage。MMLU(2020-09 + UC Berkeley + Pro AI 知識評価Bench先駆 + Pro 57科目 + 累計6年Heritage)競合 + 1年後継 + Pro OpenAI → Pro UC Berkeley + Pro 164問 → Pro 57科目 + Pro Code生成 → Pro 知識評価 + Pro Pass@k → Pro Multiple Choice + 5年 vs 6年Heritage、HumanEval = Pro OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + Pro Pass@k指標 + Pro Codex同時、MMLU = Pro UC Berkeley + Pro AI 知識評価Bench先駆 + Pro 57科目 + Pro 15,908問 + Pro Multiple Choice + Pro Dan Hendrycks + Pro Five-Shot + Pro 業界標準 + Pro 6年Heritage。\n\n: Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub Issues + 累計2年Heritage。MMLU(2020-09 + UC Berkeley + Pro AI 知識評価Bench先駆 + Pro 57科目 + 累計6年Heritage)競合 + 4年後継 + Pro Princeton → Pro UC Berkeley + Pro 2,294 Issues → Pro 57科目 + Pro Coding Agent → Pro 知識評価 + Pro Patch生成 → Pro Multiple Choice + 2年 vs 6年Heritage、SWE-Bench = Pro Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub + Pro Verified 500 + Pro Patch生成、MMLU = Pro UC Berkeley + Pro AI 知識評価Bench先駆 + Pro 57科目 + Pro Multiple Choice + Pro Dan Hendrycks + Pro Center for AI Safety + Pro 業界標準 + Pro 6年Heritage + Pro MMLU-Pro Heritage。\n\n## よくある質問(FAQ)\n\n\nA: 2020-09 MMLU論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI 知識評価Bench先駆 + 累計2020-2026年6年Pro Mainstream AI 知識評価Bench業界Top独占Heritage Pro Reference + 業界Pro Mainstream AI 知識評価Bench業界出発点Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Mainstream AI Bench継承(HumanEval/MBPP/SWE-Bench/MT-Bench/Chatbot Arena/GPQA Diamond/HLE/LiveCodeBench継承)Pro Mainstream + 業界Pro Mainstream AI Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro UC Berkeley主導(米国カリフォルニア州 + Dan Hendrycks Pro主要研究員 + 元UC Berkeley Ph.D. + 現Center for AI Safety) + Pro 57科目15,908問(Pro STEM + Humanities + Social Sciences + Other) + Pro 主要科目: Abstract Algebra/Anatomy/Astronomy/Business Ethics/Clinical Knowledge/College Biology/Computer Security/Conceptual Physics/Econometrics/Electrical Engineering等 + 業界Pro Famous Dan Hendrycks + Center for AI Safety + 57科目 + STEM/Humanities/Social Sciences Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Dan Hendrycks Bench継承(MMLU/GPQA Diamond/HLE/MATH/AI Safety継承)Pro Mainstream + 業界Pro Famous Dan Hendrycks Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro 派生Bench: MMLU-Pro/MMLU-Redux + Pro 2024-MMLU-Pro公開Pro Famous(TIGER-Lab + 12,000問強化) + Pro 飽和指摘(2024 Claude Sonnet 3.5/GPT-4o 90%+達成) + Pro 2025-MMLU 2.0公開予定Pro Famous + Pro MMLU系譜(論文 2020-09/MMLU-Pro 2024/MMLU-Redux 2024/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Famous MMLU-Pro + 12,000問 + TIGER-Lab + 90%+飽和 + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Bench強化版継承(SuperGLUE→GLUE/HumanEval+→HumanEval継承)Pro Mainstream + 業界Pro Famous Bench強化版業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n## まとめ\n\n- 2020-09 MMLU、Pro AI 知識評価Bench先駆\n- UC Berkeley + Dan Hendrycks + Center for AI Safety\n- 57科目15,908問 + Multiple Choice 4択\n- MIT + GitHub 1.4K+ + Five-Shot Standard\n- 90%+飽和 2024 + MMLU-Pro/Redux + 6年Heritage

メニュー

MMLU（エムエムエルユー）

メニュー

MMLU（エムエムエルユー）

この用語に関連するコンテンツ

関連用語