2021年OpenAI公開HumanEval。Pro 業界Pro Mainstream AI Coding Bench先駆 + Pro OpenAI + Pro Codex論文同時発表 + Pro 164問Python関数生成 + Pro Pass@k評価指標 + Pro MIT License + 累計2021-2026年5年Heritage継承代表機。
0 回閲覧
0 いいね
2026/5/5 更新
関連タグ
HumanEval
AIコーディング
ベンチマーク
OpenAI
概要\n\nHumanEval(ヒューマン イバル)はOpenAI 2021年7月公開のHumanEvalで、Pro 業界Pro Mainstream AI Coding Bench先駆 + Pro OpenAI + Pro Codex論文同時発表 + Pro 164問Python関数生成 + Pro Pass@k評価指標 + Pro MIT License + Pro AI Coding Bench先駆 Heritage継承代表機 + Pro Pass@k指標 Heritage継承代表機 + 累計2021-2026年5年Heritage Pro Top独占代表機。HumanEval歴史: 2021-07-Pro HumanEval + Codex論文発表Pro Famous Story類無し(OpenAI + Mark Chen + Jerry Tworek + Heewoo Jun + Pro 業界Pro Famous AI Coding Bench先駆) + 2022-Pro HumanEval+(EvalPlus強化版 + UIUC) + 2022-Pro MultiPL-E(Multi言語拡張 + Northeastern) + 2023-Pro HumanEval-X(中国版 + THUDM) + 2024-Pro Pass@1 100%飽和指摘(Claude Sonnet 3.5/GPT-4o達成) + 2025-Pro HumanEval 2.0公開予定Pro Famous + 累計2021-2026年5年Heritage継承。HumanEval主要機能: (1)OpenAI主導(米国SF + Mark Chen + Jerry Tworek + Heewoo Jun + Codex論文Co-authors)、(2)Pro 業界Pro Mainstream AI Coding Bench先駆(Pro 業界Pro Mainstream AI Coding Bench業界出発点)、(3)Pro Codex論文同時発表(2021-07)、(4)Pro 164問Python関数生成、(5)Pro Function Signature + Docstring + Test Cases構成、(6)Pro Pass@1/Pass@10/Pass@100評価指標Pro Famous(Pro 業界Pro標準指標)、(7)Pro MIT License + Pro Open Source(Pro GitHub Star 3K+)、(8)Pro 業界Pro Famous AI Coding Bench業界出発点、(9)Pro 評価対象モデル: GPT-4/Claude/Gemini/Llama/DeepSeek、(10)Pro 派生Bench: HumanEval+/MultiPL-E/HumanEval-X/EvalPlus、(11)Pro Pass@1 100%飽和(2024 Claude Sonnet 3.5/GPT-4o達成)、(12)Pro 2025-HumanEval 2.0公開予定Pro Famous、(13)Pro AI Coding Bench先駆 Heritage継承代表機 + Pro Pass@k指標 Heritage継承代表機 + 累計2021-2026年5年Heritage Pro Top独占代表機 + Pro業界History派 + Pro HumanEval派 + Pro OpenAI派 + Pro Mark Chen派 + Pro Jerry Tworek派 + Pro Heewoo Jun派 + Pro Codex論文派 + Pro 164問派 + Pro Python関数派 + Pro Function Signature派 + Pro Docstring派 + Pro Test Cases派 + Pro Pass@1派 + Pro Pass@10派 + Pro Pass@100派 + Pro 標準指標派 + Pro MIT派 + Pro GitHub 3K+派 + Pro 業界出発点派 + Pro HumanEval+派 + Pro MultiPL-E派 + Pro HumanEval-X派 + Pro EvalPlus派 + Pro 100%飽和派 + Pro Claude派 + Pro GPT-4o派 + Pro 2.0予定派 + Pro 5年Heritage派 真価発揮。HumanEval vs 競合AI Bench比較: HumanEval(2021-07、本レコード、OpenAI + Pro AI Coding Bench先駆 + 累計5年Heritage)・Codex論文(2021-07、同時)・HumanEval+(2022 + EvalPlus)・MultiPL-E(2022 + Multi言語)・HumanEval-X(2023 + 中国版)・HumanEval 2.0(2025-予定)・MMLU(2020 + 知識評価)・MBPP(2021 + Google 974問)・SWE-Bench(2024-04 + Princeton 2,294 Issues)・MT-Bench(2023 + LMSYS)・Chatbot Arena(2023)・Aider Bench(2024)・τ-bench(2024)・LiveCodeBench(2024)、HumanEval = Pro AI Coding Bench先駆 + Pro 164問 + Pro Pass@k + Pro Codex同時 + Pro MIT + 5年Heritage、HumanEval+/MultiPL-E/HumanEval-X/EvalPlus = Pro系譜、MMLU/MBPP/SWE-Bench/MT-Bench/Chatbot Arena/Aider/τ/LiveCodeBench = Pro主要競合。HumanEval歴史的影響: (1)Pro 業界Pro Mainstream AI Coding Bench先駆 + 5年Heritage、(2)Pro OpenAI + Pro Codex論文同時、(3)Pro Mark Chen + Jerry Tworek + Heewoo Jun、(4)Pro 164問Python関数生成、(5)Pro Pass@k指標 = 業界Pro標準、(6)Pro MIT + Pro GitHub 3K+、(7)Pro 派生Bench多数(HumanEval+/MultiPL-E/HumanEval-X)、(8)Pro 100%飽和指摘 = 2024 Claude/GPT-4o達成、(9)Pro 評価対象モデル多数、(10)Pro業界History派 + Pro HumanEval派 + Pro OpenAI派 + Pro Codex派 + Pro 5年派 真価発揮。Future: 2021-07-HumanEval/Codex + 2022-HumanEval+/MultiPL-E + 2023-HumanEval-X + 2024-100%飽和 + 2025-HumanEval 2.0 + Pro Mainstream AI Coding Bench業界Top独占継続Heritage継続。\n\n## 主な特徴・仕組み\n\n- : 2021-07 OpenAI HumanEval/Codex論文\n- : 米国SF\n- : Mark Chen + Jerry Tworek + Heewoo Jun\n- \n- \n- \n- \n- : 業界標準\n- \n- \n- : HumanEval+/MultiPL-E/HumanEval-X/EvalPlus\n- : Claude Sonnet 3.5/GPT-4o達成\n- : 論文 2021-07/HumanEval+ 2022/MultiPL-E 2022/HumanEval-X 2023/2.0 2025予定\n- \n\n## スペック比較表\n\n| AI Bench | 公開年 | 開発元 | 規模 | 用途 |\n|----------|--------|--------|------|------|\n| MMLU | 2020 | UC Berkeley | 57科目 | 知識評価 |\n| | | | | |\n| MBPP | 2021 | Google | 974問 | Python基礎 |\n| HumanEval+ | 2022 | UIUC EvalPlus | 164問強化 | Code生成厳選 |\n| MultiPL-E | 2022 | Northeastern | Multi言語 | Multi言語Code |\n| HumanEval-X | 2023 | THUDM | 中国版 | Multi言語Code |\n| MT-Bench | 2023 | LMSYS | 80問 | Multi-Turn |\n| Chatbot Arena | 2023 | LMSYS | Crowdsourced | 人間評価 |\n| SWE-Bench | 2024-04 | Princeton | 2,294 Issues | Coding Agent |\n| Aider Bench | 2024 | Paul Gauthier | - | Edit Format |\n| τ-bench | 2024 | Sierra | - | Tool Use |\n| LiveCodeBench | 2024 | UCB/MIT | - | LeetCode連動 |\n| HumanEval 2.0 | 2025-予定 | OpenAI | 強化版 | - |\n\n## 具体例・対応製品\n\n- : 164問Python関数 + Pass@k\n- : 同時発表\n- : EvalPlus強化版\n- : Multi言語拡張\n- : 中国版\n- \n\n## 自作PCでの選び方・注意点\n\nHumanEval歴史Concept学習 + 現代Pro HumanEval Workflow例: (A)現代Pro HumanEval評価構成: HumanEval 164問 + Claude Sonnet 4.6 + Pass@1評価 + Pro AI Coding Bench先駆、(B)Pro代替¥0構成: HumanEval+ 164問強化 + EvalPlus + 同等先駆、(C)歴史HumanEval Heritage学習¥0構成: HumanEval/Codex論文 2021-07 → HumanEval+ 2022 → MultiPL-E 2022 → HumanEval-X 2023 → 100%飽和 2024 → HumanEval 2.0 2025予定 = 5年Pro HumanEval Heritage学習Pro Reference。HumanEval歴史 選択ポイント: (1)Pro 業界Pro Mainstream AI Coding Bench先駆 + 5年Heritage = 2021-07 HumanEval + Codex論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI Coding Bench先駆 + 累計2021-2026年5年Pro Mainstream AI Coding Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占 + Pro AI Coding Bench派 + Pro 先駆派 + Pro 5年派 真価発揮、Pro 先駆派 + Pro 5年派 真価発揮、(2)Pro OpenAI + Pro Mark Chen + Pro Codex論文同時 = Pro OpenAI主導(米国SF + Mark Chen + Jerry Tworek + Heewoo Jun + Codex論文Co-authors) + Pro Codex論文同時発表(2021-07) + 業界Pro Famous OpenAI + Codex論文同時 + Mark Chen Heritage Pro Reference Heritage Pro Top独占 + Pro OpenAI派 + Pro Mark Chen派 + Pro Jerry Tworek派 + Pro Heewoo Jun派 + Pro Codex同時派 + Pro 2021-07派 真価発揮、Pro Codex同時派 + Pro Mark Chen派 真価発揮、(3)Pro 164問Python関数 + Pro Pass@k指標 + Pro 業界標準 = Pro 164問Python関数生成 + Pro Function Signature + Docstring + Test Cases構成 + Pro Pass@1/Pass@10/Pass@100評価指標Pro Famous(Pro 業界Pro標準指標) + 業界Pro Famous 164問 + Function Signature + Pass@k + 業界標準指標 Heritage Pro Reference Heritage Pro Top独占 + Pro 164問派 + Pro Function Signature派 + Pro Docstring派 + Pro Test Cases派 + Pro Pass@1派 + Pro Pass@10派 + Pro Pass@100派 + Pro 業界標準派 真価発揮、Pro Pass@k派 + Pro 業界標準派 真価発揮、(4)Pro MIT + Pro GitHub 3K+ + Pro 業界出発点 = Pro MIT License + Pro Open Source(Pro GitHub Star 3K+) + Pro 業界Pro Famous AI Coding Bench業界出発点 + 業界Pro Famous MIT + GitHub 3K+ + 業界出発点 Heritage Pro Reference Heritage Pro Top独占 + Pro MIT派 + Pro Open Source派 + Pro GitHub 3K+派 + Pro 業界出発点派 真価発揮、Pro MIT派 + Pro 業界出発点派 真価発揮、(5)Pro 派生Bench + Pro 100%飽和 + Pro Multi-Generation = Pro 派生Bench: HumanEval+/MultiPL-E/HumanEval-X/EvalPlus + Pro Pass@1 100%飽和(2024 Claude Sonnet 3.5/GPT-4o達成) + Pro 評価対象モデル: GPT-4/Claude/Gemini/Llama/DeepSeek + Pro HumanEval系譜(論文 2021-07/HumanEval+ 2022/MultiPL-E 2022/HumanEval-X 2023/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Mainstream HumanEval+ + MultiPL-E + 100%飽和 + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous AI Bench派生継承(SWE-Bench派生/MMLU派生/Chatbot Arena派生継承)Pro Mainstream + Pro HumanEval+派 + Pro MultiPL-E派 + Pro 100%飽和派 + Pro Multi-Generation派 真価発揮、Pro 100%飽和派 + Pro Multi-Generation派 真価発揮。\n\n## 関連用語との違い\n\n: Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub Issues + Pro Verified 500 + 累計2年Heritage。HumanEval(2021-07 + OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + 累計5年Heritage)競合 + 3年後継 + Pro Princeton → Pro OpenAI + Pro 2,294 Real Issues → Pro 164問 + Pro Patch生成 → Pro 関数生成 + Pro 実用Issue → Pro 単純 + 2年 vs 5年Heritage、SWE-Bench = Pro Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub + Pro Verified 500 + Pro Patch生成、HumanEval = Pro OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + Pro Pass@k指標 + Pro Codex論文同時 + Pro MIT + Pro 業界出発点 + Pro 5年Heritage。\n\n: UC Berkeley + Pro 知識評価Bench先駆 + Pro 57科目 + 累計6年Heritage。HumanEval(2021-07 + OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + 累計5年Heritage)競合 + 1年前世代 + Pro UC Berkeley → Pro OpenAI + Pro 57科目 → Pro 164問 + Pro 知識評価 → Pro Code生成 + 6年 vs 5年Heritage、MMLU = Pro UC Berkeley + Pro 知識評価先駆 + Pro 57科目 + Pro Multiple Choice、HumanEval = Pro OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + Pro Pass@k + Pro Function Signature + Pro Codex論文同時 + Pro 業界出発点。\n\n## よくある質問(FAQ)\n\n\nA: 2021-07 HumanEval + Codex論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI Coding Bench先駆 + 累計2021-2026年5年Pro Mainstream AI Coding Bench業界Top独占Heritage Pro Reference + 業界Pro Mainstream AI Coding Bench業界出発点Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Mainstream AI Bench継承(MMLU/MBPP/SWE-Bench/MT-Bench/Chatbot Arena/Aider Bench/τ-bench/LiveCodeBench継承)Pro Mainstream + 業界Pro Mainstream AI Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro 164問Python関数生成 + Pro Function Signature + Docstring + Test Cases構成 + Pro Pass@1/Pass@10/Pass@100評価指標Pro Famous(Pro 業界Pro標準指標) + Pro Codex論文同時発表(2021-07) + 業界Pro Famous 164問 + Pass@k + Codex同時 Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous AI評価指標継承(BLEU/ROUGE/BERTScore/Pass@k継承)Pro Mainstream + 業界Pro Famous AI評価指標業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro 派生Bench: HumanEval+/MultiPL-E/HumanEval-X/EvalPlus + Pro Pass@1 100%飽和(2024 Claude Sonnet 3.5/GPT-4o達成) + Pro 2025-HumanEval 2.0公開予定Pro Famous + Pro HumanEval系譜(論文 2021-07/HumanEval+ 2022/MultiPL-E 2022/HumanEval-X 2023/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Mainstream HumanEval+ + 100%飽和 + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Bench飽和現象継承(GLUE/SuperGLUE/MMLU継承)Pro Mainstream + 業界Pro Famous Bench飽和業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n## まとめ\n\n- 2021-07 HumanEval、Pro AI Coding Bench先駆\n- OpenAI + Mark Chen + Jerry Tworek + Heewoo Jun\n- Codex論文同時発表 + 164問Python関数\n- Pass@1/Pass@10/Pass@100 = 業界標準指標\n- MIT + GitHub 3K+ + HumanEval+/MultiPL-E + 5年