HumanEval / MBPP コード生成評価とは？（ヒューマンイーバル / エムビーピーピー コードセイセイヒョウカ）わかりやすく解説

Q: HumanEval / MBPP コード生成評価とは？

LLMのプログラミング能力を測定するコード生成ベンチマーク。HumanEval は164問のPython関数生成タスク、MBPP は974問の基本プログラミング問題で構成される。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

HumanEval / MBPP コード生成評価とは？（ヒューマンイーバル / エムビーピーピーコードセイセイヒョウカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

評価メトリクス: pass@k

コード生成の評価には pass@k メトリクスが標準的に使用される。これは「k回の生成試行のうち少なくとも1回正解する確率」を意味する。

メトリクス	意味	用途
pass@1	1回の生成で正解する確率	実用性能の指標（最重要）
pass@10	10回の生成で少なくとも1回正解する確率	モデルの潜在能力
pass@100	100回で少なくとも1回正解する確率	理論上限の把握

pass@k の算出方法

素朴な推定（k回生成して正解率を求める）ではバイアスが生じるため、以下の不偏推定量を使用する。

n回の生成のうち c 回正解した場合:

pass@k = 1 - C(n-c, k) / C(n, k)

ここで C(a, b) は二項係数。実装では対数空間で計算し、数値安定性を確保する。

主要モデルのスコア比較

モデル

ベンチマーク	問題数	言語	評価対象	難易度
HumanEval	164	Python	単一関数生成	中
MBPP	974	Python	基本プログラミング	低〜中
EvalPlus	164+974	Python	エッジケース対応力	高
MultiPL-E	164×18	18言語	多言語コード生成	中
SWE-Bench	2,294	Python	実プロジェクトバグ修正	非常に高
LiveCodeBench	動的	多言語	競技プログラミング（汚染防止）	高

# HumanEval の評価
lm_eval --model hf \
  --model_args pretrained=bigcode/starcoder2-15b \
  --tasks humaneval \
  --num_fewshot 0 \
  --generation_kwargs temperature=0.2,top_p=0.95 \
  --output_path results/humaneval/

# pass@10 の算出（n=20回生成）
lm_eval --model hf \
  --model_args pretrained=bigcode/starcoder2-15b \
  --tasks humaneval \
  --num_fewshot 0 \
  --generation_kwargs temperature=0.8,top_p=0.95,n=20 \
  --output_path results/humaneval_pass10/

GPT-4o (2024)	90.2%	86.8%	コード特化チューニング
Claude 3.5 Sonnet	92.0%	90.2%	SWE-Bench でも高スコア
DeepSeek-Coder-V2	90.2%	89.4%	コード特化 MoE
Llama 3.1 405B	89.0%	84.8%	汎用モデル最大級
CodeLlama 34B	48.8%	55.2%	コード特化（2023）
GPT-3.5 Turbo	48.1%	52.2%	2023年時点
StarCoder2 15B	46.3%	54.1%	OSS コードモデル

メニュー

HumanEval / MBPP コード生成評価（ヒューマンイーバル / エムビーピーピーコードセイセイヒョウカ）

メニュー

HumanEval / MBPP コード生成評価（ヒューマンイーバル / エムビーピーピーコードセイセイヒョウカ）

この用語に関連するコンテンツ

HumanEval / MBPP とは

評価メトリクス: pass@k

pass@k の算出方法

主要モデルのスコア比較

発展的ベンチマーク

EvalPlus

MultiPL-E

SWE-Bench

評価実行の実践ガイド

lm-evaluation-harness での実行

温度パラメータの影響

よくある質問（FAQ）

Q1: HumanEval の pass@1 が90%を超えるモデルは実務でも信頼できるか？

Q2: HumanEval のデータ汚染はどの程度深刻か？

Q3: Python 以外の言語でのコード生成能力はどう評価すべきか？

関連用語