Google Researchが開発したLLMの指示追従（Instruction Following）能力を評価するベンチマーク。「回答を300語以内で」「箇条書き5項目で」「JSONフォーマットで」等の25種類の検証可能な制約を含む541のプロンプトで、LLMが指示を正確に守れるかを客観的に測定する。

IFEvalとは？（アイエフイーバル）わかりやすく解説

IFEvalとは

IFEval（Instruction-Following Eval）は、Google Researchが2023年11月に公開したLLM評価ベンチマークである。「LLMが人間の指示をどれだけ正確に守れるか」を、プログラム的に検証可能な制約を使って客観的に測定する。541のプロンプトに25種類の検証可能な制約（Verifiable Instruction）を埋め込み、回答が各制約を満たしているかを自動チェックする。

検証可能な制約（Verifiable Instructions）

IFEvalの核心は、LLMの回答が指示を守っているかをプログラムで自動判定できる25種類の制約。以下は代表的なもの。

フォーマット制約

制約ID	制約内容	検証方法
`json_format`	回答をJSON形式で出力	JSONパース成功判定
`markdown_format`	Markdownテーブルを含める	正規表現マッチ
`bullet_list`	箇条書きN項目で回答	リスト要素数カウント
`numbered_list`	番号付きリストで回答	番号付きリスト検出
`title_case`	タイトルケースで記述

制約ID	制約内容	検証方法
`num_words`	N語以内/以上で回答	ワードカウント
`num_sentences`	N文以内/以上で回答	文分割カウント
`num_paragraphs`	N段落で回答	段落分割カウント

制約ID	制約内容	検証方法
`include_keyword`	特定キーワードを含める	文字列検索
`exclude_keyword`	特定キーワードを含めない	文字列不在確認
`frequency`	特定語をN回使用	出現頻度カウント
`postscript`	追伸（P.S.）を末尾に付ける	末尾パターン検出

制約ID	制約内容	検証方法
`no_comma`	カンマを使わない	文字不在確認
`all_uppercase`	全て大文字で回答	文字種判定
`all_lowercase`	全て小文字で回答	文字種判定
`language`	特定言語で回答	言語検出

メトリクス	単位	説明
Prompt-Level Strict	プロンプト	1つのプロンプト内の全制約を満たした割合
Prompt-Level Loose	プロンプト	各制約に若干の許容幅を持たせた判定
Instruction-Level Strict	個別制約	全制約の充足率（個別カウント）
Instruction-Level Loose	個別制約	許容幅ありの個別制約充足率

モデル	Prompt-Strict	Prompt-Loose	Inst-Strict	Inst-Loose
GPT-4o	83.4%	86.7%	88.1%	90.5%
Claude 3.5 Sonnet	86.1%	89.2%	90.3%	92.1%
Gemini 1.5 Pro	80.2%	83.5%	85.4%	87.8%
Llama 3.1 70B	77.8%	81.3%	83.2%	85.9%
Mistral Large 2	73.5%	77.1%	79.8%	82.4%

メニュー

IFEval（アイエフイーバル）

メニュー

IFEval（アイエフイーバル）

IFEvalとは

検証可能な制約（Verifiable Instructions）

フォーマット制約

この用語に関連するコンテンツ

長さ制約

含有制約

スタイル制約

評価メトリクス

主要モデルのスコア比較

実務での重要性

他ベンチマークとの補完関係

よくある質問（FAQ）

Q1: IFEvalのスコアが高いモデルは日本語でも指示に従う？

Q2: 指示追従と回答品質は別？

Q3: プロンプトエンジニアリングでIFEvalスコアを改善できる？

関連用語

ベンチマーク	評価対象	IFEvalとの関係
MMLU-Pro	学術知識・推論	知識面を補完
Arena-Hard	対話品質	品質面を補完
LiveBench	汚染フリー総合	LiveBenchの指示追従カテゴリはIFEval派生
BFCL	関数呼び出し	ツール利用の制約面を補完