Google Researchが開発したLLMの指示追従(Instruction Following)能力を評価するベンチマーク。「回答を300語以内で」「箇条書き5項目で」「JSONフォーマットで」等の25種類の検証可能な制約を含む541のプロンプトで、LLMが指示を正確に守れるかを客観的に測定する。
IFEval(Instruction-Following Eval)は、Google Researchが2023年11月に公開したLLM評価ベンチマークである。「LLMが人間の指示をどれだけ正確に守れるか」を、プログラム的に検証可能な制約を使って客観的に測定する。541のプロンプトに25種類の検証可能な制約(Verifiable Instruction)を埋め込み、回答が各制約を満たしているかを自動チェックする。
IFEvalの核心は、LLMの回答が指示を守っているかをプログラムで自動判定できる25種類の制約。以下は代表的なもの。
| 制約ID | 制約内容 | 検証方法 |
|---|---|---|
json_format | 回答をJSON形式で出力 | JSONパース成功判定 |
markdown_format | Markdownテーブルを含める | 正規表現マッチ |
bullet_list | 箇条書きN項目で回答 | リスト要素数カウント |
numbered_list | 番号付きリストで回答 | 番号付きリスト検出 |
title_case | タイトルケースで記述 |
| 大文字・小文字パターン検証 |
| 制約ID | 制約内容 | 検証方法 |
|---|---|---|
num_words | N語以内/以上で回答 | ワードカウント |
num_sentences | N文以内/以上で回答 | 文分割カウント |
num_paragraphs | N段落で回答 | 段落分割カウント |
| 制約ID | 制約内容 | 検証方法 |
|---|---|---|
include_keyword | 特定キーワードを含める | 文字列検索 |
exclude_keyword | 特定キーワードを含めない | 文字列不在確認 |
frequency | 特定語をN回使用 | 出現頻度カウント |
postscript | 追伸(P.S.)を末尾に付ける | 末尾パターン検出 |
| 制約ID | 制約内容 | 検証方法 |
|---|---|---|
no_comma | カンマを使わない | 文字不在確認 |
all_uppercase | 全て大文字で回答 | 文字種判定 |
all_lowercase | 全て小文字で回答 | 文字種判定 |
language | 特定言語で回答 | 言語検出 |
IFEvalは4つのメトリクスでスコアを算出する。
| メトリクス | 単位 | 説明 |
|---|---|---|
| Prompt-Level Strict | プロンプト | 1つのプロンプト内の全制約を満たした割合 |
| Prompt-Level Loose | プロンプト | 各制約に若干の許容幅を持たせた判定 |
| Instruction-Level Strict | 個別制約 | 全制約の充足率(個別カウント) |
| Instruction-Level Loose | 個別制約 | 許容幅ありの個別制約充足率 |
Strict vs Loose: Looseモードでは、たとえば「300語以内」の制約に±10%の許容幅(330語まで可)を設ける。Strictは厳密に300語以内のみ合格。
| モデル | Prompt-Strict | Prompt-Loose | Inst-Strict | Inst-Loose |
|---|---|---|---|---|
| GPT-4o | 83.4% | 86.7% | 88.1% | 90.5% |
| Claude 3.5 Sonnet | 86.1% | 89.2% | 90.3% | 92.1% |
| Gemini 1.5 Pro | 80.2% | 83.5% | 85.4% | 87.8% |
| Llama 3.1 70B | 77.8% | 81.3% | 83.2% | 85.9% |
| Mistral Large 2 | 73.5% | 77.1% | 79.8% | 82.4% |
指示追従能力は以下の実用シナリオに直結する。
| ベンチマーク | 評価対象 | IFEvalとの関係 |
|---|---|---|
| MMLU-Pro | 学術知識・推論 | 知識面を補完 |
| Arena-Hard | 対話品質 | 品質面を補完 |
| LiveBench | 汚染フリー総合 | LiveBenchの指示追従カテゴリはIFEval派生 |
| BFCL | 関数呼び出し | ツール利用の制約面を補完 |
A: IFEvalは英語のみの評価。日本語での指示追従能力は別途検証が必要。ただし英語でのIFEvalスコアが高いモデルは、日本語でも制約順守傾向が強い経験則がある。
A: 別である。IFEvalは「形式的な制約を守れるか」だけを測定。回答の内容の正確性・有用性はMMLU-ProやArena-Hard-Autoで評価する。形式は完璧だが内容が薄い回答でも、IFEvalでは高スコアになり得る。
A: 一定程度は可能。「以下の制約を厳密に守ってください」等のメタ指示を追加するとスコアが向上するモデルもある。ただしIFEvalはモデル本体の能力を測るベンチマークであり、プロンプトの追加は公式評価では行わない。