BLEUは機械翻訳の精度を測るn-gram一致率ベースの指標、ROUGEはテキスト要約の品質を再現率ベースで測定する指標。いずれも参照テキストとの一致度を数値化するが、意味的な類似度は捕捉しきれない限界がある。
BLEUとROUGEは、自然言語処理(NLP)における最も歴史ある自動評価指標である。BLEUは2002年にIBMが機械翻訳評価用に提案し、ROUGEは2004年にUSCのChin-Yew Linが要約評価用に開発した。2026年現在でも翻訳・要約の基盤指標として広く使用されているが、LLM時代には意味的類似度を測るBERTScoreやCOMETとの併用が標準になっている。
BLEUは「生成テキストのn-gramのうち、参照テキストにも出現する割合」(精度ベース)を測定する。1-gramから4-gramまでの精度を幾何平均し、短すぎる生成にペナルティ(Brevity Penalty)を課す。スコアは0-100%で表され、人間翻訳品質の目安はBLEU 30-40程度とされる。
ROUGEは「参照テキストのn-gramのうち、生成テキストにも出現する割合」(再現率ベース)を測定する。ROUGE-1(unigram)、ROUGE-2(bigram)、ROUGE-L(最長共通部分列)の3バリアントが標準で、要約タスクではROUGE-Lが最も重視される。
BLEUの計算ステップ:
ROUGEの計算ステップ:
| タスク | 指標 | 低品質 | 中品質 | 高品質 | SOTA (2026) |
|---|---|---|---|---|---|
| 英独翻訳 | BLEU | 0-15 | 15-30 | 30-40 | 42.8 (WMT2023) |
| 英日翻訳 | BLEU | 0-10 | 10-25 | 25-35 | 38.2 (GPT-4o) |
| ニュース要約 | ROUGE-L | 0-20 | 20-35 | 35-50 | 47.3 (Claude 4) |
| 論文要約 | ROUGE-2 | 0-10 | 10-20 | 20-30 | 28.5 (Gemini 2.0) |
| 対話応答 | BLEU | 0-5 | 5-15 | 15-25 | 不適(対話は多様性が重要) |
Q1: BLEUスコア0.3は良いスコアですか? A: 翻訳タスクではBLEU 30(0.3)は「良好な品質」に相当する。ただしドメインと言語ペアで基準は異なり、英仏翻訳では40以上が期待される一方、英日翻訳では25以上で商用品質と見なされることが多い。
Q2: BLEUとROUGEのどちらを使うべきですか? A: タスクによる。翻訳にはBLEU(精度ベース)、要約にはROUGE(再現率ベース)が適している。翻訳では「余計なことを言わない」精度が重要で、要約では「重要情報を漏らさない」再現率が重要だからである。
Q3: BLEU/ROUGEだけでLLMの品質を判断して良いですか? A: 不十分である。BLEU/ROUGEは表面的なn-gram一致しか測れず、意味的な品質・事実正確性・安全性は評価できない。2026年の標準はBLEU/ROUGE + BERTScore/COMET + LLM-as-a-Judgeの3層評価である。