BLEU・ROUGEスコアとは？（ブルー・ルージュスコア）わかりやすく解説

Q: BLEU・ROUGEスコアとは？

BLEUは機械翻訳の精度を測るn-gram一致率ベースの指標、ROUGEはテキスト要約の品質を再現率ベースで測定する指標。いずれも参照テキストとの一致度を数値化するが、意味的な類似度は捕捉しきれない限界がある。

BLEU・ROUGEの計算方法

BLEUの計算ステップ：

Step 1: 生成テキストと参照テキストのn-gram（n=1,2,3,4）を抽出

Step 2: 各nについてClipped Precision（参照テキストでの最大出現回数でクリップした精度）を計算

Step 3: 4つの精度の幾何平均を算出（通常、均等重み w=0.25）

Step 4: Brevity Penalty = min(1, exp(1 - r/c)) を乗算（rは参照長、cは生成長）

ROUGEの計算ステップ：

ROUGE-N: Recall = (参照と生成の共通n-gram数) / (参照のn-gram総数)

ROUGE-L: LCS（最長共通部分列）の長さを用いたF1スコア

ROUGE-LSum: 文単位でROUGE-Lを計算し平均。長文要約向け

主要NLPタスクでのスコア水準

タスク	指標	低品質	中品質	高品質	SOTA (2026)
英独翻訳	BLEU	0-15	15-30	30-40	42.8 (WMT2023)
英日翻訳	BLEU	0-10	10-25	25-35	38.2 (GPT-4o)
ニュース要約	ROUGE-L	0-20	20-35	35-50	47.3 (Claude 4)
論文要約	ROUGE-2	0-10	10-20	20-30	28.5 (Gemini 2.0)
対話応答	BLEU	0-5	5-15	15-25	不適（対話は多様性が重要）

BLEUとROUGEの限界

表面的な一致のみ: 「大きな犬が走る」と「巨大な犬が駆ける」は意味が同じだがBLEU/ROUGEでは低スコアになる。パラフレーズやスタイルの違いを正しく評価できない

流暢性の非評価: n-gram一致率が高くても文法的に不自然な文が高スコアになりうる

長文での性能劣化: 要約が長くなるとROUGEスコアが統計的に高くなりやすく、簡潔な高品質要約が過小評価される

言語依存性: 日本語・中国語など分かち書きのない言語ではトークナイズ方法でスコアが大きく変動する。MeCabとSentencePieceで日本語BLEU値が10ポイント以上異なる事例がある

2026年の代替・補完指標

COMET: WMT公式の学習型翻訳評価指標。XLM-RoBERTaベースで人間評価との相関がr=0.98と最高水準。BLEUのr=0.72を大幅に上回る

BERTScore: BERT埋め込みによる意味的類似度。パラフレーズに対応可能でF1=0.90以上が高品質の目安

BLEURT: BERTをベースにWMT人間評価データで追加学習した指標。BLEUより人間判断に近い

chrF++: 文字n-gramベースの指標。形態素が豊富な言語（トルコ語・フィンランド語等）でBLEUより安定

よくある質問（FAQ）

Q1: BLEUスコア0.3は良いスコアですか？ A: 翻訳タスクではBLEU 30（0.3）は「良好な品質」に相当する。ただしドメインと言語ペアで基準は異なり、英仏翻訳では40以上が期待される一方、英日翻訳では25以上で商用品質と見なされることが多い。

Q2: BLEUとROUGEのどちらを使うべきですか？ A: タスクによる。翻訳にはBLEU（精度ベース）、要約にはROUGE（再現率ベース）が適している。翻訳では「余計なことを言わない」精度が重要で、要約では「重要情報を漏らさない」再現率が重要だからである。

Q3: BLEU/ROUGEだけでLLMの品質を判断して良いですか？ A: 不十分である。BLEU/ROUGEは表面的なn-gram一致しか測れず、意味的な品質・事実正確性・安全性は評価できない。2026年の標準はBLEU/ROUGE + BERTScore/COMET + LLM-as-a-Judgeの3層評価である。

まとめ

BLEUは翻訳の精度、ROUGEは要約の再現率を測る古典的な自動評価指標

n-gram一致に基づくため、意味的な類似度やパラフレーズには対応できない

2026年ではCOMET（翻訳）やBERTScore（汎用）との併用が標準

日本語等の非分かち書き言語ではトークナイザによるスコア変動に要注意

メニュー

BLEU・ROUGEスコア（ブルー・ルージュスコア）

この用語に関連するコンテンツ

メニュー

BLEU・ROUGEスコア（ブルー・ルージュスコア）

この用語に関連するコンテンツ

概要

BLEU・ROUGEの計算方法

主要NLPタスクでのスコア水準

BLEUとROUGEの限界

2026年の代替・補完指標

よくある質問（FAQ）

まとめ

関連用語