原文の意味を保持しながら異なる語彙・構文で表現し直す自動言い換え生成手法。T5・PEGASUS・GPT系モデルを用いて高品質なパラフレーズを生成し、LLMの訓練データ多様化やテキスト分類の汎化性能向上に活用される。
Paraphrase Generation は、入力テキストの意味(semantics)を保持しながら、異なる語彙・構文・表現で同じ内容を言い換える技術である。自然言語処理(NLP)の古典的課題であるが、LLM 時代ではファインチューニングデータの多様化、評価データの拡張、テキスト正規化など多くの応用が広がっている。
Back-Translation がソース→ターゲット→ソースの「翻訳の揺らぎ」を利用するのに対し、Paraphrase Generation は単一言語内で直接的に表現を書き換えるため、意味保持の精度が高い。特に T5(Text-to-Text Transfer Transformer)の登場以降、事前学習モデルベースの高品質パラフレーズ生成が実用化された。
| 手法 | 原理 | 精度 | 多様性 | 処理速度 |
|---|---|---|---|---|
| 同義語置換 | WordNet/シソーラスで単語単位置換 | 中 | 低 | 非常に高速 |
| 構文変換 | 能動態↔受動態、名詞化等の構文ルール適用 | 高 | 低 | 高速 |
| テンプレート変換 | 定型パターンに基づく文構造の書き換え | 高 | 非常に低 | 非常に高速 |
| モデル | ベース | パラメータ | BLEU (QQP) | BERTScore | 推奨場面 |
|---|---|---|---|---|---|
| T5-Paraphraser | T5-base | 220M | 42.8 | 0.923 | 汎用パラフレーズ |
| PEGASUS-Paraphrase | PEGASUS | 568M | 44.1 | 0.931 | 高品質要約的言い換え |
| Parrot | T5-base | 220M | 38.5 | 0.908 | 多様性重視 |
| ChatGPT/GPT-4 | GPT-4 | - | 48.3 | 0.952 | 最高品質・高コスト |
| Claude 3.5 Sonnet | Claude | - | 47.6 | 0.948 | 高品質・指示追従 |
近年では、言い換えのスタイルを制御する手法が発展している。
パラフレーズの品質は以下の指標で評価される。
Q1: Paraphrase と Back-Translation のどちらが品質が高いですか? A: 意味保持の精度では Paraphrase が優る(BERTScore 0.93 vs BT の 0.88 程度)。一方、表現の多様性では Back-Translation が優る。最良の結果は両手法の組み合わせで得られ、パラフレーズで意味精度の高い拡張 + BT で多様性を補完する構成が推奨される。
Q2: パラフレーズ生成の処理速度は? A: T5-base で GPU(A100)使用時に約 500 文/分、GPT-4 API 経由で約 100 文/分(レート制限依存)。10万文のデータセットを3倍拡張する場合、T5-base で約10時間、GPT-4 API で約50時間+$300-500のコスト。
Q3: 日本語のパラフレーズ生成に最適なモデルは? A: 日本語特化では mT5-base のパラフレーズファインチューニング版が実績豊富。高品質を求めるなら GPT-4o や Claude 3.5 Sonnet の日本語パラフレーズ能力が最も高い。JParaCrawl(1,000万ペア)を活用した fine-tuning も有効。
| DIPPER | T5-XXL | 11B | 45.2 | 0.935 | 段落レベルの言い換え |