テキストを一旦別言語に翻訳し、再び元の言語に戻すことで原文と異なる表現の同義文を得るデータ拡張手法。機械翻訳の不完全さが自然な表現の揺らぎを生み、訓練データの多様性を効果的に増加させる。Sennrich et al.(2016)がNMTの文脈で提案。
Back-Translation(逆翻訳)は、テキストデータ拡張の代表的手法の一つである。原文をターゲット言語に翻訳(Forward Translation)し、その訳文を再びソース言語に翻訳(Back Translation)することで、原文と意味は同じだが表現が異なる文を自動生成する。
この手法は Sennrich et al.(2016)が Neural Machine Translation(NMT)の訓練データ拡張として提案し、ターゲット側の単言語コーパスを活用してソース→ターゲットの翻訳モデルの性能を大幅に向上させた。LLM時代では、ファインチューニングデータの多様化やクロスリンガルなタスクのデータ拡張として広く活用されている。
Back-Translation の処理フローは以下の通りである。
原文(日本語): 「大規模言語モデルは自然言語処理を革新した」
↓ Forward Translation(日→英)
中間翻訳(英語): "Large language models have revolutionized natural language processing"
↓ Back Translation(英→日)
拡張文(日本語): 「大規模な言語モデルが自然言語処理に革命をもたらした」
翻訳モデルの特性(語彙選択・語順・敬体/常体の揺らぎ)が自然な表現バリエーションを生み出す。同一の原文に対して異なるサンプリング温度(temperature)や異なる言語ペア(英語・ドイツ語・フランス語等)を使うことで、1つの原文から複数の拡張文を得ることも可能である。
| モデル名 | 開発元 | パラメータ数 | 対応言語数 | BLEU (WMT'22 英→日) | 推奨用途 |
|---|---|---|---|---|---|
| NLLB-200 | Meta | 54.5B | 200 | 23.1 | 低リソース言語ペア |
| mBART-50 | Meta | 611M | 50 | 20.8 | 中規模バッチ処理 |
| MarianMT | Helsinki NLP | 74M-298M | 1,400+ ペア | 19.5 | 軽量・高速処理 |
| Google Translate API | - | 130+ | 25.3 | 高品質・商用利用 |
| DeepL API | DeepL | - | 31 | 26.8 | 欧州言語の高精度翻訳 |
| GPT-4o(翻訳モード) | OpenAI | - | 100+ | 27.1 | 最高品質・高コスト |
Back-Translation の品質は以下の要因に左右される。
| タスク | データセット | 拡張なし | BT 2倍 | BT 5倍 | BT 10倍 |
|---|---|---|---|---|---|
| 感情分析 | SST-2 | 88.2% | 89.7% | 90.4% | 90.6% |
| テキスト分類 | AG News | 91.3% | 92.1% | 92.5% | 92.4% |
| 自然言語推論 | MNLI | 84.6% | 85.8% | 86.3% | 86.1% |
| 質問応答 | SQuAD 2.0 | 76.3% | 78.1% | 79.2% | 78.8% |
5倍拡張が精度と計算コストのバランスが最もよく、10倍以上では飽和傾向が見られる。
Q1: Back-Translation はどの言語ペアが最も効果的ですか? A: 翻訳モデルの品質が高く、かつ原言語と文法構造が異なるペアが効果的。日本語テキストの拡張では英語(語順差が大きい)をピボットにするのが定番で、追加でドイツ語・中国語を使うと多様性がさらに向上する。
Q2: Back-Translation のコストはどの程度ですか? A: オープンソースモデル(MarianMT/NLLB)なら GPU 1台で 1,000文/分の処理が可能でコストは電気代のみ。Google Translate API は $20/100万文字、DeepL API は $25/100万文字が目安。10万件のデータセットを5倍拡張する場合、MarianMT で約8時間、Google API で約$100。
Q3: 機械翻訳の誤りが拡張データの品質を下げませんか? A: 翻訳誤りは一定割合で発生するが、意味保持フィルタ(コサイン類似度 0.85 閾値)を適用することで誤り文を 95% 以上除外できる。むしろ軽微な翻訳の揺らぎが自然なノイズとして機能し、モデルのロバスト性を向上させる効果がある。