FLANはGoogle Researchが2021年に発表した、複数のNLPタスクを統一的な指示形式に変換してLLMをファインチューニングするInstruction Tuningの先駆的手法である。
FLANは、Google Researchが2021年に発表したInstruction Tuningの先駆的フレームワークである。複数のNLPタスクを自然言語の指示形式に統一変換し、単一のLLMに同時学習させることで、未知のタスクに対するゼロショット汎化性能を大幅に向上させた。
2021年当時、GPT-3(175Bパラメータ)はFew-shot学習で多くのタスクに対応できたが、ゼロショット(例示なし)での性能は不安定だった。Google Researchチームは「タスクを自然言語の指示として表現し、多数のタスクで同時にファインチューニングすれば、未知のタスクにもゼロショットで対応できるのではないか」という仮説を検証した。
初代FLANでは、LaMDA-PT 137Bモデルをベースに、62種類のNLPタスク(感情分析、自然言語推論、質問応答、翻訳、要約など)を10種類のテンプレートで指示形式に変換。各タスクを「以下の文章の感情を判定してください」「この質問に回答してください」といった自然言語指示に統一した。
| バージョン | 公開年 | タスク数 | ベースモデル | 主な成果 |
|---|---|---|---|---|
| FLAN | 2021 | 62 | LaMDA-PT 137B | ゼロショットでGPT-3超え |
| Flan-T5 | 2022 | 1,800+ | T5 (80M-11B) | オープンソースで最強クラス |
| Flan-PaLM | 2022 | 1,800+ | PaLM 540B | MMLU 75.2%達成 |
| Flan-UL2 | 2023 | 1,800+ | UL2 20B | コスパ最適バランス |
FLAN-v2(2022年、正式名称「Scaling Instruction-Finetuned Language Models」)では、タスク数を62から1,800以上に拡大し、473のデータセットを統合。Chain-of-Thought(CoT)プロンプティングのデータも混合することで、推論能力の向上も同時に達成した。
FLANの核心的な技術要素:
FLAN-PaLM 540Bの主要ベンチマーク成績:
FLAN-T5/UL2はHugging Faceで公開されており、すぐに利用可能:
google/flan-t5-small (80M): エッジ推論向け、CPU実行可能google/flan-t5-base (250M): 軽量タスク向け、RTX 3060で推論可能google/flan-t5-large (780M): バランス型、RTX 4060で快適google/flan-t5-xl (3B): 高品質、RTX 4090推奨google/flan-t5-xxl (11B): 最高品質、A100 40GB推奨google/flan-ul2 (20B): FLAN-T5-xxlを上回る、A100 80GB推奨| 手法 | 開発元 | タスク数 | アプローチ | ライセンス |
|---|---|---|---|---|
| FLAN | Apache 2.0 | 1,800+ | NLPベンチマーク変換 | 商用利用可 |
| T0 (BigScience) | BigScience | 62 | P3データセット | Apache 2.0 |
| InstructGPT | OpenAI | 非公開 | RLHF + SFT | 非公開 |
| OPT-IML | Meta | 1,500+ | NLPタスク統合 | 研究用のみ |
Q1: FLANとChatGPTの関係は何ですか? A: FLANはInstruction Tuningの学術的フレームワークで、タスク指示への汎化に焦点を当てています。ChatGPTはInstruction Tuning(SFT)に加えてRLHFを適用し、対話品質とsafety alignmentを追加した商用製品です。FLANの研究がChatGPTの技術的基盤の一部となっています。
Q2: FLAN-T5とT5の違いは何ですか? A: T5は事前学習のみのベースモデルで、タスク実行にはタスク固有のファインチューニングが必要です。FLAN-T5は1,800以上のタスクでInstruction Tuningされており、ゼロショットで多様なタスクに対応可能。同じモデルサイズでもFLAN-T5の方がゼロショット性能は大幅に高いです。
Q3: FLAN-T5は2026年現在でも使う価値がありますか? A: はい。特に小規模モデル(80M-3B)クラスではコスパが優れています。エッジデバイス向け推論、レイテンシ制約のあるリアルタイムアプリケーション、APIコスト削減のためのローカル推論に適しています。ただし、対話品質ではLlama 3.1/Qwen 3/Mistralの方が優れています。