概要
Transformerは、自然言語処理において革命的な成果をもたらしたニューラルネットワークアーキテクチャ。アテンションメカニズムを基盤とし、再帰的な構造(RNN)を用いずに並列処理が可能となり、学習効率と性能を向上させた。特に大規模言語モデル(LLM)の基盤として広く採用されている。
Transformerは、エンコーダとデコーダの2つの主要コンポーネントで構成される。エンコーダは入力シーケンスを処理し、その文脈を表現する隠れ層ベクトルを生成する。デコーダは、エンコーダからの情報と自身が生成した過去の出力を基に次のトークンを予測する。
アテンションメカニズムは、入力シーケンス内の各トークン間の関係性を学習し、関連性の高いトークンに注意を向け、文脈を考慮した表現を可能にする。特に、Self-Attentionは、入力シーケンス内のトークン間の関係性を直接的に学習するのに役立つ。Multi-Head Attentionは、複数の異なるアテンションヘッドを用いることで、多様な文脈情報を捉える。Position Encodingは、トークンの位置情報を埋め込むことで、順序情報をネットワークに与える。