概要
Attention機構は、ニューラルネットワークが入力シーケンスの特定の部分に重点を置くことを可能にするメカニズム。特に、Transformerモデルにおいて、自己注意機構 (Self-Attention) は、文脈理解と長距離依存性の学習に不可欠な役割を果たす。従来のRNNやLSTMに比べ、並列処理が可能で、勾配消失問題を緩和する。
Attention機構は、Query (クエリ)、Key (キー)、Value (バリュー) の3つの要素で構成される。Queryは、どの情報に注意を払うかを決定する役割。Keyは、各要素の特徴を表し、Queryとの関連度を計算するために使用される。Valueは、注意を払うべき要素の値。 注意スコアは、QueryとKeyの内積(または他の類似度関数)で計算され、通常はソフトマックス関数を通して確率分布に変換される。この確率分布が注意の重みとなり、Valueに掛け合わされ、加重和がAttentionの出力となる。自己注意機構では、Query, Key, Valueはすべて同じ入力シーケンスから派生する。Multi-Head Attentionは、複数のAttention機構を並列に実行することで、より多様な文脈情報を捉えることを可能にする。