言語AIの進化史⑬再帰型ニューラルネットワーク
前回は、ジョーダン・ネットワークとエルマン・ネットワークを紹介しました。
中でも、エルマン・ネットワークは、基本的な再帰型ニューラルネットワーク(RNN)であり、その後のRNNの原型となっています。
隠れ状態を使ってシーケンスの文脈を保持する
隠れ状態が再帰的に次のステップに伝達される構造がある
時間軸に沿った誤差逆伝播法(Backpropagation Through Time、BPTT)
これを(単純な)RNNと捉えることもできます。
ただし、RNNは異なるタスクに対応するために、シーケンスの扱い方も多様に進化してきました。その過程で登場したさまざまな構成パターンを総称し、RNNという括りで呼ぶこともよくあります。その場合は、「RNN」と言っても何年もの時を経て追加された構成や機能を含むことになります。
今回は、RNNを大きな枠組みと捉え、図と数式を織り交ぜて解説します。
単純なニューラルネットワークからはじめ、再帰型の仕組みを導入し、最終的には「アテンション付き多層の双方向RNNエンコーダ・デコーダ」まで紹介します。BPTTについては次回に解説します。
RNNを枠組み(フレームワーク)として幅広く理解しておくと、後に登場するLSTMやトランスフォーマーの構造の理解も深まります。
なお、PyTorchを使ったより実践的なRNNの解説はこちらの記事にあります。
この記事が気に入ったらチップで応援してみませんか?