トランスフォーマーの論文を読む④全体
今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図1を掘り下げながら理解していきます。
まずはトランスフォーマーの全体像をざっくり理解することを目指します。
そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章(例えば英文)を受け取って出力文章(例えばフランス語)を生成します。
よって、トランスフォーマーを鳥瞰してみると、以下のようになります。
ここでは、英語の文章「Hello world!」がフランス語の「Bonjour le monde!」と翻訳されています。
でも、このままだと上述の論文の図1とは全然似ていませんね。そこで、この記事では、論文を読み解きながらトランスフォーマーの鳥瞰図から論文の図1へ徐々に近づけるように解説していきます。
この記事が気に入ったらチップで応援してみませんか?