翻訳から汎用 AI へ:Transformer の進化と Alec Radford 氏の功績
お疲れ様です。
Transformerアーキテクチャの登場以来、世の中は大きく変わり、ChatGPTが日常生活に浸透してきています。
よく「Attention is All You Need」の論文が全ての始まりであり、それをきっかけに現在のLLM開発がスタートしたと言われています。
確かにその通りですが、別の視点から見ると、Transformerはあくまで翻訳タスクのために提案されたアーキテクチャです。その潜在的な可能性に真に気づいたのは、Transformerのデコーダ側のみを使い、次の単語を予測し続けるアーキテクチャを提案したOpenAIの研究者たちではないかと考えています。
このデコーダ部分のみを活用するアーキテクチャは、人間が思考する際に次の単語を予測し続けるプロセスに似ており、これが結果としてLLMブームにつながったのではないかと考えています。
最初にGoogleが提案したTransformerは翻訳タスクに特化していたため、その知見をオープンに公開できましたが、もしデコーダ側に特化したモデルを当初から公開しようとしたら「これって検索サービスを脅かすのでは?」と社内で議論が起こり、場合によっては公開が見送られた可能性もあると考えています。
つまり、Transformerアーキテクチャは翻訳タスクのためのものとして評価されていますが、デコーダ側のみを活用し、より汎用的なタスクをこなすアーキテクチャを提案したOpenAIの功績は非常に大きいと思います。
具体的には、「Improving Language Understanding by Generative Pre-Training」という論文がGPTシリーズの最初のものであり、Transformerアーキテクチャのデコータ側を取り出した構造を提案しています。
この論文の筆頭著者であるAlec Radford氏の功績は非常に大きく、「Attention is All You Need」と同じくらい評価されても良いのではないかと考えています。
誰がどのような功績を残したのか、自分なりに考えるのは楽しいですね。
最後までお読みいただき、ありがとうございました。