見出し画像

翻訳から汎用 AI へ:Transformer の進化と Alec Radford 氏の功績

お疲れ様です。

Transformerアーキテクチャの登場以来、世の中は大きく変わり、ChatGPTが日常生活に浸透してきています。

よく「Attention is All You Need」の論文が全ての始まりであり、それをきっかけに現在のLLM開発がスタートしたと言われています。

確かにその通りですが、別の視点から見ると、Transformerはあくまで翻訳タスクのために提案されたアーキテクチャです。その潜在的な可能性に真に気づいたのは、Transformerのデコーダ側のみを使い、次の単語を予測し続けるアーキテクチャを提案したOpenAIの研究者たちではないかと考えています。

このデコーダ部分のみを活用するアーキテクチャは、人間が思考する際に次の単語を予測し続けるプロセスに似ており、これが結果としてLLMブームにつながったのではないかと考えています。

最初にGoogleが提案したTransformerは翻訳タスクに特化していたため、その知見をオープンに公開できましたが、もしデコーダ側に特化したモデルを当初から公開しようとしたら「これって検索サービスを脅かすのでは?」と社内で議論が起こり、場合によっては公開が見送られた可能性もあると考えています。

つまり、Transformerアーキテクチャは翻訳タスクのためのものとして評価されていますが、デコーダ側のみを活用し、より汎用的なタスクをこなすアーキテクチャを提案したOpenAIの功績は非常に大きいと思います。

具体的には、「Improving Language Understanding by Generative Pre-Training」という論文がGPTシリーズの最初のものであり、Transformerアーキテクチャのデコータ側を取り出した構造を提案しています。

この論文の筆頭著者であるAlec Radford氏の功績は非常に大きく、「Attention is All You Need」と同じくらい評価されても良いのではないかと考えています。

誰がどのような功績を残したのか、自分なりに考えるのは楽しいですね。

最後までお読みいただき、ありがとうございました。

いいなと思ったら応援しよう!