AI技術の変遷4:テキスト生成やTransformerの仕組み、スケーリング則
前回のブログでは、オートエンコーダからVAE、GAN、テキストからの画像生成についてお話しました。
今回は、テキスト生成とWord2Vec、Transformerやアテンション機構、ChatGPT3.5に至るまでの流れやスケーリング則について解説します。
文章生成とWord2Vec
コンピュータが文章を認識し生成するためには、まず文章を要素、つまり単語や助詞に分解し、それを数値に変換する必要があります。2013年にGoogleの研究員によって発表された「Word2Vec」という手法が、自然言語処理において画期的な進展をもたらしました。
Word2Vecとは?
Word2Vecは、単語をベクトル(大きさと向きを持つ量)に変換する手法です。この方法では、意味が近い単語ほどベクトル空間で近い位置に配置されます。
ベクトル化の例
近い関係:例えば、「王様」と「女王様」はベクトル空間で近い位置にあり、向きも似ています。
遠い関係:一方、「王様」と「りんご」は遠い位置にあります。
このように、単語をベクトル化することで、意味の近い単語同士を近い位置に配置することができます。
言葉の計算
単語をベクトルに変換することで、以下のような言葉の計算が可能になります。
「王様 + 女性 - 男性 = 女王様」
「寿司 + ドイツ - 日本 = ソーセージ」
言葉をベクトル化することで、意味の足し算や引き算ができ、似たような言葉をベクトル空間から引き出せるようになります。
Transformerとアテンション機構
最新の文章生成AI(例: ChatGPT)では、Transformerというモデルが使われています。Transformerは2017年にGoogleの研究者たちによって発表されました。
アテンション機構
Transformerモデルの特徴の一つが、ベクトル空間から関連する情報を引き出す「アテンション機構」です。
アテンション機構を簡単に言うと、文章の中で重要な部分に注目する仕組みです。私たちが多くの情報を学習する際に、重要な部分をピックアップして記憶するのと似ています。
具体例での説明
例えば、私たちがChatGPT(笑)であり、友達がChatGPTを使うユーザーだとします。私たちはまず、大量の記事を読んで学習します。雑誌やインターネットから最新のトレンドについて学ぶ際に、例文から、重要な部分をピックアップして記憶しますよね。
さらにこの学習した情報を頭の中で整理します。この情報を答えとする質問はこうなる、など、問題を作りながら整理していきます。
その後、友達が「最近の流行って何?」と質問してきたとします。このとき、私たちは次のようなステップで応答を生成します。
応答生成の流れ
1. クエリの検索
まず、質問のベクトルに近いクエリを検索します。例えば、「最近の流行」という質問に対して、学習した情報の中から関連するクエリをいくつかヒットさせます。
2. クエリの重要度評価
次に、ヒットしたクエリの重要度を評価します。重要度の高いクエリを優先的に選びます。
3. バリューの選択
評価されたクエリから、重要度の高いバリュー(値)を選択し、それらを組み合わせて応答を生成します。
4. 応答の生成
結果として、
「最近の流行としては、ファッションではパステルカラーとオーバーサイズのブレザーが注目されています。技術分野では、人工知能と機械学習が主要なテーマです。また、音楽シーンでは電子ビートやフュージョンジャンルが流行しています。」
という応答が生成されます。
Transformer以降の進化:ChatGPT3.5に至るまで
自然言語処理(NLP)の分野では、Transformerモデルの登場以降、急速な進化が見られました。
2018年:初めてのGenerative Pre-trained Transformer(GPT-1)
2018年6月にOpenAIは初めてのGenerative Pre-trained Transformerモデル、GPT-1を発表しました。このモデルは事前学習を通じて、大量のテキストデータから文脈を理解し、生成する能力を持っていました。
2018年10月:Google BERTの登場
同年10月、GoogleはBERT(Bidirectional Encoder Representations from Transformers)を発表しました。BERTは質問応答や文の分類といったタスクで高い性能を発揮し、NLPの新たな標準となりました。
2019年:GPT-2のスケールアップ
2019年には、OpenAIがGPT-2を発表しました。このモデルは大幅にスケールアップされており、高品質なテキスト生成が可能となりました。GPT-2は、前モデルに比べて多くのパラメータを持ち、より自然な文章を生成できるようになりました。
2020年:GPT-3の登場
2020年に発表されたGPT-3は、1750億のパラメータを持ち、多様なタスクに対応できるモデルとして注目を集めました。GPT-3は、さらに高度な文章生成や質問応答、翻訳など、多岐にわたる応用が可能となりました。
GPT-3.5の進化とRLHF
その後、GPT-3をより人間が好ましいと感じる回答を生成するために、RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)という手法を取り入れ、GPT-3.5が開発されました。RLHFでは、最初に人間が良い、悪いを判断し、その報酬の付け方を学習させます。これにより、すべての応答に対して人間が判断しなくても、機械が好ましい回答を自動で増やすことが可能になります。
スケーリング則とその限界
2020年に発表されたスケーリング則によれば、Transformerモデルは、パラメータ数やトレーニングデータ量が増えるほど性能が向上することが示されました。しかし、OpenAIのCEOであるサム・アルトマン氏は、今後はスケーリング則に頼らない方法、特にRLHFなどの手法を重視すると述べています。
スケーリング則の課題
スケーリング則に従いGPUを増やすことで性能は向上しますが、大規模化に伴いデータセンターのコストや計算コストが増大するという課題があります。そのため、今後は学習させるデータの質を向上させる方向に進むと考えられています。
まとめ
テキスト生成とWord2Vec、Transformerやアテンション機構、ChatGPT3.5に至るまでの流れやスケーリング則について解説しました。
Transformerのスケーリング則により、大手企業によるAI用のGPUが買い占められる自体が起きています。ですが、大手企業のデーターセンターにおいても電力やコストの問題があり、さらなる拡張は難しい事態となっています。
実際に、AIの大手企業はLLMの小型モデル開発に乗り出し、2024年7月時点では、LLMの小型モデル競争が激化しています。さらに、今後の電力不足が懸念されており、プロセッサーやデーターセンターでの半導体の冷却に向けた取り組みが注目されています。今後の電力不足に対応する技術革新とAI大手企業各社の舵取りを見守りたいと思います。
次からは、AGI(汎用人工知能)についての話をします。