AI技術の変遷4：テキスト生成やTransformerの仕組み、スケーリング則

2024年7月25日 13:55

前回のブログでは、オートエンコーダからVAE、GAN、テキストからの画像生成についてお話しました。
今回は、テキスト生成とWord2Vec、Transformerやアテンション機構、ChatGPT3.5に至るまでの流れやスケーリング則について解説します。

文章生成とWord2Vec

コンピュータが文章を認識し生成するためには、まず文章を要素、つまり単語や助詞に分解し、それを数値に変換する必要があります。2013年にGoogleの研究員によって発表された「Word2Vec」という手法が、自然言語処理において画期的な進展をもたらしました。

Word2Vecとは？

Word2Vecは、単語をベクトル（大きさと向きを持つ量）に変換する手法です。この方法では、意味が近い単語ほどベクトル空間で近い位置に配置されます。

ベクトル化の例

近い関係：例えば、「王様」と「女王様」はベクトル空間で近い位置にあり、向きも似ています。
遠い関係：一方、「王様」と「りんご」は遠い位置にあります。

このように、単語をベクトル化することで、意味の近い単語同士を近い位置に配置することができます。

参考：GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
https://www.youtube.com/watch?v=KlZ-QmPteqM

言葉の計算

単語をベクトルに変換することで、以下のような言葉の計算が可能になります。

「王様 + 女性 - 男性 = 女王様」
「寿司 + ドイツ - 日本 = ソーセージ」

言葉をベクトル化することで、意味の足し算や引き算ができ、似たような言葉をベクトル空間から引き出せるようになります。

Transformerとアテンション機構

最新の文章生成AI（例: ChatGPT）では、Transformerというモデルが使われています。Transformerは2017年にGoogleの研究者たちによって発表されました。

アテンション機構

Transformerモデルの特徴の一つが、ベクトル空間から関連する情報を引き出す「アテンション機構」です。
アテンション機構を簡単に言うと、文章の中で重要な部分に注目する仕組みです。私たちが多くの情報を学習する際に、重要な部分をピックアップして記憶するのと似ています。

具体例での説明

例えば、私たちがChatGPT（笑）であり、友達がChatGPTを使うユーザーだとします。私たちはまず、大量の記事を読んで学習します。雑誌やインターネットから最新のトレンドについて学ぶ際に、例文から、重要な部分をピックアップして記憶しますよね。

さらにこの学習した情報を頭の中で整理します。この情報を答えとする質問はこうなる、など、問題を作りながら整理していきます。

その後、友達が「最近の流行って何？」と質問してきたとします。このとき、私たちは次のようなステップで応答を生成します。

応答生成の流れ

1. クエリの検索

まず、質問のベクトルに近いクエリを検索します。例えば、「最近の流行」という質問に対して、学習した情報の中から関連するクエリをいくつかヒットさせます。

2. クエリの重要度評価

次に、ヒットしたクエリの重要度を評価します。重要度の高いクエリを優先的に選びます。

3. バリューの選択

評価されたクエリから、重要度の高いバリュー（値）を選択し、それらを組み合わせて応答を生成します。

4. 応答の生成

結果として、
「最近の流行としては、ファッションではパステルカラーとオーバーサイズのブレザーが注目されています。技術分野では、人工知能と機械学習が主要なテーマです。また、音楽シーンでは電子ビートやフュージョンジャンルが流行しています。」
という応答が生成されます。

Transformer以降の進化：ChatGPT3.5に至るまで

自然言語処理（NLP）の分野では、Transformerモデルの登場以降、急速な進化が見られました。

2018年：初めてのGenerative Pre-trained Transformer（GPT-1）

2018年6月にOpenAIは初めてのGenerative Pre-trained Transformerモデル、GPT-1を発表しました。このモデルは事前学習を通じて、大量のテキストデータから文脈を理解し、生成する能力を持っていました。

2018年10月：Google BERTの登場

同年10月、GoogleはBERT（Bidirectional Encoder Representations from Transformers）を発表しました。BERTは質問応答や文の分類といったタスクで高い性能を発揮し、NLPの新たな標準となりました。

2019年：GPT-2のスケールアップ

2019年には、OpenAIがGPT-2を発表しました。このモデルは大幅にスケールアップされており、高品質なテキスト生成が可能となりました。GPT-2は、前モデルに比べて多くのパラメータを持ち、より自然な文章を生成できるようになりました。

2020年：GPT-3の登場

2020年に発表されたGPT-3は、1750億のパラメータを持ち、多様なタスクに対応できるモデルとして注目を集めました。GPT-3は、さらに高度な文章生成や質問応答、翻訳など、多岐にわたる応用が可能となりました。

GPT-3.5の進化とRLHF

その後、GPT-3をより人間が好ましいと感じる回答を生成するために、RLHF（Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習）という手法を取り入れ、GPT-3.5が開発されました。RLHFでは、最初に人間が良い、悪いを判断し、その報酬の付け方を学習させます。これにより、すべての応答に対して人間が判断しなくても、機械が好ましい回答を自動で増やすことが可能になります。

スケーリング則とその限界

2020年に発表されたスケーリング則によれば、Transformerモデルは、パラメータ数やトレーニングデータ量が増えるほど性能が向上することが示されました。しかし、OpenAIのCEOであるサム・アルトマン氏は、今後はスケーリング則に頼らない方法、特にRLHFなどの手法を重視すると述べています。

スケーリング則の課題

スケーリング則に従いGPUを増やすことで性能は向上しますが、大規模化に伴いデータセンターのコストや計算コストが増大するという課題があります。そのため、今後は学習させるデータの質を向上させる方向に進むと考えられています。

まとめ

テキスト生成とWord2Vec、Transformerやアテンション機構、ChatGPT3.5に至るまでの流れやスケーリング則について解説しました。

Transformerのスケーリング則により、大手企業によるAI用のGPUが買い占められる自体が起きています。ですが、大手企業のデーターセンターにおいても電力やコストの問題があり、さらなる拡張は難しい事態となっています。

実際に、AIの大手企業はLLMの小型モデル開発に乗り出し、2024年7月時点では、LLMの小型モデル競争が激化しています。さらに、今後の電力不足が懸念されており、プロセッサーやデーターセンターでの半導体の冷却に向けた取り組みが注目されています。今後の電力不足に対応する技術革新とAI大手企業各社の舵取りを見守りたいと思います。

次からは、AGI（汎用人工知能）についての話をします。