
小林 雅一「生成AI 「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?」
著者はこの分野に関する本をこれまで複数出されており、この本はAIの仕組みを丁寧に説明。ITに詳しくない文系人間の私にも、AIの歴史、仕組みの概要がよくわかりました。
・Appleの「Siri」やアマゾンの「Echo」など音声アシスタントAIがすでに商品化されているが、それらは一種の音声によるコマンド「命令」機能に過ぎず、AIが言葉の意味を理解して人間と流ちょうな会話をする類のものではない。
・「Siri」「Echo」の自然言語処理はかなり旧式の技術。「コマンド制御システム」であり、あらかじめ人間が想定して用意した複数の質問・リクエストに対し、各種の解答やアクションを返す仕様。
・自然言語処理では従来「再帰型ニューラルネット(Recurrent Nueral Network:RNN)」という方式を従来採用。
入力された文章は単語に分解され、エンコーディング(符号化)という処理を受ける。
・エンコーディングとはいくつかの特徴にそって数値化する作業。例えばそれぞれの単語を、性別、王族、年齢、食べ物という4つの軸に沿って数値化。例えば「女王」では性別の絶対値が1に近く、食物を示す数値はほぼゼロ。
・このようなエンコーディング作業は、「ベクトル作業」とよばれる。このような数値化は人間が行わず、機械学習で実施。
・従来のRNN言語モデルでは、エンコーディング後、逐次的に処理。まず冒頭の単語として最も相応しい単語を確率的に算出。その次に続く確率が最も高い単語を算出。これを繰り返す。
・自然言語処理の精度を高めたのが2017年に発表された「トランスフォーマー」という新しい方式のニューラルネット。グーグルの研究チームが発表した論文にて提唱。
・「トランスフォーマー」の中核要素として考案されたのが、自己注意(Self Attention)というメカニズム。ニューラルネットに入力された文章の各単語を、ほかのすべての単語との関係性に基づいて重みづけする。つまり、ある単語からみて、別の単語が「自分にとってどの程度関係して重要か」を計算。このような仕組みにより、文脈に応じた単語のベクトル表現が得られる。