#1 AIをとりまく社会 ーAIの現在地ー
TAUROとは
TAUROは人間と協働することでより創造的な科学研究を可能にする「AIサイエンティスト」を研究開発するプロジェクトです。内閣府「ムーンショット型研究開発制度」における「目標3:自ら学習・行動し人と共生するロボット」に採択され、2050年までにノーベル賞クラスの研究を人間とAIが共同で行える社会を目指し活動しています。
noteでは、AIの過去、現在、未来に注目し、人間とAIが一緒に生きていく未来がどのようにつくられていくのかを全16回で解説していきます。第1回目のコンテンツは、AIが社会にどう浸透しているのか、歴史から紐解いていきます。
社会に浸透するAI
いま、身近な家電にも単純なAIが搭載されているように、AIは私たちの社会のいろいろな場面で活用されています。そして実は、表には出てこないさまざまな部分で、人間の判断を助けてくれています。
例えば、製造業や小売業では需要予測から品質管理、在庫管理までの全体的なプランニングの面でAIが使われています。交通では自動運転や交通網の最適化、信号の自動制御などでAIが取り入れられています。医療の分野では疾患の予測などの高度な判断部分で人間の判断をAIがサポートしています。
人工知能という概念の登場
それでは、AIはどのように進化してきたのでしょう。少し歴史を振り返ってみます。
「ロボット」という単語は20世紀の初めに登場しました。ロボットに大切なのは「頭の中」です。1940年代に人工知能という概念が数学者アラン・チューリングによって提唱されました。チューリングはエニグマの解読に貢献した人として知られ、コンピューター科学の最高峰の賞である「チューリング賞」の由来となった人物です。
人工知能という概念を考えるために1956年7月から8月にかけて「ダートマス会議」が開催されました(期間は諸説あり)。会議には世界中から研究者が集められ、「人工知能の定義」がつくられました。実はこのときに議題となった「人工知能はいろいろな問題を解く」、「人工知能は人をサポートする」という目標は現在につながるものが多く、ChatGPTがそれらを実現していると考えられます。
この会議ではAIによる数学の定理証明のデモンストレーションが展示されました。第一次AIブームではこのような「定理を解くための技術」という側面が大きかったのです。そして、ここで重要なのは「探索アルゴリズム」という考え方です。
第1次AIブーム:探索アルゴリズム
第1次AIブームでは「探索アルゴリズム」が研究されていました。
例えば、ここに迷路があるとして、子どもたちがゴールを探索するとします。彼らはやみくもに進み、分岐する道の選択を間違えながらも、軌道修正し、ゴールを目指します。コンピュータの場合は、分岐する点と点がどう繋がっていていくのかを試し、その探索結果が木の枝のようにツリー状に広がっていきます。これはその名の通り、「探索木」と呼ばれています。この中から一番良い道を導き出すのが「探索アルゴリズム」です。
この「探索アルゴリズム」は、2016年、Google DeepMindによって開発されたコンピュータ囲碁プログラム「AlphaGo」が人間のプロの囲碁棋士を破ったときに注目されました。「AIがこう打てば、人間はこう打つ」というパターンを考えていくと、迷路のような探索木が出来上がります。ここでどの手を選べば一番点数が高くなるのか、相手側はどういう手を打つか=プレイヤーの得が一番少なくなる手はどれかを見つけ出していきます。
このように第1次AIブームでは迷路などの非常に簡単な問題を解けるようになりましたが、AIにルールやロジックのような探索アルゴリズムを与えるだけでは、AIを社会のなかで賢く動かすことは難しかったのです。
では、なぜ「難しい」のでしょうか。
例えば、ここにチーズを燃料にしたネズミ型のロボット1号がいたとします。ロボット1号はチーズを探して動き続けますが、罠にかかって出られなくなり、エネルギー切れです。ロボット1号は単純なトラップにハマり、壊れてしまいます。
そこでバージョンアップしたネズミ型のロボット2号で試してみます。このロボット2号は何が起きるかを予測できる機能を追加しました。ロボット2号は地図を見つけ、罠にかかるかもしれないという可能性を検証します。途中で木が倒れて道が塞がっているかもしれない、チーズの下に落とし穴があるかもしれない、隕石が降ってくるかもしれない……というように。ところが、ありとあらゆる可能性を考えるとロボットは動けなくなり、またエネルギー切れになってしまいました。ロボット2号はトラップの可能性を演算しだして時間切れになってしまいました。
さらにバージョンアップしたネズミ型のロボット3号で挑みます。ネズミ3号は「自分の行動とは関係ないことは考えなくていい」という機能を追加しました。これでようやくロボット3号はチーズを見つけることができそうです。しかし今度はチーズを取ったことで、横にある木が倒れてくることがあるかもしれない。そんなことを考えていたら、またエネルギー切れです。3号はトラップの可能性がないものは考えないようにしようとするも、それ自体にも演算がいるので時間切れになってしまうのです。
このように「限定されたルール」のもとでしか解けない推論や探索を実世界の非常に広範な世界で考えると、このようなネズミのロボットのようになってしまいます。
フレーム問題は1969年にジョン・マッカーシーとパトリック・J・ヘイズによって最初に提唱されました。有限の情報処理能力しかないロボットには、現実に起こりうるすべての問題に対処することはできないことを表します。第1次AIブームでは、すべてに対処することは難しいからこそ、ネズミにはネズミの、医療なら医療の専門知識をコンピュータにきちんと入れることが大事だということがわかりました。
第2次AIブーム:知識のデータベース
そこで、医療なら医療の専門知識を入れて判断するようなシステムを考えるという「エキスパートシステム」やそのための知識データベースである「オントロジー」が産まれたのが第2次AIブームです。たとえば症状や検査結果などに対する問診から細菌を同定するシステムなどが開発されました。ただ、この知識データベースにも「メンテナンス」と「拡張」という2つの問題があります。
例えば、ここにリンゴの大きさや色と産地や品種などの関係を専門知識として取り入れた、リンゴ識別器があるとします。
リンゴを置いたときに、見た目から「青森産」「山形産」などルールベースで識別できたとします。しかし、品種改良してりんごの見た目自体が変わると、ルールベースを更新しないとAIは動くことができなくなります。つまり、知識をルールベースのエキスパートシステムとして作り上げても、「メンテナンス」しないといずれは使えなくなってしまいます。
ただ、だからといって知識データベースによるAIの研究が無くなったわけではなりません。2011年に、米IBMの高性能コンピューター「ワトソン」がクイズのチャンピオンを破りました。これは知識のデータベースから高速で検索することで、人間よりも早く正解に辿り着けるものでした。このように機械学習を使い、知識のデータベースを「拡張」したり、検索したり、維持したりする技術は、第3次AIブームの技術でも生き残っています。
第3次AIブーム:深層学習、ディープラーニング
近年のAIブームは2010年代に始まりました。2010年までは音声認識の精度改善に限界があり、「10回聞くと3回間違える」という程度でした。ところが、このエラー率は2011年に急激に改善されることになります。同時期、画像認識でもエラー率が大きく改善されました。これは「1000種類の画像に何が写っているのかを答えるテスト」で、それまでは正答率が75パーセントでした。このくらいの精度が当時の技術では限界と思われていましたが、2011年に10ポイントも改善することになります。
言語認識でも、当初は複雑なシステムを構築して翻訳の精度改善を試みていて、その様な技術を用いた「Google翻訳」などのサービスも精度が低いものでした。しかし2014年には、とある技術によるシンプルな翻訳システムが従来と同等の精度で翻訳できるようになりました。その後は、その技術をより洗練させることで、今日に至る非常にスムーズな機械翻訳につながっていくわけです。
画像認識、音声認識、言語認識において、飛躍的に数値が改善した年に何が起きたかというと、それまでは各分野の研究者がそれぞれ別々に技術を磨いて複雑な仕組みでAIを動かしてきましたが、「深層学習」、「ディープラーニング」が登場したことが大きなきっかけになりました。
例えば、脳の海馬が小さくなると記憶力が減り、認知症を発症します。この海馬が徐々に小さくなっていく様子を捉えるためにCT画像を撮ります。CT画像をAIに与えると、海馬の中でも「海馬」部分に色をつけ、さらにその容積を算出します。脳神経外科の専門医ならCT画像から目視で海馬の容積を何となく推定することができるのですが、AIを使うことで専門医に頼らずとも自動で診断ができます。これは東北大の医療系ベンチャーで使用されている事例です。
深層学習(英語でディープラーニング)は、機械学習という技術分野のさらに一部の分野を指す言葉です。では機械学習とは何かということを一言で言えば、「計算機がy=f(x)となる関数fを(x,y)のデータから学習すること」です。従来の機械学習では、学習する関数fがシンプルなものだったのですが、深層学習では非常に複雑な関数も学習できるようになり、その精度が飛躍的に向上したのです。
このように第3次AIブームの「理解のAI」では、深層学習が最も重要な技術です。そして理解のAIは大きく分けると「識別」と「回帰」という2つの事だけをやっています。
入力データに対して、離散的な値を出力するものを「識別」といいます。先ほどのCT画像の例では、白黒画像でしかないCT画像の各画素が海馬なのか、それ以外なのかという2つ候補から選択を行っているのが「識別」に相当しています。さらに入力データから連続的な値を出力するものを「回帰」といいます。海馬の容積を断面図から推定するのは、まさに回帰に相当します。
第4次AIブーム:生成AIの時代?
第3次AIブームでは、たとえばCT画像からの診断として海馬の領域を見つけ出し、さらにその容積を推定できましたが、これは与えられたデータから一部の情報を抽出することに相当します。一方で、医療画像と医者のレポートを集めて、画像とレポートの関係を学習し、新たな医療画像にもレポートを生成できるようになるなど、AI自身が新たなデータを生成できるようになってきました。特に2022年以降にこうしたデータを生成できるAIが、AIの専門家以外からも広く注目を集めるようになり、人によっては第4次AIブームといっても過言ではない、という状況になってきました。
例えばAIにX線の画像が与えられたときに、レポートを生成するAIの例で説明します。こうしたテキスト生成AIでは、入力データに対応するテキストの1単語目として、AIが知っているボキャブラリーの中から適切な単語を識別します。そして、入力データと自身が推定した1単語目から、次の2単語目として適切な単語を同様に自分自身の知っている単語の中から識別的に推定していきます。次の3単語目についても、入力データと自分自身が推定した1単語目と2単語目の単語列から…といったように、こうして識別をつなげていくことで文章を生成できます。
もう一つの生成AIとして認知が増えてきたのが画像生成AIですね。例えば「あざといポーズの猫の絵を描いてください」とお願いすると、まさにその様な画像をAIが生成してくれるのです。ただ画像というのはRGBなどの3原色からなる色の粒(ピクセル)が縦横に並んだ集合体で、画像生成はテキストから、数千×数千のRGB(赤緑青)の連続した画素値を回帰によって推定して生成していることになります。
2022年は生成AI元年だと言われています。これまで説明したように、生成AIも理解AIと根本的な技術は同じです。ということで、現在のAIトレンドについては第2回でご紹介します。