ディープラーニングの衝撃

まっち. web エンジニア

2024年8月14日 09:00

ChatGPTとか生成AI ってなんでこんなに最近話題になってるの？

生成AI, ChatGPTの前にAIについても人工知能に関してよくわからない

そんな人も多いと思います。

今回紹介するこのはこの本

著者は日本のAI研究における第一人者であり、東京大学の松尾豊教授

人工知能とかAIとかに興味はあるけどよくわからないという人に是非とも読んでほしい本です。

4回に分けて本書の内容を紹介しています。
今回はその第3回の記事。

1950年代から始まったAIブームの第3次AIブームとディープラーニングに関して紹介していきます。

第1回、第2回の記事はこちら

■第３次AIブーム ①機械学習の静かな広がり

第３次AIブームの背景にはWebの発展がありました。

Web の発展により、テキストデータや顧客の購買データや医療データなど、Web 上にあるデータ量が増加しました。

それらの大量のデータを使って自然言語処理と機械学習の研究が大きく発展できたのです。

◎統計的自然言語処理

統計的自然言語処理とは、例えば翻訳を考えるときに文法構造や意味構造を考えず、単に訳される確率の高いものを当てはめていけばいいという考え方です。

文法知識や意味を把握して訳すのではなく、日本語と英語が両方記載された大量のテキストデータを使って「英語でこういう単語の場合は日本語のこの単語に訳される確率が高い」と単純に当てはめていくのです。

Google はこの統計的自然言語処理の権化のような企業です。
1998年に創業し、10年ほどで急成長を遂げています。

◎学習すること=分けること

機械学習とは、人工知能のプログラム自身が学習する仕組みのことです。

そもそも学習とはどういうことかというと「分ける」という処理を指します。
あるものを見たときにそれが食べられるものかどうかをYes or No で答える。
ケーキなのか、お寿司なのか、うどんなのか知りたい、これは3つの Yes or No と言えます。

人間を含む生物は食べられるかどうか、敵か味方かなど非常に細かく世界を分節しているのです。

機械学習はコンピュータが大量のデータを処理しながらこの「分け方」を自動的に習得します。

例えば一旦「ネコ」の見分け方を習得すれば、次からはネコの画像を見た瞬間に「これはネコだ」と見分けることができるようになるのです。

◎教師あり学習と教師なし学習

機械学習は大きく「教師あり学習」と「教師なし学習」に分けられます。

教師あり学習は、ざっくりいうと答えを教えながらAIに学ばせる方法です。

例えば、文書分類であれば、この文書は「政治系」この文書は「経済系」のカテゴリになる、といった具合でデータと答えをセットで教え込ませます。

教師なし学習は、ざっくりいうと答えを教えずにAIに自分で学ばせる方法です。

入力用のデータのみを与え、データの中にある一定のパターンやルールを掴むために用いられます。
例えば、あるスーパーマーケットの購買データを与えます。そして、平均購買単価が高いグループと近くから来ていて平均購買単価が低いグループを見つけるといった具合で機械に構造やパターンを抽出させます。

◎機械学習における特徴量設計の問題

機械学習によって「分け方」や「パターン化」をコンピュータが自ら見つけることで未知のものに対して判断や識別そして予測をすることができるようになりました。

しかし、この段階で機械学習における難問があります。
それは「どのように特徴量を入れるか」ということを決めるのは結局人間が考えるしか無かったことです。

※特徴量とは
特徴量とはAIが物事を識別や分類する際の手がかりとなるデータの部分を指します。
例えば、ネコの画像から「耳の形」「大きさ」「目の位置」などの猫らしさを表す情報を抽出したものを特徴量という。

特徴量設計を「年収を予測する問題」を例に考えてみます。
色々な特徴（変数）がある中で、どの特徴を予測精度に重視させるかというものです。

「身長」や「好きな色」よりも「性別」や「居住地域」の方が年収と関係ありそう、ということを決めていくのが特徴量設計となります。

松尾豊. 人工知能は人間を超えるか (角川ＥＰＵＢ選書). KADOKAWA / 中経出版. Kindle 版.

そして、この特徴量設計がコンピュータ自身ではできなかったということが機械学習における関門だったのです。

逆にいうと人間はある事象や物事から特徴量を掴むことに長けています。

自然とそこに内在する特徴に気づき（誤りも多いものの）、理解をしているのです。

■第３次AIブーム ②静寂を破るディープラーニング

しかし、特徴量設計の問題を解決できるかもしれないものとしてディープラーニングが登場しました。

ディープラーニングが明るみになったのは、2012年世界的な画像認識コンペティション「ILSVRC」で初参加のカナダトロント大学が開発した SuperVision が圧倒的な勝利を飾ったときです。

画像認識のエラー率争いにおいて、SuperVision が10%もの差をつけているのがわかります。

このSuperVisionに使われていたのが新しい機械学習の方法「ディープラーニング（深層学習）」です。

◎ディープラーニング

ディープラーニングはデータを元にコンピュータが自ら特徴量を作り出します。

人間が特徴量を設計するのではなく、コンピュータが自ら高次の特徴量を獲得し、それを元に画像を分類できるようになります（画像特有の知識をいくつか用いているので、完全に自動的に作り出せるわけではない）。

例えば、コンピュータにたくさんの猫の写真と犬の写真を見せるとします。ディープラーニングを使うと、コンピュータは自動的に「ネコの耳の形」や「イヌのしっぽの長さ」などの特徴を学習します。

そして、新しい写真を見せられたときに、それが猫か犬かを判断できるようになるのです。

どうやって学んでいるのかというと、ディープラーニングでは何層もの「ニューラルネットワーク（人間の脳に似た仕組み）」がデータを処理します。

最初の層は基本的な特徴を見つけ、次の層はその特徴をさらに組み合わせて、より複雑なパターンを見つけます。これを何度も繰り返して、最終的に正しい答えを導き出すのです。

ここの部分は少し難しいのでざっくりとした理解で良いかと。

◎ディープラーニングも完全ではない

これまでは、現実世界から「何を特徴表現とするか」はすべて人間が決めてきました。

しかし、ディープラーニングの登場により少なくとも画像や音声という分野において、「データを元に何を特徴表現すべきか」をコンピュータが自動的に獲得することができるという可能性を示したのです。

この「データを元に何を特徴表現すべきか」をコンピュータが自分で生成できるようになった、というのがめちゃめちゃすごいことなんです。

もちろん著者も対象は画像や音声だけではないこともあり、これだけですべての状況における「特徴表現の問題」が解決されたとは思えないとしています。

しかし、ディープラーニングが人工知能研究に重要なブレークスルーを与えているのは間違いないことです。

■さいごに

今回の記事では機械学習の広がりとディープラーニングが与えた衝撃に関してざっくりと紹介してきました。

そして続く最後の第4回では、2015年出版当初から見た著者が考える人工知能の未来に関してを取り扱っていきます。