PRML:1章のイントロ(機械学習とは何か?)
『パターン認識と機械学習(上)』というあの黄色本(↓こんな表紙の本です)を用いてゼミを行った際の発表資料をnoteにもアップすることにしました。ゼミ資料を再編集したものをnoteにはアップします。
※このノートでは、非常にシンプルな説明もつけています。1章のイントロということもあり、機械学習のことを詳しく知っている方にとっては、当たり前すぎる説明だと思います。
本ノートでは、第1章のイントロ部分、「機械学習とは何か?」を簡単に紹介している部分の発表資料をアップします。
機械学習の3つの分類
まず、本文の順序とは違いますが、機械学習の3つの分類を紹介しています。機械学習は大まかに「教師あり学習」「教師なし学習」「強化学習」の3つに分けられます。
機械学習のアプローチ:MNISTデータセット
1章のイントロでは、教師あり学習の有名な一例である「手書き画像認識」問題を例に、機械学習のアプローチの大まかな流れも紹介しています。
このイントロでは、機械学習の基礎を学ぶ際によく使われるMNISTデータセットを例に説明をしていました。MNISTデータセットは手書き数字の画像をたくさん集めたものです。
※ PRMLでは、MNISTデータセットが例に出されていました。MNISTデータよりも分類が難しい「Fashion MNIST」というデータセットもあります。その他、様々なデータセットがあり、Googleで「機械学習 データセット」と検索すると、様々な分野のデータセットが出てきます。
機械学習のアプローチ:データの用意
機械学習をするにはデータの準備は欠かせません。教師あり学習は、入力と出力の間の関係を学習する手法です。そのためには、入力と出力のデータの組を用意する必要があります。手書き文字認識では、(1) 手書き文字の画像データと、(2) それが何の数字であるかのデータの2種類を用意する必要があります。
機械学習のアプローチ:学習
データが用意できたら学習をします。学習をするといっても、何もない状態で学習することはできません。私たちは入力と出力を繋ぐ適当なモデルを事前に設定しておきます。機械学習における「学習」はこのモデルに含まれるパラメータを適切な値に調節することです。
「学習」の際は、学習のために用意したデータに対してよく当てはまるようにパラメータを調節するのではなく、(学習に使用していない)未知の入力に対して、適切な出力値を計算するように調節する必要があります。
※PRMLは今でも機械学習分野では必読の本です。しかし、書かれたのは10年以上も前です。最近では「深層学習(Deep Learning)」が発展しています。本ノートで取り上げたことも、あと少しで「古典」ともてはやされるかもしれません。
※本資料はGithubにもアップロードしています。本ノートおよびアップロードしている資料について何かありましたら、noteのコメント欄までお願いします。