
機械学習モデルの種類~課題に合わせた手法を選択しよう!~
みなさん、こんにちは!
「機械学習とは?〜AIの学習方法〜」では機械学習の代表的な3つの種類、教師あり学習、教師なし学習、強化学習についてご説明しました!
実は、その3つの機械学習は、そこからさらに60種類以上のアルゴリズム(問題を解決するための手順やルール)に分類できます。
実際に分析や予測をするときには、問題の種類や解決策の要件を理解し、適切なアルゴリズムを選択する必要があります。
今回は数あるアルゴリズムの中から教師あり学習、教師なし学習、強化学習それぞれの代表的な手法をご紹介します!
教師あり学習の代表的な手法
線形回帰
まずは、教師あり学習から2つのアルゴリズムを紹介します。
「線形回帰」は、予測したいものとそれと関係が深いものの傾向をAIが学習するモデルです。
アイスの1日の売り上げを例とすると、過去の気温と売り上げのデータからAIが傾向を学習します。
学習したAIに明日の気温をインプットすると、明日の売り上げを過去の傾向から予測することができます。

このように、線形回帰は発電量予測などでも活用されます。
例えば電力会社では、数日後の発電量の計画値を提出する業務があります。
気温などの天候データと過去の発電量を基に数日先の発電量を予測する際、線形回帰が使われることがあります。
ロジスティック回帰
次に紹介するアルゴリズムは「ロジスティック回帰」です。
ロジスティック回帰は「AかB」かのような二者択一の分類問題を予測するときに使われる手法です。
例えば会社に毎日数百件のメールが送られてくるとします。
その中には業務に関する内容のメールもあれば、ウイルスの入った悪意のあるメールもあります。
ロジスティック回帰は、メールの長さやメール文で使用されている単語、画像・リンクの有無などの特徴を基に、普通のメールか悪意のあるメールかを判別し、結果を確率で表すことができます。
その他に、ロジスティック回帰はマーケティング戦略にも使用されるケースがあります。
顧客の契約期間やサービスの利用頻度、問い合わせ回数などから顧客がサービスの契約を継続するかしないかを予測し、継続しない顧客に対してキャンペーンやサービス改善などの対策を立てることができます。
教師なし学習の代表的な手法
k-平均法
教師なし学習からは「k-平均法」と「主成分分析」をご紹介します。
まず、「k-平均法」はデータをいくつかのグループに分類することに使われる手法です。
例えば、郵便屋の配達する地域を想像してみてください。
k-平均法を使用して配達地域をグループ分けすると、配達する件数や頻度、距離などの要素によって、効率よく配達できるよう地域をグループ分けすることができます。
これにより、単純に住所で区切るよりも時間やコストを最適化することができます。
このようにk-平均法はデータの傾向から分類を行いますが、正解データを与えられている訳ではないので教師なし学習に分類されます。
主成分分析(PCA)
「主成分分析(PCA)」はデータの次元(特徴や変数)を削減する手法で、PCAを使うと重要な情報を保ちながらデータを簡略化できます。
データには多くの特徴が含まれることがあり、全てを使うと複雑で扱いにくくなることがあります。
たとえば、「年齢」「居住地」「購入回数」などの顧客の購買データを分析する際、そのまま全ての情報を利用すると複雑な分析になりますが、PCAを用いてこれらの関連する情報をまとめると、重要な内容を保持しつつ情報量を減らすことができます。
以下の図では、もともと5つ以上あった情報を3つに減らしていますが、これによりデータが見やすく、重要な要素をより明確にすることができます。

強化学習の代表的な手法
Q学習
「Q学習」は強化学習の手法で、AIが自身の行動を評価しながら学習し、最適な行動方針を見つけていきます。
こちらは主にロボット掃除機に用いられます。前進や方向転換により、室内を効率的に掃除できたか、壁などにぶつかったりしたか、といった自身の行動とその結果を学習することで、部屋のレイアウトに最適な移動パターンを取得し、効率的な掃除が行えるようになります。
その他に、Q学習はネット通販サイトの価格設定にも使われています。
現在の在庫状況、季節、過去の売上などを基にAIが商品価格の上げ下げや割引をし、それによって得られる売り上げや利益を学習しながら、需要に応じた商品価格をリアルタイムで設定することができます。
まとめ
機械学習には様々な手法があり、目的に応じて使用する手法が異なることがわかったのではないでしょうか。
分析を始める前には、その問題が分類問題か回帰問題か、あるいはグループ分けをする問題なのかを考えてみてください。
また、データのサイズや予測精度を重視するか、解釈性を重視するかなども分析手法を検討する上では重要です。
データのサイズが大きい場合や精度を重視する場合はモデルの計算量が増えやすく、予測に膨大な時間がかかることや予測結果の説明が難しくなることがあります。
ビジネスではどうしてその予測結果になったのかを説明することも重要です。
そのため、予測の解釈性を重視する場合はシンプルな手法を選択することも有用になります。
今回ご紹介した他にも冒頭でお伝えしたとおり機械学習には様々なアルゴリズムがあります。
みなさんが分析したい問題にはどのような手法が有効かを考え、よりよい結果につながるきっかけになれば幸いです!
【ワークスアイディのホームページはこちら】