見出し画像

G 検定

機械学習の具体的手法3

・機械学習の分類モデルは、スパムメールのフィルターなどに利用されてきた。
メールの内容によってスパムメールである確率を分類モデルによって導出する仕組みである。
このような単純な分類のアルゴリズムには条件付き確率を利用したナイーブベイズがある。

・機械学習の分類モデルは、スパムメールのフィルターなどに利用されてきた。
メールの内容によってスパムメールか否かを分類モデルによって導出する仕組みである。
分類モデルの一つとして最も近いデータは同じカテゴリであると考える最近傍法などがある。

・機械学習の分類アルゴリズムは、スパムメールのフィルタリングなどに利用されてきた。
例えば、K近傍では類似するサンプルのクラスラベルから多数決で分類を行う。
また、ナイーブベイズでは、ベイズの定理によってサンプルがあるクラスに属する条件付き確率を求めて分類を行う。

・機械学習では、精度の高いモデルを作る工夫として、個々に学習させた複数のモデルを融合させるアンサンブル学習という手法が用いられている。

・機械学種では、精度の高いモデルを作る工夫として、個々に学習させた複数のモデルを融合させる手法が用いられている。
例えば、決定木を用いるとき、ランダムフォレストはバギングである。これは、ブートストラップを用いて作った
データセットを用いて複数の学習器を並列に学習する。

例えば、決定木を用いるとき、勾配ブースティングはブースティングである。
これは複数の学習器を順番に学習し、直前の学習器のミスを重視して、学習する。

機械学習の具体的手法4

・強化学習では、試行錯誤を通じて報酬の最大化を目指す。例えば、将棋の基盤のような環境が存在し、
環境の中でエージェントが行動を選択する、行動の結果、状態が変化し、変化の良し悪しに応じて報酬が与えられる。

・サンプルを陽性(Positive)と陰性(negative)の2クラスに分ける2値分類を考える。
分類問題の性能指標である正答率は、サンプル全体のうち、予測が正解したサンプル数の割合である。

・分類問題の性能指標である適合率は、Positiveと予測されたサンプルのうち、実際にPositiveであったサンプルの割合であり、
偽陽性(False Positive:FP)を減らすことを重視する場合に採用することが望ましい。

・分類問題の性能指標である再現率は、実際にPositiveであったサンプルのうち、Positiveと予測されたサンプルの割合であり、
偽陰性(False Negative:FN)を減らすことを重視する場合に採用することが望ましい。

・教師なし学習の一つであるK-means法は、データをK個のグループに分けることを目的としている。
具体的には、まず適当にデータをK個のクラスタにわけ、次に各クラスタごとの重心を求め、各データを最も近い重心のクラスタに
振り分け直して新たに重心を求めるという処理を、重心の位置が変化しなくなるまで繰り返す。

・情報量の単位は、ビットやバイトで表され、8ビット(1バイト)では、256個の異なる値を表現することができる。
バイト単位で表現したデータの大きさを小さい順に並べたとき、
1MB(メガバイト)、1TB(テラバイト)、1ZB(ゼッタバイト)、1PB(ペタバイト)

・目的変数に対して、回帰分析が使用可能かどうか調査したいとき、偏回帰係数が0であるとした帰無仮説を用いて、検定をするといった手法がある。


機械学習の具体的手法5

・ブースティングは一部のデータを繰り返し用いて複数のモデルを学習に使う、アンサンブル学習の手法である。
同じアンサンブル学習のバギングとは異なり、ブースティングはモデルを逐次的に学習する。

・ブースティングは一部のデータを繰り返し用いて、複数のモデルを学習に使う、アンサンブル学習の手法である。
ブースティングは最初に学習したモデルにおいてご分類したデータで正解するように優先的に次のモデルを学習していく。

・教師あり学習の代表的な手法の一つとして誤差逆伝播法、教師なし学習の代表的な手法として、主成分分析がある。

・ランダムフォレストは、複数の決定木を用いるアンサンブル学習の手法である。
 複数の決定木による予測結果は、最終的に多数決を採用することで決定する。

・機械学習において、問題となる過学習とは、どのような状態か
学習途中から検証データに対する精度だけ、下がり始めてしまう

・複数の決定木を逐次的に作成し、1つ前のモデルでご認識したデータを優先的に正しく予測するように学習する手法は、
 XGBoost という。

機械学習の具体的手法6


・情報理論や統計学的観点から最小記述長(MDL)や赤池情報量基準(AIC)、情報量基準( WAIC)等が提唱され、
モデルの表現、評価に使われている。
→BIC:候補モデルの中に最も適したモデルがあると仮定し、ある候補モデルが真のモデルである確率をベイズ統計学の事後確率を用いて表現する。

・SVMはタスクの種類に応じて、他の手法と組み合わせることがある。
例えば、スラック変数は一部のデータの誤判別に寛容になる目的で導入される。

・SVMはタスクの種類に応じて、他の手法と組み合わせることがあり。
例えば、カーネル法は線形分離が可能な高次元に拡張する。

・アンサンブル学習の中でも、ブースティングは複数のモデルを逐次的に作成し、その際1つ前のモデルの弱点を補うように
次のモデルを作成する。そのため同じアンサンブル学習の手法であるバギングに比べて時間はかかるが、高い精度は得られる。

・機械学習において、正解とモデルの出力の誤差を量的に表現するのに損失関数を用いる。

・主成分分析(PCA)は、機械学習の分野においては学習データを加工する手法の一つである。主成分分析の目的
→次元削減により、データを圧縮したり、特徴をわかりやすくする。

・重回帰分析:1つの目的変数を複数の説明変数で予測しようというもの
→出店予定の小売店舗の売上高を、地域の人口、店舗面積、販売品目数から予測する。

・https://dcross.impress.co.jp/docs/column/column20170926-02/000196-3.html


いいなと思ったら応援しよう!