ロジスティック回帰

2022年2月12日 23:07

〇ベルヌーイ分布に従う変数の統計的回帰モデルの1つ

　－分類のためのアルゴリズム（2値分類）
　－シグモイド関数を使って、自称が起こる確率を０から１の範囲で算出。
　－3クラス分類でロジスティック回帰を行う場合、確率値は3種類算出される。

【ベルヌーイ分布とは】
→2種類のみの結果しか得られないような実験。
　結果を０と１で表した分布。

LogisticRegression

ー線形回帰はscikit-learn.linear_modelの中からLogisticRegressionというモジュールをインポート

【LogisticRegression()の引数】
・引数penalty:ペナルティ関数の設定（l1：L1正則化、l2：L2正則化）
・引数C:正則化の影響度の設定
・引数random_state:乱数
・引数solver: 最適化のアルゴリズム('newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}
・引数max_iter: 収束計算の最大試行回数
・引数n_jobs: 計算に使うジョブの数

【sklearn.linear_model.LogisticRegressionクラスのメソッド】
・fit(X, y[, sample_weight]):学習の実行
・get_params([deep]):学習の際に用いたパラメータの取得
・predict(X): 予測の実行
・predict_proba(X): 予測の実行(確率値)
・score(X, y[, sample_weight]): 決定係数の算出
・set_params(**params): パラメータの設定

〇2値分類

＜手順①＞データセット

# ライブラリのインポート
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

# データのロード
breast = load_breast_cancer()
df_breast = pd.DataFrame(data=breast.data,columns=breast.feature_names)
df_breast['target'] = breast.target

＜手順②＞（目的関数のクラス比率をvalue_counts()を使って確認）

In [1]: df_breast['target'].value_counts()

Out[1]: 1    357
       0    212
       Name: target, dtype: int64

＜手順③＞（インスタンス作成）

# インスタンス作成
clf = LogisticRegression(solver='liblinear')

インタンス作成時は引数solverのみliblinearと指定します。
liblinearは比較的小さいデータセットに対し用いるsolverとなっています。今回のデータセットもあまり大きいデータセットではないので

＜手順➃＞（変数の設定とデータの分割）

# 説明変数
X = df_breast[breast.feature_names].values

# 目的変数target
Y = df_breast['target'].values

# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2)

＜手順⑤＞（モデル作成、予測）

.predict_proba()とすることで未知データに対しての予測確率を算出することが可能となり、今回は2値分類となっているため2種の確率値となります。

In [2]: # 予測したモデルで未知データに対して予測（確率）
       clf.predict_proba(X_test)

Out[2]: array([[2.28206045e-01, 7.71793955e-01],
              ・・・
              [8.81936483e-01, 1.18063517e-01]])

＜手順⑥＞（精度の算出）

from sklearn.metrics import accuracy_score
In [3]: # 精度算出
       accuracy_score(y_test,clf.predict(X_test))

Out[3]: 0.956140350877193

〇多値分類

＜手順①＞ライブラリのインポート、データのロード

In [1]: # ライブラリのインポート
       from sklearn.linear_model import LogisticRegression
       from sklearn.model_selection import train_test_split
       from sklearn.metrics import accuracy_score

       # データのロード
       wine = load_wine()
       df_wine = pd.DataFrame(data=wine.data,columns=wine.feature_names)
       df_wine['target'] = wine.target

＜手順②＞インスタンス作成

   # インスタンス作成
       clf = LogisticRegression(solver='liblinear')

＜手順③＞変数の設定、データの分割

    # 説明変数
       X = df_wine[wine.feature_names].values

       # 目的変数target
       Y = df_wine['target'].values

       X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2)

＜手順➃＞予測モデル作成

 # 予測モデルを作成
       clf.fit(X_train, y_train)

＜手順⑤＞

# 精度算出
       print(accuracy_score(y_test,clf.predict(X_test)))