- 運営しているクリエイター
#プログラミング
100日後にプロになるワシ28日目(Python)
前回の話。
スコアが合格点に足りなかった。
はい。
というわけなので今回は別のやり方で精度を上げて挑戦します
前回はビニング(値をまとめて分類する方法)を行なったので
今回は多項式・相互作用特徴量を使います。
多項式・相互作用特徴量については5記事くらい調べたけど理解不能だったため割愛
とりあえず「ビニングの強力なやつ」という認識
補足
基本的に、情報量が多ければ多いほど機械学習の精度
100日後にプロになるワシ27日目(Python)
お久しぶりです。
前回のお話。
テストデータ間違えた笑
今回はちゃんとしたデータで挑戦!
まずはテストデータをインポート(ちゃんとデータサイズを確認!)
次にカテゴリデータを数量データに変換!(男女を0,1に!)
bin化!!(数量の偏りがあるデータはザックリグルーピング!)
モデルは前回作ったのでそれで学習!
補足
学習自体は1行で終わる。
機械学習は前処理9割っていうけどほんま
100日後にプロになるワシ26日目(Python)
機械学習最後まで学習させて
AUC(Area Under the Curve)の値も92を超えた!!
AUC
AUCは指標の名前通りROC 曲線下の面積(積分)となります。この面積の範囲がは0から1 となります。ランダム分類器はのAUC値は0.5です。AUC値は0.5以上になれば分類器の効果がランダム分類器より良いです。AUC値は0.5以下になったら評価指標を逆にしてAUC値は0.5以上の分類器
100日後にプロになるワシ25日目(Python)
今日はロジスティック回帰を使った学習と
評価まで行った
# テストデータと学習データへ分割from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# ロジスティック回帰モデルのimportfrom s
100日後にプロになるワシ24日目(Python)
今日から始まりました
【第2回_Beginner限定コンペ】健診データによる肝疾患判定
前回の疾患有無ケースとほぼ同じ。
ただ、前回のAUCは93とかいくらしく。前回の86とかは軽く超えないといけない。単純になぞるだけじゃうまく行かなそうだ。
ちなみに、このコンペ。ランキングシステムがあって。9月末まで集計される。現状1位が93.555。93%で正解を当てられる。パナイ
ちなみに92以上
100日後にプロになるワシ23日目(Python)
昨日、機械学習を要約終わらせたが、まだその結果がどれだけ正しいかを分析してなかった。
今日はその分析と改善。
そして最後まで走りきりました!!
混同行列の計算今回は疾患があるかどうかの2択なので、予測した結果の疾患があるなし。と実際のデータの疾患のあるなしを比べた表を作成する
これを混同行列といいます。
from sklearn.metrics import confusion_matri
100日後にプロになるワシ19日目(python)
前回の続き。
結局時系列データにしないといけなかったので
datetimeを変形して週のデータに変更。
weekNumとして列に追加した。
ただ、1年間は52週あるのでfor文で対応
んで、
データがweekNumだけfloat型なのが気に入らないので型変換
ここでようやくデータ準備OK!!
学習用データと答えデータに分ける
今回は未来予測なので多分線形回帰がモデルとしてあってる。
と信
100日後にプロになるワシ18日目(Python)
今日のまとめやらかした!
けど一応時系列的にやっていく
まずは昨日の続きから
月で計算するよりも週で計測するといい感じなると思ったので
第何週ではどれだけの数引っ越しされたのかを算出しようとした
こんな感じで第0週と引っ越し回数の頻度対照表を作成
1年で54週あるのでそれをループして作成し。
横に連結させる
こんな感じ。
んでそれにラベルをつけて・・・
なかなかそれっぽい
これで
100日でプロになるワシ17日目(python)
昨日に引き続きデータ作成。
昨日は曜日ごとの引っ越し回数を抽出したのでそれをまとめます
weekの列が曜日を表しています↑
月曜から日曜日までの引っ越し回数との関係を抽出↑
連結して↑
ラベルを付与↑
曜日との関係データとしてこれで一旦OK
次は月別!と思ったんですが、3年分くらいデータがあるので
年の初めからの週をカウントしようかと思います
1年は52週!↑
諸事情あって今日は
100日後にプロになるワシ16日目(Python)
今回は機械学習をさせるための学習データと解答データを作成する
説明変数と目的変数機械学習では学習データを説明変数。解答データを目的変数という。
今回は全データを半分半分にして前半を説明変数。
後半を目的変数として扱う。
前回作成したデータを使う
データを半々で分ける
特徴量について特徴量とは簡単にいうと答えを導くための学習のとっかかりです。
今回で言えば引っ越し回数に影響しそうな数値の
100日後にプロになるワシ15日目(Python)
今日は前回の続き。
前回は機械学習を始めるために環境構築とデータのダウンロード
データの確認まで行いました。
今日はデータの分析を行なっていきます。
参考(https://signate.jp/competitions/269/data)
データにはたまに欠損と言って値が入ってなかったりします。
今回はあらかじめデータの欠損があることがわかっていたので
まずはデータの欠損がどれくらいあるか調