データの量や質の観点からのテクニック
lightgbmとかxgboostとかアルゴリズムいろいろ試してみるのは良いのだけど、システム開発じゃないの、ただモジュール当てれば言い訳じゃなくてねー、他にも気にすることあるの……。
というやり取り多かった某ITベンダーAI部門いたなぁー(遠い目)
このページではデータ分析のテクニックや知識で、他のページに含まれないものを雑多に放り込んでいく。まずは予測モデル構築や因果推論の前に、虚心坦懐にデータを眺めることの必要性から
差があるかというか検定をする話も。A/Bテストとかもあるし、また別ページ作らないとな
特徴量を作るところは束ねて別ページにしました。ちなみに予測性能の評価指標も
統計モデルを作る際の細かい理論やテクニックについて。アンサンブルにしたり問題を再定義したりも。
そもそもデータ量の多寡とか、判別問題なら不均衡とか、このあたりちゃんと考えるだけで予測性能が格段に良くなる
Rをメインで使うので恥ずかしながら知らなかったPythonテクニックを最後に。
他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note