データの量や質の観点からのテクニック

lightgbmとかxgboostとかアルゴリズムいろいろ試してみるのは良いのだけど、システム開発じゃないの、ただモジュール当てれば言い訳じゃなくてねー、他にも気にすることあるの……。
というやり取り多かった某ITベンダーAI部門いたなぁー(遠い目)

このページではデータ分析のテクニックや知識で、他のページに含まれないものを雑多に放り込んでいく。まずは予測モデル構築や因果推論の前に、虚心坦懐にデータを眺めることの必要性から

差があるかというか検定をする話も。A/Bテストとかもあるし、また別ページ作らないとな

特徴量を作るところは束ねて別ページにしました。ちなみに予測性能の評価指標も

統計モデルを作る際の細かい理論やテクニックについて。アンサンブルにしたり問題を再定義したりも。

そもそもデータ量の多寡とか、判別問題なら不均衡とか、このあたりちゃんと考えるだけで予測性能が格段に良くなる

Rをメインで使うので恥ずかしながら知らなかったPythonテクニックを最後に。

他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note

いいなと思ったら応援しよう!