【Python】目からウロコが落ちるとはこれ。私のような脳筋系でも感動できたTIPS集
こんなやり方があるんだなと。Tweetしたりブックマークしたりしましたが、それでも忘れそうなので、ここにメモしようという。
いや、本当にこんなやり方があるのかと。
Pandasで偏差値を出す
データフレームの辞書型の生成からの説明です。こういうのが親切だと思います。本当に。
母分散・母標準偏差の計算で引数を渡すところとか、lambda式の書き方と、for文で書いたらどうなるかの説明もあり、結果までの流れがわかりやすいです。
偏差値というのが案外大事で、例えば競馬予想していても、全体として見たときにその馬や騎手の能力は?と問われると、偏差値化したくなるものです。※私は、ですけど
複数の機械学習ライブラリを一発で適応しちゃう方法
KFoldの使い方になっています。
cross_val_scoreの説明も丁寧なんですが、DecisionTreeClassifier, KNeighborsClassifier, SVCをまとめて検証する方法が、とっても便利に感じる人も多いはず。できるはずだよな?と思ったときに、こういう記事は大助かり。
Pandas各グループ内の最上位nレコードを取得
これなんですが、ランキング学習で上位の結果を目視するのに使いました。こんな方法があるんだと、本当に目からウロコが落ちる思い。
df.groupby('id').head(2)
nlargestなんかどこで使うんだろうと思ってましたが、ココでした。
python pandas 連番の繰り返しにグループ番号を付与したい
(df['No'] == 1).cumsum()
これもランキング学習時に、クエリーデータにindexをつけるような作業があって検索中に発見しました。
cumsumしてどうするんだ?と私は思いました。
そして、1がくる度にcumsum(累積和)するのかとわかりました。
最初見た時、?と思いましたが、自分の愚かさがよくわかった件。
Pandas Dataframeでgroupbyの後に条件付きカウントを行う方法は?
グループ化したデータフレームに対し、条件つけしてデータを抽出したい時はあると思います。結構よくあるはず。
特にkeyをapplyしながらラムダでカウントするやり方はスマートだなと思いました。
Pythonを使った機械学習でグループごとに学習させたい
これそのものをTIPSとして、手元の機械学習に使っているわけではないのですが、当然こう思うよなという納得があった質問。
あるデータの塊ごとに学習させて、時系列データを処理していきたい的なことです。
こういうのを経験しておくと、機械学習の結果の検証に自信が持てると思います。
Pythonの決定木をdtreevizでスマートに可視化する
見栄えは大事。
決定木は条件分岐が可視化されると、人間が理解しやすいと思います。
その意味で、dtreevizの見栄えはよくて、とにかくみやすい。
それをビフォー・アフターを交えながら、解説する記事もみやすい。
助かります。
【python】大量のcsvファイルを高速に読み込む方法
大量のデータを扱う際に、その時間は作業コストに直結します。
それにイライラしますからね。
実証結果が載っていて、更に並列処理などにも触れている内容で、非常に参考になりました。ありがたいありがたい。