(中断)データサイエンス100本ノックを解いてみる(pandas, polars, sql)
データサイエンス100本ノック(構造化データ加工編)がGitHub上で公開されていましたので、前処理などの勉強として解いてみます。
実行環境のサポート言語としては、SQL、Python、Rとのことでしたが、SQLとPython(Pandas, Polars)で解く予定です。
大分類として22個に分類されていましたので、大分類ごとに記事にしていこうかなと思っています。(気持ちが折れなかったら。。(笑))
※一部、回答がどうしてもわからなかった場合は、公式の回答をそのまま載せております。polarsにつきましては公式回答がないため、他の方の記事を参照しております。
下記に記事のリストを置いておきますので、問題を解き次第更新していきます。
No1 列に対する操作 3問 準備中
No2 行に対する操作 6問 準備中
No3 あいまい条件 7問 j準備中
No4 ソート 4問 準備中 準備中
No5 集計 13問 準備中
No6 副問合せ 2問 準備中
No7 結合 7問 準備中
No8 縦横変換 2問 準備中
No9 データ変換 14問 準備中
No10 数値変換 4問 準備中
No11 四則演算 7問 準備中
No12 日付型の計算 5問 準備中
No13 サンプリング 2問 準備中
No14 外れ値・異常値 2問 準備中
No15 欠損値 5問 準備中
No16 除算エラー対応 1問 準備中
No17 座標データ 2問 準備中
No18 名寄せ 2問 準備中
No19 データ分割 2問 準備中
No20 不均衡データ 1問 準備中
No21 正規化・非正規化 2問 準備中
No22 ファイル入出力 7問 準備中
pandas, polars, sqlの書き方の比較をしながら問題を解いておりましたが、作業になってきて身につくような形になっていないため中断させていただきます。