zawatien
環境構築等やデータ分析系以外の技術について。
データ前処理、機械学習、分析に関するTips こうするとラクのような抜け穴や、日本語の解説記事がなくて困ったといったあたりが多くなると思います。
以下をコマンドラインで実行したらクリップボードに保存される。 tree | clip.exe
本屋で立ち読みしてみていいなと思った本。 特に新しめのものを中心に。 データ利活用の教科書 めちゃいいと思う。 作業者にも発注者にもすべての人に自費でプレゼントしたいくらい。 データサイエンス、AI、DX色んな言葉が手を替え品を替えつつ5年ほど前からバズワードになってきた。 で、核になる分析の実装や手法に関する情報は書籍、ネット記事等でたくさん得られるようになってきた。 集計なりなんなりは適当に検索して出てきた方法をそのままやれば、それなりのアウトプットが出せるよう
ちょっとした資料作成で図解したいときに、別途ソフトを開いたり、あまり使い勝手の良くないPowerPointやExcelの中で作業するのは非効率。 そこそこ使い勝手がよいツールがVSCodeのExtentionに存在している。 Luna Paint VSCodeでPhotoShop!?レイヤーを使い分けつつ、画像ファイルに文字を追加したり色を変えたりといったことが可能。回転、複数枚の画像の合成等も可能。 レイヤー情報ごと保存する.psのようなことはできないが、ちょっとした加工
適当に検索して出た方法でplotly expressのプロットを保存しようと思ったらkaleidoやorcaのengineでやたらエラーが出てかなり困った。 バージョンとか色々原因はあるかと思うが、以下で解消していける(はず) ゴール↓が動くなら問題ないので、ブラウザバックしてそのまま驀進 ※必要に応じてpip install等おこなう # jpg形式の保存の場合import pandas as pdimport plotly.express as pxdf = px.d
なにからなにまでローカルのものをscoopで管理してしまおうという思想。 開発環境そろえるみたいな時もvenvより直感的に使えておすすめ。 この手の情報は断片的にはありつつも一気通貫したものがなかったので記載。 scoopのインストール+αSet-ExecutionPolicy RemoteSigned -scope CurrentUserinvoke-Expression (New-Object System.Net.WebClient).DownloadString('
開発等で特定の環境が必要になった時、指定のバージョンのPythonのインストールと、仮想環境の作成まで一気通貫したものがなかったので作成。 準備以下をコマンドラインに流してインストール sudo apt-get install -y build-essentialsudo apt-get install -y checkinstallsudo apt-get install -y libreadline-gplv2-devsudo apt-get install -y l
GCSにcsvがあるとして、BigQueryのテーブルにする。 そういう処理について。 bq loadで解決 解決策の1つはbqコマンド。 中でもbq load csvのデータから、1行目の読み飛ばし、型の自動検出といったあたりを引数にして取り込む例は以下。 bq load --source_format=CSV --skip_leading_rows 1 --autodetect {プロジェクト名}:{データセット名}.{テーブル名} {GCSのURI} テーブルに
"2021-12-24"+1 →"2021-12-25"になったら直感的で嬉しい。 BigQueryならそれに近いことができる。 日常的にSQLを書いてBigQueryからデータを取っているとき、日付型のデータを取り扱うのが少し面倒くさくなってくる。 「2022-01-01」のような日付型のdateというcolumnがあるとき、 BigQueryは忖度して以下のように対応してくれるので非常に便利。 -- 略WHERE date > "2021-12-15" -- 日付が20
pd.groupby().sum()とかはよく使うものの、 列ごとにここは合計、ここは平均といった 使い分けをする方法はSQLだと容易にできるがPandasではdplyr的な記法のagg()を使うことになる。 意外と浸透していないようなので記載。 import pandas as pddf = pd.DataFrame([{'col_0': "A", 'col_1': 1, 'col_2': 2}, {'col_0': "A", 'co