データサイエンス勉強記録2023①(6/7)
どうも。こんにちは。
ケミカルエンジニアのこーしです。
本日は、久々にデータサイエンス勉強記録を書いていきます。
データサイエンス勉強方針(2023年)
今年度の勉強方針は前noteでまとめています。
要約すると、今年の勉強方針は下記4点です。
統計検定1級 合格
ソフトセンサー
異常検知
pythonでダッシュボード作成(Dash、plotly)
7月以降は統計検定1級対策に注力したいので、6月まではpythonとソフトセンサーの勉強を進めています。
2023年1月〜6月までにやったこと
2023年3月くらいまでは「数理統計学」の勉強をしていましたが、実務の勉強がしたくなったので、ソフトセンサーやpython関係の本を読んでました。
読んだ教科書は下記の通りです。
1.数理統計学(黒木学著)
2.現代数理統計学(竹村著)→途中で中断
3.ソフトセンサー入門(2周目)
4.化学のためのPythonによるデータ解析・機械学習入門(2周目)
5.実践データサイエンス
6.Pythonで学ぶ実験計画法入門→勉強中
船津先生と金子先生の「ソフトセンサー入門」でソフトセンサーの理論的な部分を掴み、金子先生の「化学のためのPythonによるデータ解析・機械学習入門」と「実践データサイエンス」でpythonによる実装方法を学びました。
理論的な部分の深掘りは必要ですが、上記3冊を読めばソフトセンサー・異常検知の実装が可能になります。
そのくらい丁寧な解説とpythonコード例が充実しています。
ソフトセンサー入門
とても勉強になったので、概要をブログにまとめました。
ソフトセンサーの役割や利用例、また作成時の注意点について書かれていました。
化学のためのPythonによるデータ解析・機械学習入門
Pythonの基礎からデータ解析の実践まで広く扱っており、かつPythonコード例が豊富で、この1冊だけでも実務に応用できると思います。
Pythonの基礎
データの可視化(ヒストグラム、散布図、PCA、t−SNE)
回帰分析(PLS、SVR)
クラス分類(k-NN、SVM、DT、RF)
モデルの適用範囲(k−NN、OCSVM)
時系列データ解析の実践(ソフトセンサー、異常検出・異常診断)
データ解析の基本的な流れが身につきましたし、PCAやt-SNEを使った多次元データの可視化(次元削減)やOCSVMで「異常検出」し、RFでどの変数が異常に寄与しているのか診断することもできるようになりました。
実践データサイエンス
著者曰く「中級者向けに書かれた本」でして、Pythonが理解できる前提で書かれています。
初級向け:化学のためのPythonによるデータ解析・機械学習入門
中級向け:実践データサイエンス
データの前処理(平滑化、外れ値検出など)
特徴量選択(GA、GAWLS、GAVDS、Boruta)
クラスタリング(GMM)
モデルの検証
モデルの適用範囲(AD)
ベイズ最適化(GPR)
モデルの逆解析
色々と学びが多かったですが、特に下記は印象に残りました。
特徴量選択では、特徴量選択に用いたデータに過学習した特徴量が選択されやすいこと。
モデルの予測精度(RMSEやMAE)とモデルの適用範囲はセットで考えなくてはいけないこと。
サンプル数を増やすとモデルの適用範囲が広がること。
ベイズ最適化を用いたモデルの逆解析
今後の勉強
理論的な部分の深掘りとして、今後下記の内容を学べたら良いなと考えています。
ガウス過程回帰:回帰分析、ベイズ最適化
LightGBM:回帰分析
SHAP:モデル検証(変数重要度)
Boruta:特徴量(変数)選択
PLS-VIP:特徴量(変数)選択
LiNGAM:因果分析
また、7月からは統計検定1級対策も始めないといけないですね。
下記の書籍を勉強していきたいと思ってます!
【参考】関連ツイート
この記事が気に入ったらサポートをしてみませんか?