データサイエンス勉強記録2023①（6/7）

こーし

2023年6月7日 20:19

どうも。こんにちは。
ケミカルエンジニアのこーしです。

本日は、久々にデータサイエンス勉強記録を書いていきます。

データサイエンス勉強方針（２０２３年）

今年度の勉強方針は前noteでまとめています。

要約すると、今年の勉強方針は下記4点です。

統計検定１級　合格
ソフトセンサー
異常検知
pythonでダッシュボード作成（Dash、plotly）

７月以降は統計検定１級対策に注力したいので、６月まではpythonとソフトセンサーの勉強を進めています。

２０２３年１月〜６月までにやったこと

２０２３年３月くらいまでは「数理統計学」の勉強をしていましたが、実務の勉強がしたくなったので、ソフトセンサーやpython関係の本を読んでました。

読んだ教科書は下記の通りです。

１．数理統計学（黒木学著）
２．現代数理統計学（竹村著）→途中で中断
３．ソフトセンサー入門（２周目）
４．化学のためのPythonによるデータ解析・機械学習入門（２周目）
５．実践データサイエンス
６．Pythonで学ぶ実験計画法入門→勉強中

船津先生と金子先生の「ソフトセンサー入門」でソフトセンサーの理論的な部分を掴み、金子先生の「化学のためのPythonによるデータ解析・機械学習入門」と「実践データサイエンス」でpythonによる実装方法を学びました。

理論的な部分の深掘りは必要ですが、上記３冊を読めばソフトセンサー・異常検知の実装が可能になります。

そのくらい丁寧な解説とpythonコード例が充実しています。

ソフトセンサー入門

とても勉強になったので、概要をブログにまとめました。
ソフトセンサーの役割や利用例、また作成時の注意点について書かれていました。

化学のためのPythonによるデータ解析・機械学習入門

Pythonの基礎からデータ解析の実践まで広く扱っており、かつPythonコード例が豊富で、この１冊だけでも実務に応用できると思います。

Pythonの基礎
データの可視化（ヒストグラム、散布図、PCA、ｔ−SNE）
回帰分析（PLS、SVR）
クラス分類（k-NN、SVM、DT、RF）
モデルの適用範囲（ｋ−NN、OCSVM）
時系列データ解析の実践（ソフトセンサー、異常検出・異常診断）

データ解析の基本的な流れが身につきましたし、PCAやt-SNEを使った多次元データの可視化（次元削減）やOCSVMで「異常検出」し、RFでどの変数が異常に寄与しているのか診断することもできるようになりました。

実践データサイエンス

著者曰く「中級者向けに書かれた本」でして、Pythonが理解できる前提で書かれています。

初級向け：化学のためのPythonによるデータ解析・機械学習入門
中級向け：実践データサイエンス

データの前処理（平滑化、外れ値検出など）
特徴量選択（GA、GAWLS、GAVDS、Boruta）
クラスタリング（GMM）
モデルの検証
モデルの適用範囲（AD）
ベイズ最適化（GPR）
モデルの逆解析

色々と学びが多かったですが、特に下記は印象に残りました。

特徴量選択では、特徴量選択に用いたデータに過学習した特徴量が選択されやすいこと。
モデルの予測精度（RMSEやMAE）とモデルの適用範囲はセットで考えなくてはいけないこと。
サンプル数を増やすとモデルの適用範囲が広がること。
ベイズ最適化を用いたモデルの逆解析

今後の勉強

理論的な部分の深掘りとして、今後下記の内容を学べたら良いなと考えています。

ガウス過程回帰：回帰分析、ベイズ最適化
LightGBM：回帰分析
SHAP：モデル検証（変数重要度）
Boruta：特徴量（変数）選択
PLS-VIP：特徴量（変数）選択
LiNGAM：因果分析

また、７月からは統計検定１級対策も始めないといけないですね。
下記の書籍を勉強していきたいと思ってます！

【参考】関連ツイート

✅数理統計学（黒木学著）
「最終章　ベイズ推論」を読了！
緑本で考え方を勉強していたので、流れはつかめたと思う。
ただ、数式を追ってるだけだと何をやってるのかわからなくなるので、まだまだ復習が必要。。
ベイズ統計学の考え方は好きなので、じっくり勉強していきたい。 pic.twitter.com/IxlrruVKXQ
— こーし⚡️ケミカルエンジニア (@mimikousi) February 4, 2023

✅現代数理統計学
統計検定の創設当時から関わってこられた竹村先生の教科書！
ずっと読んでみたかったので、次はコレを読んでみようかな。
「統計学実践ワークブック」と記号の使い方が同じなので、見慣れた感じで読みやすそう。
果たして内容はどうだろうか。楽しみ！！ pic.twitter.com/kfRyKQ52Gp
— こーし⚡️ケミカルエンジニア (@mimikousi) February 5, 2023

✅ソフトセンサー入門（2周目）
理解が深まったので２周目読んで良かった！
製造業で回帰分析や異常検知に取り組みたい方にオススメです。
まとめ記事書いていこうかな。
ちなみにソフトセンサーは各分野で色んな呼び方がありますね
・ソフトセンシング
・仮想計測技術
・バーチャルメトロロジー
・PAT pic.twitter.com/DukjxIWurw
— こーし⚡️ケミカルエンジニア (@mimikousi) March 13, 2023

✅化学のためのPythonによるデータ解析・機械学習入門
2周目読了！１周目よりも深く学べた気がする。
Pythonコードが豊富なので、これ１冊で実務のデータ解析レベルが上がりそう！
①データの可視化（PCA、t-SNE）
②回帰分析（PLS、SVR）
③適応型ソフトセンサー
④異常検知/診断（MSPC、OCSVM、RF） pic.twitter.com/uTaf8dz6RV
— こーし⚡️ケミカルエンジニア (@mimikousi) April 9, 2023

✅実践データサイエンス
時間かかったけど、ついに読了！
・SG法
・Boruta
・モデルの適用範囲（AD）
・モデルの逆解析
など実務に使えそうな学びが多かった一冊。
色々と深掘りして勉強していきたい。 pic.twitter.com/fTQ3p20QFT
— こーし⚡️ケミカルエンジニア (@mimikousi) June 4, 2023

この記事が気に入ったらサポートをしてみませんか？