データサイエンス勉強記録2023②(7/17)
どうも。こんにちは。ケミカルエンジニアのこーしです。
本日は、6〜7月のデータサイエンス勉強記録を書いていきます。
前回の勉強記録は、こちらです。
6〜7月に勉強したこと
1.Pythonで学ぶ実験計画法入門
2.機械学習を解釈する技術
上記2冊を読了しました。
とても有用だったので、実務レベルがまた1段アップしました。
大満足でした!
1.Pythonで学ぶ実験計画法入門
ガウス過程回帰(GPR)
モデルの適用範囲(AD)
→k-NN、OCSVM、アンサンブル学習など適応的実験計画法
ベイズ最適化(BO)
直接的逆解析
→GMR
まず、ガウス過程回帰を学べたのはとても良かったです。
カーネル関数を用いて非線形回帰にも対応でき、さらに「推測値」に加えて「標準偏差」も出力されるので、モデルの適用範囲(AD)を別途計算しなくていいのがメリットですね。
ベイズ最適化(BO)を用いた適応的実験計画法は、目標値Yが遠いときは、外挿領域の条件が選ばれやすく、攻めた条件を探索してくれるので重宝します。
材料設計やプロセス設計におけるラボ実験の実験計画や、パイロット試験機、生産機における運転条件の探索にも使えそうです。
Gaussian mixture model(GMM)に基づいて回帰分析を行うGMRでは、目的変数yの値から説明変数xの値を直接予測(直接的逆解析)することができます。
2.機械学習を解釈する技術
特徴量の重要度(PFI)
特徴量と予測値の平均的な関係(PD)
インスタンス毎の特徴量と予測値の関係(ICE)
特徴量ごとの貢献度・予測の理由(SHAP)
→PFIとPDを兼ね備えるためICEと併用
取り扱っているデータが化学プラントの連続プロセスデータであり、線形モデルで十分な場合が多いのもありますが、正直、これまで解釈性を重視してPLSなどの線形回帰モデルを優先して使うようにしていました。
線形回帰モデルは、標準化して標準回帰係数を見れば、モデルの解釈は容易ですが、サポートベクター回帰や、ランダムフォレストでは予測精度は良い傾向にあるものの、モデルの振る舞いを解釈するのが困難でした。
そこで、SHAPなどの解釈手法を用いることで、解釈性を損なうことなく、機械学習を利用して予測精度を追求できるようになりました。
実務レベルが1段上がったような気がしてとても満足しています。
プロセスデータにSHAP等を適用してみた結果をブログにまとめました。
興味があればぜひ覗いてみてください。
今後の勉強予定
1.ソフトセンサー
(1)特徴量エンジニアリング
時間遅れ変数の作成や二乗項、交差項の作成、そしてドメイン知識に基づいた変換を試行錯誤してみたいと思います。
(2)変数選択
時間遅れ変数を作成すると説明変数が非常に増えてしまうため、結局モデルが複雑になります。よって、変数選択手法も試行錯誤して効果的なやり方を探りたいと思います。
GAPLS
PLS-VIP
Boruta
NCSC-VS
GAVDSなど
(3)モデル構築
モデルもプロセスデータに有力なものを探索したいですね。
PLS
Elastic Net
SVR
RF
Light GBM
ガウス過程回帰
GMRなど
上記内容について、実務に取り組みながら、気づいた点や備忘録をブログに残していこうと思います。
2.統計検定1級
ぼちぼち勉強しないといけないですが、全然やる気がしません。。
モチベーションを上げるために下記書籍を読もうと思っています。
数理モデルで実務課題を解決するイメージをつけたいなと思ってます。
確率思考の戦略論
USJをV字回復させたマーケターである森岡さんと、P&Gで需要予測を行っていたアナリストである今西さんの共著です。
今読んでいる途中ですが、ガンマ分布、ポアソン分布、負の二項分布、多項分布など数理統計学で触れてきた内容がバシバシ出てきます。
統計検定1級の出題内容は面白いと思いますが、よりビジネスに役立っている例を学べるのはとても良いです。
ビジネスの本質を考える訓練にもなりますね!
現代数理統計学の基礎
昨年、統計検定1級に挑戦した際に1度読みましたが、今年も再読しようと思います。
「現代数理統計学」など色んな教科書を比較してみたかったのですが、時間的に余裕が無いので、本書を再読します。
演習問題まで解けると良いのですが、まずは過去問を優先して取り組みます。
統計検定1級公式問題集(2019〜2022年)
定番の過去問題集です。
2012年から全部持ってますが、さすがに10年分を解くのは無理がありそうです。
まずはこの1冊をじっくり取り組みます!