データサイエンス勉強記録⑨(6/26)
どうも。こんにちは。
ケミカルエンジニアのこーしです。
最新のデータサイエンス勉強記録を記載しました。
最近、残業とテニスで忙しく、アウトプット(ブログやnote)できてませんでした。
何かを成し遂げるためには、何かを犠牲にしないといけないことを実感しています。いわゆる「選択と集中」ですね。
また、自己啓発に関しては「継続」が重要です。
1週間くらい空けてしまうと、前回学んだ内容がすっかり頭から抜け落ちてしまい、復習からは始めないといけないので非常に効率が悪いです。
気が向いたら勉強するというスタンスでは上手くいかないと思います。
自己啓発は、生活の一部にしていかないといけません。
よって毎朝、1時間くらい自己啓発(統計学、python)する習慣を身につけたいと思います!(実は、入社以来ずっとやってますが。。)
今月の勉強記録
6月の勉強成果は下記の通りです!
「エンジニアのための実践データ解析」読了!
「ソフトセンサー入門」読了!
「pythonによる異常検知」 1、2章読了
「確率統計キャンパス・ゼミ」講義1〜4読了
GWに読みたかった5冊の本は、6月末時点ですべて読了することができました。
実務に使える内容ばかりだったので、今後ブログにまとめたいなと思ってます。
エンジニアのための実践データ解析
化学工学会誌に連載されていた内容を書籍にまとめたものです。
よって、現場視点のデータ解析手法を学ぶことができました。
現場でよく話題になるのは、このデータは「正規分布に従うのかどうか」であり、正規確率プロットで確認する方法は有意義でした。
また、正規分布や指数分布、ポアソン分布以外の少しマニアックな確率分布の記載があり、とても勉強になりました。
【確率分布の例】
対数正規分布
レイリー分布
マクスウェル分布
ガンベル分布
ワイブル分布
さらに、サンプルサイズに関する記載もあり、改めて現場向けだなと実感しました。
ただ、内容としては「心理統計学の基礎」の方が詳しいと思いました。
ちなみに、エクセルで正規確率プロットを書く方法は、統計WEBさんがブログにまとめてました。
pythonで書く方法については、Qiitaや他のブログ記事で紹介されています。
ソフトセンサー入門
金子先生のブログを参考にしながら、実務でも「ソフトセンサー」を作成しており、体系的に学ぼうと思い入門しました。
結果、読んで良かったです。というか読まないとダメでした。
ソフトセンサー構築の流れが詳しく説明してあり、漏れなく抜けなくモデルを構築するためには必読の一冊と言えます。
ただ8年前の書籍なので、今はよく使われているガウス過程回帰やニューラルネットワークを使った手法の記載が無いため、その辺は他書で補う必要があります。
Pythonによる異常検知
異常検知に入門すべく3冊教科書を購入し、最も簡単そうな本書から読み始めました。
しかし、まだ2章までしか読んでませんが、機械学習、深層学習、時系列データなど、すでに過去に読んだ書籍の中で最高レベルに難しいです。
最悪pythonコードだけ眺めて、機械学習、深層学習、時系列データ分析については基礎的な教科書に立ち戻りたいと思います(はじパタや深層学習とか)。
確率統計キャンパス・ゼミ
こちらは、統計検定1級対策で読み始めました。
準1級対策で購入し少し読みましたが、今回は復習がてら通読しています。
確率分布やモーメント母関数には、半年ほど触れてなかったせいか、すっかり忘れてました。
「統計学入門(通称:赤本)」とかに比べると、式展開まで詳しく書かれているので、初心者におすすめの1冊ですね。
アウトプット(技術ブログ:雷電風雨のエンジニア)
インプットの質を上げるためには、アウトプットが欠かせません。
勉強した内容や試行錯誤した内容をブログにまとめたいと考えています。
今週は「ステップワイズ法による入力変数選択」について解説しました。
今後も、異常検知や統計検定1級の勉強を続けながら、技術ブログも更新していきたいと思ってます!
今、ブログ記事にしたいなと思ってるのは下記テーマです。
pandasの基礎(データフレーム抽出)
標準化のモジュール自作
マニアックな確率分布(対数正規分布、レイリー分布、マクスウェル分布、ガンベル分布、ワイブル分布など)
平滑化・ノイズ処理(savitzky golay filter:SG法)
ソフトセンサーとは
特徴量作成(交差項、時間遅れ)
変数選択(VIP法、遺伝的アルゴリズム、NCSC-VS、borutaなど)
pythonブログは競合が多いので、世の中にあまり出回ってないテーマから執筆していきます!
それでは、引き続きコツコツ勉強していきましょう。また来月!