データサイエンス勉強方針（2025年）

こーし

2025年1月25日 19:45

どうも。こんにちは。
ケミカルエンジニアのこーしです。

本日は、2025年のデータサイエンス勉強方針について書いていきます！

1．化学メーカのDX構想

ここ数年、Pythonや統計学、機械学習などの技術を身につけ、やりたかったことがほとんどできるようになってきました。

ソフトセンサー
異常検知（予兆検知）
ダッシュボード構築
など

やりたかったことは過去のnoteにまとめています。

しかし、これらの技術では事業に大きなインパクトを残すことは正直難しいと感じています。。

デジタル技術を活用し、人件費削減や省エネ（コストダウン）をいくら頑張ったところで、中国、インドなどで大規模生産されるとコストでは太刀打ちできません。

そこで、"ＤＸ"について今一度考え直し、何に注力すべきかを考えたいです。

ＤＸはデジタル技術を活用して社会課題、顧客課題を解決することであり、結果、利益につながらないといけません。

D Xについての理解が不足していると、
「新しいＤＸツールを導入し、作業を30%効率化しました。」
みたいな、訳のわからないことを言ってしまうわけです。

D Xの誤解については下記のnoteで詳しくまとめました。

日本の労働人口は急速に減少しており人手不足解消という意味で、自動化・効率化は意味があるのですが、「事業継続」という意味では効果は限りなく小さいです。

我々は、作業を効率化して必要人員を減らしつつ、付加価値を生み出していかないといけないのです。よって、作業効率化と付加価値向上の両方を実現して初めて DXと呼べます。

「じゃあ、具体的にどうするのさ。」と思いますよね。

まず、自分たちに何が求められているのかを考えます。
私の場合、化学メーカに勤めていますので、化学メーカについて考えてみましょう。

化学メーカの役割は、「顧客が求めるスペックの製品（素材）を安価に高品質で安定的に供給すること」です。

よって、"扱っている化学製品（素材）の専門家"となり、顧客に聞くまでもなく、用途開発や需要予測ができるレベルを目指さないといけません（最初は顧客に聞きまくるしかないですが。）

化学メーカの営業や技術開発、製造部隊は、売っている製品のスペックだけではなく、その製品の用途や需要について"顧客よりも"詳しいという状態を目指しましょう！

現状は、「売っている製品のスペックについて顧客よりもわかっていない営業」と「つくっている製品の用途や需要について何もしらない技術開発と製造」ばかりが実情です。。
これでは、付加価値を生み出すことはできず、利益率（粗利率）が低いのは当然とも言えます。

一方で、顧客が求めるスペックも変わりつつあります。

信越化学工業のＨＰを見てみると、下記のような文言がありました。
（信越化学工業はＤＸなんて言葉を使わずに付加価値を生み出す会社です）

塩化ビニル樹脂は原料の6割が天然由来の塩で、他の汎用樹脂に比べ石油資源への依存度が低く環境への負荷が小さいのが特長です。
また耐久性が高く、リサイクルも容易なことから生活用品から産業資材にいたるまで私達の生活に関わる物に幅広く使用されています。

信越化学工業のＨＰより

事実はともかく、とても興味深い表現だなと思いました。
「原料の6割が天然由来の塩」や「石油資源への依存度が低く」、「リサイクルも容易」という文言が私には刺さりました。

従来のスペックで言うと、「耐久性が高い」しか言及していません。
（それしか言うことが無いのかもしれませんが。。）

とにかく、社会課題、顧客の需要について、化学業界で最も深く考えている（と思われる）信越化学工業からは学ぶものは大きいはずです。

ＤＸについて勉強しつつ、高利益率を叩きだしているキーエンスや信越化学工業について調査するのは面白そうだと考えています。

再読も含め、下記の本について読んでいきたいです。

キーエンスの研究としては、下記の4冊を読みたいです。

信越化学工業の研究としては、下記の3冊です。

読みたい本がたくさんあります。。

「読んだら読みっぱなし」だとあまり身につかないので、自分の血肉にすべく、読んだらブログにアウトプットしたいと考えています。

2．データ解析・Python実装

上記に述べたＤＸ構想を考えながらも、Pythonや統計学、機械学習を活用し、やれることはやっていきたいと思います！

（1）運転管理ダッシュボードの構築

ダッシュボードは、これまで有料ソフトが主流でした。
しかし、マイクロソフトのPower Platformが充実してきており、Power BI（限定公開は有料）の活用事例が増えてきました。

また、会社でPythonを扱う研修が増えており、Copilot（生成AI）の普及も後押しして「市民開発」が活発化しそうな雰囲気です。

よって、これからは下記の三つ巴の状況になりそうです。

DataRobot、RapidMiner（三菱ケミカルが使用）などの有料ソフト
マイクロソフトのPower BI
Python（Streamlit、Dashなど）※無料

私は、Pythonでダッシュボードを作成し、他の人も容易に改造可能な形に標準化することを目標にしたいと思います。

デジタル技術の特長は、「水平展開可能」であることです。
自分たちだけが効率化すれば良いのでなく、他の部署の効率化も考えながら取り組みたいなと考えています。

Pythonで作成したダッシュボードの例は、下記のリンクにあります。

時系列データのトレンド比較（Streamlit Shareリンク）

（2）ソフトセンサー・異常検知ツール

ソフトセンサーについて、下記のことがPythonでできるようになりました（たぶん）

データベースから欲しいデータを取り出す
外れ値除去や時間遅れ、平滑化、特徴量作成などの前処理
LightGBMやガウス過程回帰（GPR）などのモデル構築
（異常検知はまだまだ勉強が必要。。）
モデル解釈（SHAP）
推定結果の可視化（Streamlitなど）

よって、ソフトセンサーや異常検知のツールを作成したいと思います。

こちらも「水平展開可能」な形にしたいですね。
他部署でも容易に活用できるようにしないといけないです。

ツールを作成するにあたり、ロギングや並列処理などのPythonコードも勉強していきたいと思います。

✅データサイエンスの実務
Pythonと統計学の基礎は身についたと思うので、実務に特化した勉強をしていく！
ソフトセンサーや異常検知の実装を考えると、データ解析以外のpythonも勉強しないとな。。
・例外処理
・オブジェクト指向（クラス）
・ロギング
・並列処理
をやっていく！ pic.twitter.com/EiIXSpxBVn
— こーし⚡️ケミカルエンジニア (@mimikousi) December 2, 2023

（3）テキスト解析

現在、こちらの書籍を勉強しています。

製造現場の運転日誌や、ＤＣＳのアラーム・動作記録、設備の修繕記録などのテキストを解析し、現場で「今、何が起こっているのか」を一目でわかるようにしたいと考えています。

テキストデータの扱いは、数値データの扱いと全然違うので、すでに心が折れそうですが、やってみるだけやってみます。。

（4）因果分析

異常検知（予兆検知）は、データを集めながら精度をあげていく必要があります。

データを集め、予兆検知ができるようになるまで、故障やトラブルが起こることもあると思います。

よって、起こってしまった故障やトラブルの原因調査を効率的に進める手法も学びたいと考えています。

「相関はあるけど因果関係はない」なんてことは日常茶飯事です。
そこで、因果分析について学べたら良いなと考えています。

積読している下記の書籍を勉強したいと考えています。

（5）深層学習

深層学習は現場で使いにくく、これまで優先順位を下げてきました。

しかし、プラントの自動運転に深層学習が使われるようになったり、 ChatGPTに代表される生成ＡＩの躍進を見て、そろそろ深層学習を積極的に使っていかないといけないなと考えるようになりました。

数年積読していた下記の書籍も読みたいなと考えています。

深層学習（改訂第2版）
ゼロから作るDeep Learning

3．まとめ

2025年のデータサイエンス勉強方針についてまとめてみました。

吉田松陰がおっしゃる通り、計画を立てることはとても重要です。

「夢なき者に理想なし、理想なき者に計画なし、計画なき者に実行なし、実行なき者に成功なし。故に夢なき者に成功なし。」

by 吉田松陰

とはいえ、ボリュームが多いので、1年でこなせるかだいぶ不安ですが、一歩ずつ積み上げていきます！

また、年齢的にもそろそろ現場でゴリゴリ実務ができなくなる気配があるので、2025年にやれることをやり切りたいと思います！

ここまで読んでいただきありがとうございました！