見出し画像

化学プラントにおける重回帰分析の3つのコツ

どうも。こんちには。こーしです。

最近は、やりたことがたくさんあってめちゃくちゃ忙しいですね。
・読書
・テニス
・技術ブログ
・統計学の勉強
・Pythonでデータ解析
・プロセスシミュレータ
・製造業コミュニティの活動

こんな状況なのに、ラジオにまで手を出してしまい、自分でも本当に意味不明です。

昔からやっていることは、読書とテニスくらいなので、ほとんどが最近始めたことです。

新しいことにどんどん挑戦しているので、最近はかなり充実してます。

一人でやっていたら、寂しくて続かなかったなと思いますが、今は製造業コミュニティのメンバーと切磋琢磨しているので、仲間がいる分、頑張ることができているのかもしれませんね。

それでは、本題に移りましょう!

本日のテーマ

「化学プラントにおける重回帰分析の3つのコツ」

私は、化学メーカーで働いており、重回帰分析を使うモチベーションは、大きく2つあります。

①製品品質を工程データから常時予測させ、不良品発生を減らしたい

 製品品質は、ガスクロや液クロなどで手分析する場合が多く、分析頻度もそんなに多くはできないので、工程データから常時予測できると、品質調整のアクションを早めにとることができ、スペックアウトによる不良品発生を防ぐことができます。

②やたらと分析頻度の多い分析項目を常時予測させ、分析頻度を減らしたい

 業務効率化が叫ばれているイマ、少しでも業務を減らすために、データの力を使うしかありません。

ソフトセンサー

常時予測させるというのは、リアルタイムで予測値を出力するということです。これは、ある意味センサーと同じ役割を果たしますので、「ソフトセンサー」と呼ばれています。

従来の流量計や温度計、圧力計、液面計は、形のある「ハードなセンサー」です。一方、データから計算して予測値を出力させるのは、形がないので、「ソフトセンサー」と呼ばれます。

重回帰モデルの作成

今回は、製品の品質を予測することを考えてみましょう。

まず、温度や圧力、流量などの工程データを集めてきて、製品の品質と相関の高い変数を絞り込みます。(説明変数xと呼ばれます。)

ここで、重回帰モデルを作成する上で、3つコツがあるのでご紹介したいと思います。

コツ①意味のある変数に変換

流量計や圧力計など計器の値をそのまま使っていては、よい重回帰モデルを作ることは出来ません。

化学反応が起こっている場合は、反応時間、つまりは反応槽の「滞留時間」が重要なファクターになってきますし、「原料と溶媒の比率」も品質に影響を与える可能性が高いです。

よって、工程データを意味のある形に計算し直して、説明変数xにすると、良い重回帰モデルが得られると思います。

コツ②独立な変数にする

変数同士の相関係数が高いと、精度の良い重回帰モデルは作れません。

例えば、蒸留塔を考えると、

リボイラの加熱スチーム量と蒸留塔の内液には、当然ですが、高い相関があり、これらを説明変数に両方加えてしまうと、モデルの精度が落ちてしまいます。

これは、「多重共線性」と呼ばれていまして、重回帰分析をする上で押さえておくべき知識の一つです。

よって、線形の重回帰モデルの場合、この多重共線性を防ぐために、「PLS」という手法がよく使われています。

興味のある方は調べてみて下さい。

今度、PLSについてブログ記事にできたら良いなと思っています。

コツ③操作可能な変数のみに絞る

こちらは、予測精度が高くなるという意味の「良いモデル」ではなく、使い勝手の良いモデルを作るためのコツになります。

つまりは、現場の人に受け入れてもらいやすいモデルです。

要は、「使えるモデル」を作るためのコツになります。

データサイエンティストの方は、予測精度の良いモデルを作ることが目的になってしまいがちですが、ビジネスの目的は、品質を予測して不良品発生を減らすことなので、品質を予測した後、品質を運転員が調整できないといけません。

よって、若干予測精度が落ちたとしても、説明変数を「操作可能な変数のみに絞る」方が、予測した後のアクションにもつながりやすいですし、どの変数がこれまでの運転とズレてきたのかがわかりやすくなり、現場の人に重宝されるモデルとなると思います。

具体例を挙げますと、気相中のとある成分Aの濃度が品質と高い相関を示すとします。

つまり、気相中の成分Aの濃度の寄与率が大きくなった場合です。

しかし、気相中のA成分の濃度は、運転員が意図して制御できる変数ではありませんでした。

そこで、気相中のA成分の濃度に影響を与える変数を探し出します。

すると、気相中のA成分の濃度は、反応温度と高い相関を示すことがわかりました。

しかし、ここでも、反応温度は運転員が直接操作している変数ではなく、反応槽の圧力や熱媒の流量を操作しているということでした。

よって、気相中のA成分の濃度が寄与率が高く、良いモデルができたと喜ぶのでは無く、反応槽の圧力や熱媒の流量を説明変数に採用して、モデルを作った方が「使えるモデル」になるということです。

なかなかデータ解析だけで、「使えるモデル」をつくるのは難しいなと感じました。

プロセスの知識があった方が、データ解析も報われますので、プロセスに詳しい人ほど、データサイエンスを勉強することをオススメしたいなと思います。

化学プラントにおいて、重回帰分析、ソフトセンサーを作成することがあれば、これら3つのコツについて注意してみて下さい。

それでは、最後までご視聴ありがとうございました!

それでは!!



この記事が気に入ったらサポートをしてみませんか?