【ボスゴリラーの野望X#研究】美味しいベルギービールをつくる研究論文を読んでみた
こんにちはボスゴリラーのこと井口です🦍🦍🦍
今回は、大学院の岩山先生に「参考になりそうな論文あるよー」と紹介されたので、読んでみたという話について書きたいと思います。
私は株式会社Mountain Gorilla(以降、MG)という製造業向けDXのサービスを提供する会社の代表をするかたわら、
滋賀大学大学院のデータサイエンス研究科で学生として研究もしています。
今回の対象の論文は以下です
今回は、以下の流れで書きたいと思います。
1.ざっくりどんな論文なのか?
一言で言うと”機械学習で美味しいビールをつくる研究”です。
私の研究はレシピ(醸造条件の設計値)に着目してるのですが、この論文は化合物に着目しています。
ただ、最終的な目的は美味しいビールをつくることなので同じですね。
めちゃ参考になりました。
私の研究については、以下簡単に紹介していますので読んでみてください。
2.どんなところが凄いか?
あくまで私的な意見ですが、以下、私がこの研究の凄いと思うところです。
①.ベルギービールを250種類、化学分析と官能分析をしている
②.10種類の機械学習モデルにトライしている
③.美味しいに効く化合物を特定して、それを実際にビール付加して評価している
細いところは他にも凄いなーと思うところはあるのですが、ざっくりとは上の3点だと感じています。
まず、①はベルギーの研究者なのでしょうか?w
ビールで有名な国ではありますが、市販ビールが250種類もあるのは驚きです。
それを化学分析と官能分析の結果で細かく整理しています。
次に②は、これはデータサイエンスの研究者からすると普通なのかもしれませんが、私からすると10個の異なるモデルのプログラミングを実装して、評価するのは凄いです。
最後の③は、予測モデルの構築に留まらず、その予測結果を実際のビールを使って評価しているのは、実務家の私としては共感できました。
3.役立ちそうな情報、データまとめ
この論文の成果としては”酢酸エチル”と”エタノール”がビールの”美味しい”に寄与が高いということが分かったことが最大の成果だとは思うのですが、
以下私的に役立つ内容ですが覚え書きとして情報とデーターをまとめます。
①.オンラインレビューと官能評価の相関
これは本研究の本筋とずれるデータではあるのですが、私的には一番「へぇー」と感じました。
結果、味覚においてオンラインレビューの評価と今回の官能評価の相関は弱かったということです。
この結果は、今回の官能評価が良くないというのを示すものではなく、
味覚は合わせて食べたものや環境、価格などの様々なバイアスに影響をかなり受けるということを表していると思います。
実際に価格とオンラインレビューの相関はあったが(r=0.49)、価格と官能評価との相関はありませんでした(r=0.19)。
この結果から、私の研究を進める際には、オンラインレビューのデータは積極的に使うべきではないかと思います。
あとは、評価データ収集には環境やその他バイアスなどがかからない様にする必要があると感じました。
②.使用した機械学習モデル
・3 つの線形回帰ベースのモデル (一次交互作用 (LR) を使用した単純線形回帰)
・一次交互作用を使用したラッソ回帰 (Lasso)、
・部分最小二乗回帰 (PLSR))
・5 つのデシジョン ツリー モデル (AdaBoost リグレッサー (ABR)、
・エクストラ ツリー (ET)
・勾配ブースティング リグレッサー (GBR)
・ランダム フォレスト (RF)
・XGBoost リグレッサー (XGBR))
・サポート ベクター回帰 (SVR)
・人工ニューラル ネットワーク(ANN)モデル
結果、今回一番パフォーマンスを発揮したのは”GBR”でした。
この辺りは私は詳しくありませんが、色々なモデルを試す必要があるということと、今勉強しているモデルを評価(本研究は決定係数を指標として使用)する必要性を感じました。
③.データについて
・250種類のベルギービール:賞味期限内のビールは商業小売店から購入
・16人のテイスター:年齢[22 ~ 42 歳、平均 29 歳]、性別 [56% 男性]、国籍 [7 ヶ国]
・オンライン ビール レビュー データベース:RateBeer
232,288 件のオンライン レビューから (平均 = 922、最小 = 6、最大 = 5343) を収集
*その他、詳細データがオープンデータとして提供されている
④.官能評価の方法
米国醸造化学者協会 (ASBC) の官能分析法 :米国醸造化学者協会、米国ミネソタ州セントポール、1992年)を使用した。以下は詳細な条件。
・30 人のボランティアが一連の三角テストを通じてスクリーニングし、最も敏感で一貫したテイスター 16 名がテイスティングパネルのメンバーとして選出
・7 段階のスケールを使用して属性の強度を評価し、50 の異なる属性を特定して採点するようにメンバーを訓練
・セッションごとに、同じスタイルの 5 ~ 12 種類のビールが 12 °C ~ 16 °C でテイスティング
・評価実施時間:午前10時から12時
⑤.開発環境
使用言語:Python
主な使用ライブラリ:scikit-learn, Optuna, xgboost, scrapy,langdetect, langid
*バージョン情報は省略
4. 今後の私の研究は?
研究のサポートをして頂いてるブリューパブスタンダードさんの約4年間の全醸造データを最近入手できましたので、まずは色々なモデルと試してみたいですし、それぞれのモデルがどういうものなのか?その概略ぐらいは勉強したいですね。それと並行して、ユーザーの評価データの収集をしていきますが、その際は今回の論文の知見を活かしていきたいと思います。今後の研究が楽しみになる論文に出会えました。紹介をして頂いた岩山先生、ありがとうございます。
店舗に併設する醸造所でつくられる個性豊かなクラフトビールが楽しめます。
私もクラフトビールが好きになったきっかけのお店です。
そして、最後まで読んでくれて有り難う御座います🦍🦍🦍
Xも始めたので是非フォローよろしくお願いします🦍