Robust Machine Learning Inference from X-ray Absorption Near Edge Spectra through Featurization
本研究の学術的背景、研究課題の核心をなす学術的「問い」は、X線吸収スペクトロスコピー(XAS)解析のための機械学習モデルの性能に対する異なる特徴量抽出方法の影響を系統的に比較することです。特に、X線吸収近辺端スペクトル(XANES)は局所配座と電子情報を符号化していますが、これらの情報を抽出するための機械学習のアプローチは重要な関心事です。
本研究の目的は、異なる特徴化手法がXAS解析のMLモデルの性能に与える影響を系統的に比較し、これらのモデルの分類と回帰能力を計算データセットで評価し、先行して見られない実験データセットでの性能を検証することです。これによって、累積分布関数(CDF)特徴は非常に高い予測精度と優れた転送能力を達成するため、その役割が明らかにされました。
本研究は、これまでのMLモデルが生のスペクトル、つまりエネルギーと強度の組み合わせを入力特徴として利用していたことから、追加の変換と次元削減が生のスペクトルにどのようにアプローチできるかを調査するような位置づけがなされています。
系統的な比較と検証により、いくつかの特徴化手法が計算されたXANESに対して同様に正確な推論を生み出すこと、そして実験データに対する推論時に、累積分布関数(CDF)変換により木ベースのモデルの性能が強化されることを明らかにしました。
本研究の有効性は、計算されたデータセットと未見の実験データセットを用いたモデルの評価と予測精度によって検証されました。特に、XAS解析における累積分布関数特徴の取り扱いの重要性が示されました。