【パーセリング】パーセリングって何?マニアックな統計的な手法について解説した論文(Rhemtulla, 2016)
研究を進める中で、これまで知らなかった「パーセリング(小包み化)」という概念に出会ったので、備忘録的に残しておきます。簡単に言えば、因子を小包みのようにまとめてしまう手法のことです。
なお、パーセリングの考え方については、京大・関口教授の大変わかりやすい解説がありますので、そちらを参照されることを強く推奨します。
(関口先生のブログは、大学院生必読だと個人的に思っています)
今回扱うのは、関口先生のブログでも紹介されていたRhemtla (2016)です。最初にお伝えしておきますが、かなりマニアックな統計手法を扱ったもので、多くの方には特に参考にならないかもしれません・・・。
どんな論文?
この論文は、構造方程式モデリング(SEM)において、複数の項目をパーセリング(小包み化)、というグループにまとめる方法が、モデルの正確さやミスを見つける力にどのような影響を与えるかを、様々なパーセリング手法をシミュレーションすることで調査したものです。
SEMは、心理学などで複雑なデータを分析するための方法ですが、項目数が多いと計算が難しくなります。そこで、パーセルリングによって項目数を減らし、モデルを簡単にできます。
研究では、パーセリングが構造モデル(因果関係を表すモデル)のパラメータ(因果関係の強さなど)の精度を高める一方で、モデルのミスを見つける力が低くなることがわかりました。
特に、測定モデル(複数の設問から構成される概念が、適切に測定されているかを表すモデル。文献でよくみられるタコ足のようなもの)が間違っているときには、間違いを見つけにくくなります。逆に、構造モデル(因果関係)が間違っているときには、パーセルリングはミスを見つけやすくなる、というものです。
簡単に言えば、パーセリングは、
因果関係を見つける際の手続きとしては有用
概念を測定する際の手続きとしてはリスクあり
と言えそうです。
上で紹介した関口先生のまとめ文が秀逸でしたので、お借りして以下に引用させていただくことにします。
パーセリングのメリットとデメリットを補足
この論文で示されたパーセリングのメリットとデメリットを、研究結果と考察に基づいてまとめたいと思います。
■メリット
構造パス係数の精度向上
測定モデルにミスがある場合(統計モデルや分析モデルを作成する際に、実際のデータや理論と合っていない誤った仮定や構造をモデルに取り入れてしまうミス)、パーセリングは構造モデルにおけるパラメータのバイアスを減らし、より正確な係数推定を可能にします。特に、複数の項目が同じ潜在変数に関連しているとき、パーセリングによってその関係性が強調され、誤差の影響が小さくなる。モデルの収束性改善
パーセリングによりモデルが単純化されることで、SEMの計算過程での収束率が高まり、パラメータ推定が安定しやすくなる。モデルの適合度改善
分散が平均化され、項目間の誤差が集約されるため、パーセルを使ったモデルは、RMSEAやCFIといった適合度指標が改善され、モデルがより良くデータにフィットしているように見えることが多い。
■デメリット
モデルにおけるミス(「ミススぺシフィケーション」)検出力の低下
測定モデルが誤っている場合、パーセリングはモデル適合度を改善する一方で、ミススペシフィケーションを検出する力が大幅に低下します。パーセリングにより、誤ったモデルでも適合度が良好に見えるため、隠れた問題が見過ごされやすくなる。パラメータバイアスのリスク
構造モデルにミススペシフィケーションがある場合、パーセリングはその影響を緩和することができず、むしろ構造パラメータの推定にバイアスを生じる可能性があります。特に、パーセル内に異なる潜在変数が含まれている場合、構造係数の誤りが増大することが確認された。パーセル戦略の選択による影響
パーセルの作り方によって、モデルのバイアスや適合度に異なる影響を与えることがあり、誤ったパーセル戦略を選ぶとバイアスがさらに増大する場合がある。
パーセリングの方法
この論文で紹介されているパーセリングの方法は主に2つです。両方とも、分散に着目しています。
1.Isolated Parcels
【特徴】共通の分散を持つ項目を同じパーセルにまとめる手法。具体的には、特定の要因(例:同じ測定誤差や方法分散を共有する項目)が強く関連している項目を一つのパーセルにまとめるもの。
【効果】 二次的な分散(測定誤差や方法分散など)が一つのパーセルに閉じ込められるため、そのパーセル内での誤差が分散され、構造モデルには影響を及ぼしにくくなります。特に、測定モデル内のミススペシフィケーションがある場合に、バイアスを抑える効果があることが示されています。
【デメリット】測定誤差が強く影響する場合は、モデルの適合度は良くなるものの、ミススペシフィケーションを検出する力が低下するリスクがあります。
2. Distributed Parcels
【特徴】共通の分散を持つ項目を異なるパーセルに分散させる手法。つまり、同じ分散を持つ項目をできるだけ異なるパーセルに配置し、パーセル間で類似性を減らすもの。
【効果】パーセルに含まれる各項目が異なる分散の要素を持つため、より全体的な構造モデルを反映しやすく、バイアスが少なくなる。複数の要因に関連する項目がある場合、パーセル内でその要因が分散され、誤差の影響が相対的に小さくなる。
【デメリット】パラメータの精度は高くなるが、ミススペシフィケーションの検出力は著しく低下する可能性があり、隠れた誤りを見つけるのが難しくなる。
3.その他のパーセリング手法
論文では、上記の手法に加え、他の研究で提案されているいくつかのパーセリング戦略(例:相関に基づくパーセリング、単因子分析に基づくパーセリングなど)も言及されていますが、これらは基本的に、1か2のいずれかに類似する形で使われているようです。
感じたこと
研究における統計的手法も奥が深い。この一言につきます。
調査などで、測定項目が多くなると、どうしても1つの概念にまとまりにくくなるので(例えば、項目Aと項目Cで似たようなことを聞いている、あるいは、まったく似ていない、ということが、項目が多くなればなるほど発生するため)、こういった手法やその特徴が注目されてきたのだろうと推察します。自分もSEMを良く使用するので参考になります!