心理学を支える最大の仮説

#1 心理学における尺度

科学では対象を計測するための物指しが必要がある。そして心理学研究における物指しは評価尺度である。実際、心理学において学術論文の9割以上は評価尺度を使用していると思う。現在の心理学は評価尺度のおかげで成り立っていると言っても過言ではない。

心理尺度には測定したい対象に応じて、抑うつ評価尺度、幸福度評価尺度、知能評価尺度、といった様々なものが存在する。しかしそれらには共通するルールが存在する。それは、評価尺度の総スコア(項目スコアの和)をその心理現象のレベルと見なす、ということである。しかしこの仮説が実証されたことはまだない。

この仮説を証明できない理由は簡単である。真の測定対象を測定できないからだ(もし真の測定対象を測定できるのなら評価尺度のような代替品はとっくの昔に不要となっているはずだ)。真の測定対象を測定できなければ、真の測定対象と総スコアとの関係を調べることもできない。したがってこの仮説は現在も仮説のままというわけである。

もっともこういったことを気にする専門家は少ない。ほとんどの専門家は、本当に総スコアが測定対象のレベルを示しているのかどうかと悩むこともなく、毎日せっせと評価尺度の総スコアを計算している。評価尺度の総スコアを対象のレベルと見なすことがあまりに慣例化したためか、この根源的な仮説について研究する者すらほとんどいない。

筆者は、大規模集団において抑うつ尺度の総スコアが指数分布に従うことを報告した。そういったこともあり、抑うつ評価尺度の項目スコアの和が何を反映しているのか、考えるようになった。

ちなみにテスト理論の基本モデル(観測得点=真の得点+誤差実際のテスト得点)は、あくまで仮説であり、どういった仕組みで上記の式が成立するかについては言及されていない。

#2 評価尺度の歴史
抑うつ評価尺度の仕組みを考える前に、そもそもいつの頃から評価尺度の項目スコアの和を測定対象のレベルと見なすようになっただろうか?

歴史をたどると、20世紀初頭には既に様々な分野で評価尺度が使用されていた(椎名乾平 2019)。そして既に当時の人々は評価尺度の項目スコアの和を測定対象の指標と見なしていた。したがって誰がどんな理由で総スコアを測定目的の指標とするようになったかはわからない。

おそらく先人の誰かが「一つの項目スコアより、いくつかの項目スコアの和を指標とした方がバランスをとれるのでは」と直感的に思いついたのではないかと思う。そして次第にこの決まりごとが定着し、現在では科学的真理のように扱われている。

「一つの項目スコアより、いくつかの項目スコアの和を指標とした方がバランスをとれる」というアイデアは悪くないと思う。しかし項目スコアの和が対象の心理現象とどのような数学的関係にあるかを明らかにする必要がある。

#3 抑うつ評価尺度のモデル
筆者らは抑うつ尺度の仕組み(モデル)を提案した(Tomitaka S et al. . BMC Res Notes 2017)。このモデルの特徴は個人個人の抑うつ症状の閾値の分布を想定することにある。なお閾値とは反応を起こさせるのに必要な刺激のことである。

世の中の人々の抑うつのレベルは個人差がある。しかし抑うつ症状の出現は抑うつレベルだけで決まるわけではない。抑うつ症状の閾値には個人差が存在するからだ。たとえば軽度の抑うつレベルであっても不眠の閾値が低い人は睡眠障害を訴えるだろうし、閾値が高い人は睡眠障害を認めない。もちろん抑うつのレベルが高くなるほど、睡眠障害が出現する確率は高まる。

抑うつレベルに対する抑うつ症状の閾値と出現率の関係は図1のようになると思われる。

図1 抑うつのレベルと抑うつ症状の閾値と出現率の分布

図1Aは抑うつのレベルに対して抑うつ症状(不眠)の閾値がどう分布するかを示したものである。人間の感覚器の閾値の場合、平均程度の閾値を持つ人がもっとも多く、極端に敏感な人や鈍感な人は少ない。したがって、抑うつ症状の閾値も図1Aのような釣り鐘型の分布(正規分布)になることが想定される。

抑うつ症状(不眠)の閾値が図1Aのような正規分布にしたがう場合、抑うつ症状の出現率は正規分布の累積分布(積分)となる。図1Bは抑うつ症状の出現率の分布であるが、S状を示している。なお正規分布の累積正規分布関数は複雑すぎるので、一般的にロジスティック関数で代用される。

このモデルを用いたシミュレーションを行った結果、一定の条件を満たせば、真の抑うつレベルを指数分布に設定すると総スコアは指数分布に従い、正規分布に設定すると総スコアは正規分布にしたがった。さらに総スコアは真の抑うつのレベルの関係を調べると、両者は強い線形性(比例関係)をしめすことが明らかになった(図2)。

図2 評価尺度のシミュレーションの結果(抑うつのレベルと総スコアの関係)
Tomitaka S et al. BMC Res Notes 2017

つまり総スコアは真の抑うつのレベルに比例するので、結果として総スコアも真の抑うつのレベルと同じように指数分布を示す、ということである。

なお一定の条件とは、個人の閾値の分散がある程度以上大きい必要があった。閾値の個人差のおかげで、評価尺度の総スコアは真の抑うつレベルと線形の形を示すという結果は意外だった。

我々のモデルから考えると、抑うつ尺度の総スコアは概ね真の抑うつのレベルを反映する、ということになった。名も知れない先人達の直観が正しかったことを支持する結果となった。

もちろん筆者らは抑うつ尺度の総スコアを真の抑うつのレベルの関係を実証したわけではない。真の抑うつのレベルを測定できないので、両者の関係を実証することは難しい。我々が行ったことは、本モデルを使うと総スコアと真の抑うつのレベルが強い線形性を示すことを提示しただけである(真の抑うつのレベルを測定できないので、モデルの正しさを証明できない)。

なおこのモデルの詳細な数学的説明は割愛する(数式をNoteに書くのは大変なので)。興味のある方は論文を読んでいただきたい(Tomitaka S et al. BMC Res Notes 2017)。

文献
1)椎名乾平. 評定尺度はリカートが発明したわけではない、リカート(1932)より前の世界 2019 日本教育心理学会第61回総会抄録集
2) Tomitaka S et al. Exponential distribution of total depressive symptom scores in relation to exponential latent trait and item threshold distributions: a simulation study. BMC Res Notes 2017 10: 614.
3) Tomitaka S. et al. Boundary curves of individual items in the distribution of total depressive symptom scores approximate an exponential pattern in a general population. PeerJ 2016 4: e2566

いいなと思ったら応援しよう!