リッカート尺度についての誤解と論争

2024年8月5日 13:19

これはある論文の最初の一文（の和訳）です。

医療科学の研究を行う際に繰り返し直面する不満の一つは、統計手法に異議を唱えるレビューアーに対処することである。

Norman G., 'Likert scales, levels of measurement and the ‘‘laws’’ of statistics,'
Adv Health Sci Educ Theory Pract. 2010;15(5):625–632.の和訳

鬱々とした気持ちが伝わってきますね。
これについては、本記事の最後で触れます。

こんにちは、Aska Intelligenceの川本です。
今回は、アンケート調査で昔からすごくよく使われている「リッカート尺度」について書いていきたいと思います。

リッカート尺度をどう分析するか論争

皆さんはアンケートをリッカート尺度で収集したあと、どのように分析していますか？

円グラフや棒グラフを描いているだけの人はあまり関係ないかもしれませんが、定量的な（もしくは統計的な）分析をしようとする場合、リッカート尺度を通常の数値のように扱ってスコアの平均を計算したり統計検定してもよいのかという点が度々論争として挙げられています。

タイトルの「誤解」というのは、賛否両論があることを知らないで片方の意見のみを「信じている」状態のことを指しています。

リッカート尺度とは

簡単ですが、一応リッカート尺度について説明しておきます。

ある質問が提示された時、

まったく当てはまらない
あまり当てはまらない
どちらともいえない
当てはまる
とても当てはまる

というように順序関係がある選択肢として用意されていた場合、このような選択肢はリッカート尺度と呼ばれます。

選択肢に偏りがないように、ポジティブな反応とネガティブな反応が同数だけ用意し、隣り合う項目の”距離”が等間隔であるように項目を選びます。

"距離"って何？？と思われた方、
まさにそれがこの記事で語紹介する論争のポイントの一つです。

ここでいう"距離"は「なんとなく選択肢の程度間隔が同じくらいに感じられる」という程度の緩い意味です。
数学的な意味での距離ではありません。
（もちろん編集距離などで数学的な距離を定義することも可能ですが、そういう距離を考えたいわけではないとご理解ください。）

順序尺度と間隔尺度

要素間に順序がつけられるような尺度を、順序尺度と言います。
もし要素間に"距離"も定義できれば、間隔尺度と言われます。足し算や引き算が意味を成すということです。
順序関係もない要素集合は名義尺度と言います。

リッカート尺度の選択肢には順序関係だけがあるので（そういうように狙って作られているので）、順序尺度です。

リッカート尺度で平均値に意味はあるのか

リッカート尺度での選択肢には「5. とても当てはまる」というように番号が振られているので、この番号を通常の数値のように扱って平均が計算できます。
これは（本質的には）足し算操作をするということですが、リッカート尺度は順序尺度だったはずなので、平均など意味がないのではないでしょうか。

実際、「1. まったく当てはまらない」と「5. とても当てはまる」の中間が「3. どちらともいえない」というわけでもないはずです。

しかし以下で見るように、「順序尺度だから平均値は意味がない」と切り捨てるのは、少々議論が雑すぎます。

リッカート尺度の統計検定

通常、平均値（やなんらかの統計量）は何のために測るかというと、
「当てはまる人が有意に多い」
「有意に当てはまる人が多いとも当てはまらない人が多いとも言えない」
のように、統計的に何か結論できるかを議論するために測ります。

つまり統計的仮説検定を行います。

ここで「間隔尺度否定派」の人は、順序尺度用の検定量を用いてリッカート尺度のスコアを評価します。

一方、間隔尺度だと思うと、t検定なども使えます。「順序尺度だから使っちゃダメ！」と主張する人もいますが、実は結果的には間隔尺度だと思って検定しても順序尺度だと思って検定しても結果はほとんど変わらない（「頑健性」と言います）という場合もあるのです。

そして、リッカート尺度の評価の場合、回答傾向がかなり歪な分布をしていても、順序尺度として扱った場合と大きく変わらないことが昔から指摘されています。結果が変わらないのであれば、リッカート尺度を間隔尺度だと思って評価する問題点は事実上存在しないというのが、「間隔尺度賛成派」の人の主張です。

という感じで、間隔尺度賛成派と反対派の構造を簡単に書いてみました。
「得られるデータが正規分布に従っているか」というような細かい論争もありますが、大枠は上記の議論（頑健性の話）の一部なので、深入りしません。

問題による

検定の頑健性は数学の話なので、問題（質問や選択肢の内容）に依らずに言えることです。

ただ、「得られたデータからどんなことを評価したいのか」は問題に依ります。

例えば冒頭の選択肢の例で、50%の回答者が「1. まったく当てはまらない」を選び、残りの50%の回答者が「5. とても当てはまる」を選んでいたら、回答パターンとして二極化していることが興味深い傾向として挙げられますが、これは平均値の評価をしても見えてきません。

これは、何を測りたいかという視点が違うので、「リッカート尺度を間隔尺度として扱ってよいか」とはまた少し違う問題です。上のように回答パターンが重要な場合、順序尺度として評価したとしても十分ではありません。

先のt検定のような統計検定では、「当てはまる人が有意に多いかどうか」、つまり平均的な該当度合いが測りたいことだったので、やりたいこととして平均値には妥当性があります。

昔から議論されている

リッカート尺度を間隔尺度として扱ってよいかは、1960年代にも2000年代にもこの手の論争論文があります。

それどころか、1932年のリッカートの原論文ですでにどのように評価すべきかを慎重に議論しています。

冒頭の論文は、そんな論文の一つです。この論文では間隔尺度賛成派の著者が、様々な批判を取り上げながら一つ一つ回答していく形で、なぜ間隔尺度として扱って良いかを議論しています。しかし、匿名の（不勉強な）レビュアーを相手にしたときはどうしても論文著者はこの論争において部が悪いという気持ちを込めて、冒頭のような書き出しをしています。さらに論文の最後ではこんな風に締めくくっています。

パラメトリック統計は、リッカートデータ、小さいサンプルサイズ、不均等な分散、および非正規分布でも使用でき、「誤った結論に至る」ことを恐れる必要はありません。これらの発見は、80年近くにわたる実証的な文献と一致しています。論争はこれで終わりにできます（しかし、おそらく終わらないでしょう）。

Norman G., 'Likert scales, levels of measurement and the ‘‘laws’’ of statistics,'Adv Health Sci Educ Theory Pract. 2010;15(5):625–632.の和訳

リッカート尺度は、よく考えずに間隔尺度としての評価してしまうことも危険ですが、順序尺度だからといって否定することにも反論があるという話でした。

ここまで読んでいただき、どうもありがとうございました。