
主成分分析/クラスター分析を用いた世界の幸福度分析 ~Part 3 クラスター分析による幸福要因が類似する国々のグループ化
増川 直裕
Part 1、Part2ではOECD加盟国(トルコを除く)を対象とし、主成分分析を使って、各国々の幸福度に寄与する要因との関連性や、寄与する要因間の関連性、各国間の関連性などについて調べました。
今度は主成分分析と並んで、代表的な多変量解析手法である階層型クラスター分析(以下、”クラスター分析” と表記)を使ってみます。
クラスター分析はさまざまな統計ソフトウェアで実行できますが、JMPでは、クラスター分析によって分けられたクラスターの解釈を様々な方向から検討できるメリットがありますので、その辺りを実例とともに紹介いたします。
■クラスター分析の実行
幸福度に寄与する要因(残差も含めて7つ)を変数として用い、JMPでクラスター分析を実行した結果を示します。
下図の左側は、デフォルトの出力レポートです。
下図の右側は、変数のカラーマップ(緑~赤)を表示し、5つのクラスターで色分けしたレポートです。

カラーマップは、指定した変数の値を色の濃淡で表したものです。次のように凡例を表示させることができます。

今回は、対象となる37の国を5つのクラスター(グループ)に分けました。クラスター分析のレポートに表示されている国名には色がついていますが、同じ色であれば同じクラスターに属していることを示します。日本は青色のクラスター(フランス、スペイン、ポルトガル、エストニア)に属していることがわかりますね。
※クラスター分けでは何個のクラスターに分ければ良いかという議論があり、JMPでも分ける基準等が表示されますが、ここでそのことは述べません。
ここで焦点としたいのは、クラスター分けした結果が固有知識と照らし合わせてきちんと解釈ができるのか、すなわち各クラスターの意味付けができて、それは納得いくものかどうかです。クラスター分析を実務で利用するときには、この点が重要になります。
■各クラスターに意味付け
カラーマップをみると、赤色のクラスターに属する国のカラーマップは全体的に赤い色になっています。これは、大体どの項目の幸福度も高いことを意味しています。一方、オレンジ色のクラスター(コスタリカ、メキシコ、コロンビア)は、残差を除き全体的に緑の色になっています。これは、他のクラスターに比べ幸福度が全体的に低いことを示しているわけです。
さらに詳しく考察するには、「クラスターの要約」というレポートを表示させます。このレポートには、各クラスターの度数や使用している変数の平均値(クラスター平均)が表示されます。
この平均値を、パラレルプロット(Part 2参照)形式で表したものを参照してみます。

このパラレルプロットはクラスターで色分けされているので、各クラスターの特徴を考察するのに便利です。
このグラフをもとに、次のような解釈をしてみました。
クラスター1 (赤): どの項目も値が高い ⇒ 総合的に幸福度が高いグループ
クラスター2 (緑): 健康寿命が高いが、社会支援の充実度や人生選択の自由さが低い ⇒ 健康だけど窮屈な生活のグループ
クラスター3 (青): 健康寿命が高いが、他者への寛容性は低い ⇒ 健康だけど自分本位なグループ
クラスター4 (橙): GDPや社会支援の充実度は低いが、人生選択の自由さは高い ⇒ 経済的に豊かでないが自由があるグループ
クラスター5 (水): 特段高い項目や低い項目はないが、社会支援の充実度は高め ⇒ 社会支援が充実している平均的なグループ
やはりクラスターごとに幸福度の要因は異なってきており、興味深いです。
■さらにクラスター分けの解釈を助ける機能
クラスター分析では、クラスターごとに色分けされることを示しましたが、色分けした結果は、データテーブルの行の属性として付加されます。下図はデータテーブルの一部ですが、行番号の左側に色がついており、この色属性はJMPで描く他のグラフにも反映されます。

例えば、主成分分析のバイプロット(Part 1 参照)を参照してみます。

クラスター分析での色分けがバイプロットに反映されており、プロット点は色ごとに近い位置にあることがわかります。
主成分分析のスコアプロットでは、各サンプルの主成分スコアに基づき点がプロットされ、近くにあるものほど類似性が高いことを示すわけですが、具体的にどのようにグループで括ったら良いのかは迷うところです。このとき、今回のようにクラスター分析の色分け結果を合わせると、よりグループ分けが明確になることでしょう。
もちろん、グラフビルダーで作成できる地図にも反映されます。
地図上で塗りつぶされた色は、先ほど示したクラスターの色に対応します。

ヨーロッパを拡大してみます。

クラスター分析の結果は、国の位置に関する類似性も示しているように見えます。赤色の国は総合的な幸福度が高い国と解釈しましたが、そのような国はヨーロッパに集中しています。特に北欧諸国の社会充実度は高く、寿命も高いことを知っていますので、赤のクラスターの解釈と合致します。
ヨーロッパの西側に位置するスペイン、フランスは青色のクラスターに分類されていますが、日本も青色です。幸福度という観点から考えると、日本はスペインやフランスと類似しているようです。
他にも、南米にあるメキシコ、コスタリカ、コロンビアは地理的にも近いですが、クラスターとしても類似していることがわかります。そんなに豊かでないけど自由があると解釈しましたが、確かにそんなイメージがありますね。
いかがでしたか。今回のブログシリーズでは、主成分分析やクラスター分析を用いると、多変量のデータをさまざまな角度から考察できることを示しました。
JMPでは主成分分析やクラスター分析について、データや分析結果と向き合いながら、深く結果を考察できる利点がありますので、ぜひともご活用ください。
■無料セミナーご案内
本記事のテーマを無料オンラインセミナーでご紹介!満席になる可能性もあるため、お申込は以下よりお早めに!
JMPをマスターしよう 主成分分析/クラスター分析編 | JMP
10月4日(火)、 12日(水)15:00~16:30