統計WEB 単元7「データの相関」学習
←単元6 単元8→
こんにちは。hoshiです。☕
今回は単元7「データの相関」学習の私的まとめを掲載していきます。
お手すきの際にご覧ください。
①バブルチャートを作ってみよう
7-1. バブルチャート作成の極意
🌟バブルチャートは
横軸:1つ目のデータ
縦軸:2つ目のデータ
○の大きさ:3つ目のデータ
で構成されます。
例として・・・
図1:運動会の各競技に参加した猫たちの総数,競技時間,怪我をした猫の数
図2:参加匹数、競技時間、怪我をした猫の数3指標をバブルチャート化
<作成方法>
Ⅰ:図1の数字のところだけドラッグで選択
Ⅱ:挿入→散布図またはバブルチャートの挿入
Ⅲ:色付け&軸の数値を見やすいものに変更
<グラフから見える傾向>
参加匹数の多い競技ほど競技時間が長く、また怪我をした猫の数も多い傾向がある
<理由>
左下の赤丸(リレー)は参加匹数が一番少なく、競技時間も短い。
怪我をした匹数も丸が一番小さいため少ない。
右上のピンク丸(騎馬戦)はリレーとは逆の特徴を表し相対的に見るとそのような傾向が見て取れる。
②データの相関を見てみよう
7-2. データの相関の極意
7-1で「参加匹数の多い競技ほど競技時間が長く、また怪我をした猫の数も多い傾向がある」と判断しましたが具体的にどのくらい強い関係なのかを判断するために、「相関係数」を求めてみます。
🌟相関係数:2つの量の相関の強さを表現する指標。-1~+1の間の数値で表される。
(※サクッとわかるビジネス教養統計学p.98から引用)
図3:運動会の各競技に参加した猫たちの総数,競技時間,怪我をした猫の数(図1引用)
<求める手順>
Ⅰ:まず2種類のデータのみをグラフ化(=散布図。図4)
Ⅱ:今回は各競技の「参加匹数」と「競技時間」をプロットする。
図4:散布図(参加匹数×競技時間)
Ⅲ.相関係数を求める
相関係数を手書きで求めると、、、
図5:公式に当てはめると?
となり時間がかかりそうなので、今回は
エクセルの関数を使用(CORREL関数)orデータ分析から計算
2パターンで進めていきます。
①関数から計算する場合
Ⅰ:相関係数を表示したいタブを選択する。
Ⅱ:エクセルリボンの「数式」→「その他の関数」→「統計」から「CORREL」を選択。
すると、、
こんな画面が出てくるので、
Ⅲ.配列1と配列2にそれぞれの項目、今回は参加匹数と競技時間のデータのセル範囲を指定。
すると、0.768219861≒0.77となりました。
相関係数は-1~+1の間の数値で表されるので、
参加匹数と競技時間には強い相関(正の相関)があることがわかりました。
ここで一つまとめると、
🌟横軸の値(参加匹数)が増加すると縦軸の値(競技時間)も増加するという関係がある場合には「正の相関関係がある」といいます。
🌟横軸の値が増加すると縦軸の値は減少するという関係がある場合には「負の相関関係がある」といいます。
相関係数のそれぞれの値の例は引用した統計WEBHPの最下部に図がございましたのでそちらを見ていただけるとわかりやすいと思います。
②データ分析から計算する場合
Ⅰ:データ分析ツールを使用して計算。
Ⅱ:リボンの「データ」タブをクリックし、一番右にある「データ分析」を選択する。
※私のPCには最初から該当項目が表示されていなかったため
「ファイル」→「その他のオプション」→「アドイン」→「分析ツール」→「設定クリック」の順に進めて、
その後、
「アドインダイアログボックスが表示」→「分析ツールにチェック」→「OKボタンを押す」
の流れでリボンにデータ分析の表示を出しました。
↑こちら、引用&参考にしたサイトになります。
Ⅲ:「分析ツール(A)」メニューの中から「相関」を選択し、「相関」画面の設定を行います。↓
Ⅳ:入力範囲は使うデータの範囲を選択。
出力先は出したいセルの場所を選択しました。↓
Ⅴ:以下のように表示されるため、相関係数は0.768219861≒0.77となり同じ値となります。↓
相関係数は2パターンの出し方があるということなので両方とも復習を積んで自分のものにしていきたいです。
最後に以下の図のように回帰線を置くこともできますが今後出てきた際に改めてご紹介します。
図6:散布図に回帰線を入力してみると?
③データの相関に注意しよう
7-3.データの相関注意点
【外れ値がある場合】
外れ値:他のデータと比べて大きく外れた値のこと。
🌟外れ値を入れて計算するかしないかで相関係数は大きく異なる。
図7:外れ値の例
【元データを加工した場合】
図8,9:秒→分に変換し計算しても相関係数は変わらない
上記のように秒を分に直したり一律に個数を増やしたりしても相関係数に変化は見られません。ただし-1を掛けると相関係数の正負が逆転するので注意点になります。
🙇単位の加工の仕方でINT関数とMOD関数を調べる機会がありましたが、今回は内容がてんこ盛りだったので内容が少ない単元or関連分野の単元でご紹介したいと思います。
【直線関係ではない相関がある場合】
図10:二次関数的な関係がある場合の散布図
相関係数は2つのデータによる直線的な相関関係の強さを表すものなので、今回のように線形ではない場合には相関関係の強弱は正しく表せない。
よって、、
まずはデータをプロットした散布図を確認してから
相関係数を計算する
という手順が望ましいです。
こちら3点がデータ相関の注意点になります。
以上で7章は終わりになります。
次章は「確率の計算」になります。
予定は、8-1「確率を求めてみよう」8-2「いろいろな確率を求めよう」8-3「条件付き確率を求めてみよう」です。
それでは、この辺りで失礼いたします。
午後も頑張りましょう。🍵
いいなと思ったら応援しよう!
