総務省統計局「社会人のためのデータサイエンス入門/データの見方と表し方」のまとめと感想~ヒストグラムの正しい使い方を知った話【Week3】
こんにちは、水無瀬あずさです。ちょっとご無沙汰しておりました。
実は週末に家族旅行へ行く計画があり、そのために副業Webライターの仕事をセーブしていたわけなのですが、急遽「ぜひお願いしたいんですが」と頼まれてしまい、それがまた報酬が魅力的だったものだから、なんとかねじ込もうと頑張った結果、ここ数日地味に忙しくなったというか。「めっちゃ忙しい」じゃなくて「地味に」ってとこがミソです。無理はしない主義なの。
ということで地味に忙しいさなかではありますが、なぜか勝手に恒例にしてしまった総務省統計局「社会人のためのデータサイエンス入門」の受講もまた地味に続いております。現在は最終週であるWeek4が公開されていますが、相変わらずカタツムリの歩みな私はWeek3をようやく終わったところ。最後まで間に合うのか。もはや何のために頑張っているのかよく分からない感じになっていますが、まとめをnoteに書くとそれなりに読んでもらえるんだなってことが唯一のモチベーションになっている今日この頃です。
ということで今回は、総務省統計局「社会人のためのデータサイエンス入門」Week3の復習を兼ねたまとめと感想です。前回Week2の感想で書いた内容に間違いを発見してしまったので、合わせて訂正しました。
なにぶん勉強中の身なもので、間違いも出てしまうことはあります・・・が、間違いは間違いですしね。誤った情報を届けてしまったことを深く反省しています。正しい内容は今回記事(★のついたとこ)にて再説明として記載していますので、最後までよろしくお付き合いください。
総務省統計局の「社会人のためのデータサイエンス入門」とは
はじめに講座の紹介をちょろっと。総務省統計局の「社会人のためのデータサイエンス入門」は、NTTドコモグループが提供している無料オンライン動画学習サービス「gacco」内のコンテンツで、2023年6月13日から開講されています。
総務省統計局の取り組みとして、統計リテラシー向上ため「データサイエンス」力の高い人材育成を行っており、その一環で開講されているものです。もともとは2015年3月に開講されましたが、今回は「最新の統計データを用いるほか、グラフの見方や統計リテラシー等の内容を追加し、全面リニューアル」されました(引用:データサイエンス・オンライン講座の受講者募集開始―「社会人のためのデータサイエンス入門」のリニューアル開講―|総務省)。
講座とは全然関係ないんですが、gaccoの「社会人のためのデータサイエンス入門」紹介ページの下の方までスクロールしていたら、国勢調査のゆるキャラ「センサスくん」と「みらいちゃん」を発見して衝撃を受けました。か、かわいくない。写真を載せられないのが非常に残念ですが、気になる方はこちらを参照してみてください。国勢調査は普通にやっていたはずなのに、こんなキャラクターがいたなんて全然知らなかったです。世の中まだまだ知らないことで溢れているんだ。ぜひ次の国勢調査の時にチェックしてみようと思いました。
Week3「データの見方と表し方」のまとめと感想
今回はWeek3で、前回の統計学を応用した形で、実際に統計データをどうやって見るか、どう読み解くかを具体例とともに紹介してくれる回でした。
詳しい内容はこちら。
今回の先生は女性だったのですが、非常に分かりやすかった!前回の内容が難解すぎて泣きそうになったんですが、今回とてもかみ砕いて、私レベルでも理解しやすいような内容になっていてよかったです。毎回このレベルでお願いしたい。
統計データの分類
統計データにはさまざまなものがありますが、代表的なものとして時系列データ、クロスセクションデータ、パネルデータがあります。
時系列データとは、1つの項目について時間に沿って集めたデータで、時間に沿った変化を分析できます。前回も参照した「ゲーム売上定点観測」で紹介されているデータを例に挙げてみると、こういうやつ。
Switchの売り上げがえぐいですね。「頭打ち」などとニュースで見かけたりしますが、まだこんなに売れているなんて偉大なハードなんだなあ。ありがとう任天堂。
クロスセクションデータは、時系列データとは違い時間を固定した状態で、場所・グループ別などに記録した複数の項目を集めたデータを言います。一時点を固定することで、複数の項目間の比較や分析ができます。例としては、こんなかんじのやつ。
そしてパネルデータは、時系列データとクロスセクションデータを合わせたもの。つまり、同一の調査対象(標本)について、複数の項目を時系列に沿って継続的に調べたデータです。項目間の関係を時系列に沿って分析できます。
イメージ的に言えば、時系列データはパラパラまんがみたいなもの、クロスセクションデータは写真や絵画のようなもの、パネルデータは動画データのようなものです。動画データの情報量が多いように、パネルデータはデータ量が多く、ファイルサイズも大きくなります。
統計表のパーツにも呼び方があります。タイトルは表題、上の見出しは表頭(ひょうとう)、左の見出しは表側(「おもてがわ」ではなく「ひょうそく」)、実際のデータの部分を表体(ひょうたい)、表頭と表側が重なっている部分が表側頭(ひょうそくとう)、表体のなかでもデータ1つ1つは「コマ」または「セル」と呼びます。表題の下に注釈が書いてある場合は「表注」、表の下に注釈がある場合は「脚注」と呼びます。
クロスセクションデータってのがなんかこう、強そうでカッコいい。飛び道具とか出してきそう。などと頭の悪いことを考えながら受講していた私でしたけどね。
相対比と構成比
クロスセクションデータには、構成比と相対比で表せるものがあります。いずれも学校では「割合」として習いますが、それぞれの性質は異なるものです。
構成比とは、全体のうちに占める分量を表した値で、0以上1以下の値を示します。×100でパーセントにして表示する場合もあります。いわゆる「割合」のことですね。
相対比は、2つの量を比較する時に用いる値です。分母の量を基準としたとき、分子の量がその何倍に当たるかを示し、0以上の値を取ります。構成比とは違い、1以上の値を取るものもあります。面積当たりの人口とか、学校1校当たりの生徒数とか、いわゆる「比」と呼ばれる値ですね。
分子が分母の内訳の一部であれば構成比、分母と分子が別のものであれば相対比と考えると分かりやすいです。
相対比や構成比を組み合わせて活用することで、データの違いを強調した表現が可能になります。一方で、比率にすると規模の大きさが見えにくくなるため、全体に対しての大きさを確認してから比較することが大切です。
時系列データの見方
時系列データには、年次データ、月次データ、日次データ、四半期データ、週次データ、半期データなどがあります。公的データとしては、月次・四半期・半期データが多い傾向です。時間の区切りを変えると見え方が変わります。
講習で面白かった例をご紹介します。以下のグラフは、ある品物の支出金額を表す年次データ、月次データ、日次データです。何の品物か分かりますか?初めに年次データ、次に月次データ、日次データと順番に見て行ってくださいね。だんだん謎が解けてくる感じ。
2月14日前に急激に支出が上がり、そして下がるというこの傾向。分かりやすいですね。これはチョコレートの支出金額の推移を表したデータでした。年次や月次データだけではわからなくても、日次まで落とし込むことで解明されることがある。なるほどなあという説明で面白かったです。
時系列データでも、歴年データと年度データでは開始月と終了月が異なるので扱いには注意です。歴年データは1月~12月と各国共通ですが、年度データは日本は4月、ヨーロッパは1月が多く、アメリカは10月などといった具合に、国によっても異なります。
また半期データは歴年・年度データで開始が変わることがあり、月次データでも15日締め、20日締め、月末締めなどによって異なります。単純に比較するだけではデータのピークにズレが生じることがある点は留意しておかなければなりません。
時系列データには、3つの成分があります。季節成分、傾き(トレンド)。その他(変動成分)です。
季節成分とは、イレギュラーなパターンを除き、四季や月、週、一定の期間などに繰り返される規則的なパターンのことです。1年周期には気温やチョコレート消費量、1週間周期には新型コロナ陽性者数(日曜と月曜は少ない)などが挙げられます。なんかビタミンをたくさん含んでそうだよね、季節成分って響きがさ。
季節成分を時系列データから除去することを、季節調整と言います。季節調整を行うことにより、トレンドを観察しやすくなります。
グラフの選び方
データをグラフにすることによって、データが可視化され、データの語ることを正確に読み取れるようになります。また、データを人へ正確に伝えられるようになります。言ってみれば、グラフはデータを介したコミュニケーションツールということになります。
物言わぬデータがコミュニケーションツールとは、言い得て妙だなあと思いながら聞いていました。なんかおもしろいね。確かに、数字ではなかなか伝わりにくいことでも、グラフにするとすっと入ってきやすくなるものだし、コミュニケーションを促すために必要なものなんだな。
グラフにはさまざまな種類があり、目的に合ったものを選ぶことが大切です。例えば、こんな感じ。
「量を比較したい!」→棒グラフ
「傾向を観察したい!」→折れ線グラフ(量の推移を点や線でつないだ図)
「構成比を観察したい!」→円グラフ(構成比の大きさを円の角度と面積で表現した図)または帯グラフ(帯全体を100%として帯の面積で表現した図)
「データを多角的に見たい!」→パレート図(大きさの順で並べたグラフ+類型割合を折れ線グラフで示したもの)
「データを表のまま観察したい!」→ヒートマップ(数値の大きさを色の濃淡で示したもの)
パレート図とは、こういうやつです。
パレート図の「パレート」は、エレクトリカルパレード的なやつじゃなくて、パレートさんって人の名前から取ったものです。パレートさんかぁ・・・きっと賑やかで楽しい人に違いない!(決めつけ)
うん全然違った!イタリア人だけど父親がパリに亡命したからパリ生まれなんだとか、意外とハードモードな方でしたごめんなさい。
そんなパレートさんの発見したのが、パレートの法則です。すなわち、上位2~3項目で全体の7~8割がカバーできればよいということですね。たった2割のお金持ちが、全体の8割のお金を持っているというシビアな現実であります。パレートの法則に沿った分類ができれば、重要な問題へアプローチできるようになります。たとえば上位2~3項目の不具合を解消できれば、全体の8割の問題を解決できるとか、そういうの。ありがとうパレートさん。
★ヒストグラムの正しい書き方
さて、ここからが前回の復習を兼ねた内容。
量的データの分布を観察するのに役立つのがヒストグラムです。ヒストグラムによって、多峰性や外れ値を観察できるようになります。講義では、Excelでヒストグラムを表示する方法について詳しく教えてもらいました。
ヒストグラムって、パッと見ると棒グラフです。私は前回Week2の段階で、ヒストグラムと棒グラフの違いを理解できていませんでした。今回、その違いを説明されて、前回の記事の間違いに気づいたというわけです。両者の違いは、こう。
◆ヒストグラム
・X軸は「量的データ」を区間幅に区切ったものである。
・データに連続性があるため、棒と棒の間をくっつける必要がある。
・データの散らばり方や分布を観察するため、棒の面積が全体の割合を示している。
◆棒グラフ
・X軸は「質的データ」である
・データに連続性がないので、棒と棒の間はくっつけない。
・カテゴリー間の量を比較するものであり、棒の高さに意味があるが面積には意味がない。
お判りでしょうか。前回の記事で私が書いたのは、つまりヒストグラムではなく棒グラフだったのです。棒グラフを書いたくせに、なんとなくヒストグラムっぽく表示してキャッキャウフフしていたというわけです。ああ無知とはこのことだ埋まりたい。
ということで認識を改めたうえで、前回も参照した「2023年ゲームソフト売上ランキング」(7/1現在)の上位50個をもとに、Excelでヒストグラムを表示してみます。元データがこちら。
まずは数字を眺めて、最大値と最小値を確認。それから、区間幅を決めます。区間幅は均等にしなければだめです。今回私は30,000を基準として、20,000ごとの区間幅に設定しました。
区間幅を設定したら、メニューの「データ」>「データ分析」からヒストグラムを選択。するとなんと!度数分布表を勝手に作ってくれるのです。Excel優秀!
「データ分析」メニューがない場合には、「ファイル」のオプションから「分析ツール」のアドインを追加します。
前回Week2の復習にも書きましたが、ヒストグラムは度数分布表を基に作成するものです。Excelが勝手に作ってくれた度数分布表を基に、ヒストグラムを作成します。作成したものがこちら。
つまりこの表から、2023年は今のところ、30001~50000本売れたタイトルが一番多いということが分かります。あと41万本以上売れているタイトルも3本あるということ。果てしない。ちなみに3本とは、ゼルダとポケモンとカービィです。マホロアちゃんは神ダヨオオオ!!
ヒストグラムでは、量的データの詳細の分布の形を観察できますが、多量のデータ比較には向きません。一方で、前回ご紹介したカワイイ「箱ひげ図」は、1つの質的データに対して多量の比較ができるという違いがあります。それぞれ違いがあるので、必要に応じて使い分ける必要があります。
ヒストグラムと箱ひげ図の要素を扱えるいいとこどりのグラフとして、ヴァイオリンプロットというグラフの紹介もされました。
残念ながらExcelでは作れないようですが、多量性や多峰性を観察できるグラフとして有用とのことでした。いやなんかヴァイオリンっていうか宇宙人的な形じゃないですかこれ。
グラフを使う時の注意点
グラフとはコミュニケーションツールでありますが、残念ながら何らかの恣意的な操作でもって表現されたグラフもあり、だまされないよう注意することが大切です。
たとえば棒グラフ。縦軸が「0」から始まっていないものの場合、大きさの違いが分かりにくく、情報が恣意的に操作されている可能性があります。
メモリの大きさとかもちゃんと見たほうが良さそうですね。同様に、折れ線グラフも縦軸に注意が必要です。
ヒストグラムでは、データの区間幅が同じでないものは要注意です。たとえばこんなヒストグラム。
基本的に100万単位の区間幅ですが、「1000以上1500未満」だけ幅が異なっています。こういうふうにすることで、ここの区間だけ多い!というふうに操作される可能性があるってことですね。
あと3Dグラフ。カッコいいので使いたくなるけど、手前が大きく見えるので面積が大きいと錯覚しやすいので、グラフとして使わない方がいいとのこと。確かに見栄えだけで使いたくなっちゃうけど、本来の目的と違うから不適切ってことですね。
Webライターの仕事として国の公表している資料ってよく見ますが、読み手側が理解しやすいように、誤認しないようにさまざまな配慮がされているんだなあってことを知りました。公務員の皆さん、いつもありがとう。
結び
総務省統計局「社会人のためのデータサイエンス入門」Week3の復習と感想などをお届けしました。今回は前回と違って非常に分かりやすく、聞いていて安心感のある内容でしたね。個人的には、Week2とWeek3はセットでやらないとダメなんじゃないかなって思いました。
ライターとして統計データを参照する機会は多いですが、これからはまずデータをじっと見てみて、「ああ、このデータはこういうことを伝えたいんだろうな」って推測できるようになりたいものです。それこそがデータサイエンスの第一歩ってところかな。道のりは、長そう。
早いもので、総務省統計局「社会人のためのデータサイエンス入門」は次のWeek4で修了となります。果たしてちゃんと終われるのか、私?と不安な面が大きいですが、ここまで来たら辞めるのも悔しいしな。最後までやり切って、胸を張って「修了しましたけど何か!?」って言いたいと思います。がんばります!ということで終わり!7000字超えたー!