見出し画像

ITパスポート試験勉強ノート No.10 業務分析・データ利活用 (3) データ利活用 -2 データ分析における統計情報の活用

◾️はじめに

ITパスポート という国家試験の勉強を始めました。

「試験勉強ノート」を作るつもりで、自分が新たに知ったことを書き留めていきます。

この試験、内容は大きく分けて次の3つです。
①ストラテジ(経営戦略)系
②マネジメント(管理)系
③テクノロジ(IT技術)系


シラバスの順に従って、今回は、
①「ストラテジ(経営戦略)系」
>「2. 業務分析・データ利活用 」
>(3) データ利活用

>-2 データ分析における統計情報の活用
の勉強ノートです。

データをどう選ぶか、出た結果をどう解釈するかによって得る結論が変わってきてしまいます。この「調査データの危うさ」をよく認識することで良い調査結果と良い結論を得るための知識が今回の内容です。

今回は、ワードの必要十分な説明が提供されていると判断したものは部分引用ではなく、リンクを紹介しています。


項目中の★印は、現時点での最新版(2024年10月試験)で導入されたことを表します。(今回の項には新導入の内容はありません。)

シラバス掲載ページはこちら↓

https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html



◾️今回の解説項目

今回の項目のシラバスの内容は次の通りです。
説明不要と判断したいくつかを除き用語例・活用例としてあげられた概念に解説をつけていきます。

(3) データ利活用
・データを分析して利活用することによる,業務改善や問題解決
② データ分析における統計情報の活用
・データから言えること,データが何を意味するかを適切に把握することの重要性 ・扱うデータに関する領域(業界,専門分野など)に特化した知識(ドメイン知識)の重要性
・データの発生現場を確認することの重要性
・文献や現象を読み解き,それらの関係を分析・考察して表現すること

[用語例] 
母集団
標本抽出(国勢調査,アンケート調査,全数調査,単純無作為抽出,層別抽出,多段抽出)
仮説検定
有意水準
第 1 種の誤り,第 2 種の誤り
精度と 偏り
統計的バイアス(選択バイアス,情報バイアスなど)
認知バイアス

[活用例]
各代表値の性質の違い,統計情報の誇張表現に惑わされない理解


🟠母集団・全数調査

全数調査と標本調査
意識調査での対象者の選び方には、2つのやり方があります。全数調査にするか、それとも標本調査にするか、です。

全数調査とは、関心のある社会や集団を構成するすべての個体を調査するものです。
標本調査とは、関心のある社会や集団を構成するすべての個体のうちから、一部だけを標本として取り出して調査するものをいいます。

すべての個体を調査できる条件が整うのであれば、全数調査を行うことが妥当でしょう。ところが現実には、全数調査ができないことはしばしばあります。

第1に、全数調査をすると調査の規模が大きくなり、莫大な予算を必要とします。
第2に、全数調査をすると、調査終了までの時間が長くかかります。
第3に、調査データに求める精度によっては、全数調査をする必要性はなく、標本調査でも十分であるかもしれません。
これらの事情により、全数調査はできない、あるいは選ばないことが実は多いのです。


母集団とは?
先ほど、関心のある社会のすべての個体という表現をしましたが、それをひと言であらわす専門用語があります。それが母集団です。母集団とは、調査によって特徴を明らかにしたい社会あるいは集団のことをさします。

意識調査で何を母集団にするのかは、調査を行う主体の関心や、問題意識に合わせて設定すればよいです。日本国民全体を母集団とすることもあれば、ときには東京都文京区の中学生というように限定した母集団を設定することもあります。

総務省統計局「データ・スタート」 
https://www.stat.go.jp/dstart/point/seminar/02/2-1-1.html

🟠標本抽出

無作為抽出とは?
標本調査では、母集団から、標本を取り出す手続きを行います。そこで重要となるのが、無作為抽出という技術です。無作為抽出とは、母集団のなかに含まれるすべての個体が等しい確率で標本に選ばれるようになっている抽出法のことをいいます。

無作為抽出の利点は、無作為抽出をすることによって、得られた標本が代表性を確保できることです。すなわち、大きな母集団を代表する、適切な縮図たる標本を得ることができるのです。簡単にいうと、無作為抽出によって選ばれた5,000人に調査するだけで、1億人超の日本国民の意見が(9,999万5,000人には調査していないにもかかわらず)把握することができます。

さらに、代表性があるゆえに、一般化ができます。一般化というのは、標本の分析結果から、潜在的な母集団の特徴を推測することをいいます。一般化をした議論が許されるのは、代表性が確保された調査データを使うときに限られます。そして、代表性の確保のためには、無作為抽出によって標本抽出がなされることが必要なのです。

前述したことを図示すると、下図のようになります。無作為抽出した標本に対して意識調査を行い、得られたデータセットを分析して、統計的推測をします。このような科学的な手続きに基づけば、相対的に小さい規模の標本調査でも、母集団の姿をかなり正確に知ることができるのです。しかも、お金、時間など、調査のコストを格段に下げている点が強調できます。

同上
標本抽出の意義:小さな標本の性質を調べるだけで、 大きな母集団の性質をかなり正確に知ることができる。(出所:同上)

🟠標本抽出の諸方法(単純無作為抽出,多段抽出,層別抽出)

単純無作為抽出法
最も基本的な方法は、単純無作為抽出法というものです。母集団を構成するすべての人びとから、乱数の値にしたがって、標本に含む人を選びます。

例として、12人からなる母集団より、4人を単純無作為抽出法で選んでみましょう。下の図のように、まず乱数を発生させて、12人それぞれに値を割り当てます。それから、値が小さい順に、4人を選べばよいです(無作為に出た乱数なので、大きい順に選んでもかまいません)。

この例では、4番、7番、9番、11番の4人が標本として選ばれることになりました。このやり方以外に、1から12までの整数が等確率(1/12)で出るような乱数を4回発生させて、出た番号の人を選ぶことでも、単純無作為抽出はなされます。

https://www.stat.go.jp/dstart/point/seminar/02/2-1-2.html
単純無作為抽出法の例 …12人の母集団から4人を抽出
割り当てられた乱数の小さい順(あるいは大きい順)に選んでいく

系統抽出法
しばしば、単純無作為抽出を代用するのに使われるのが、系統抽出法というやり方です。

これは、母集団を構成するすべての人びとを順番に並べたうえで、スタート番号を無作為に選び、そのあとは等間隔で系統的に標本に含む人を選びます。

12人からなる母集団より、3人を系統抽出法で選ぶ例を示します。
3人を選ぶ際に、まず全体を3つの区間に分けます。全体人数12÷区間数3=4となりますが、この値である4は抽出間隔と呼ばれ、あとで系統的に番号を選ぶ際に用いられます。

最初の区間には4人の人がいますが、その中から1人だけ、単純無作為抽出法で選びます。この例では、3番の人が選ばれました。次に第2の区間からは、先ほど選ばれた3の値に、抽出間隔の4を足した7番の人を選びます。その次も、抽出間隔4をさらに足した11番の人が選ばれます。たとえ区間が多くなったとしても、このように続けていって、系統的に標本を選び出すわけです。

同上
系統抽出法の例:区間に分け、最初の区間のみ単純無作為抽出法で選び、その後は等間隔に選ぶ 
(出所:同上)

多段抽出
時には、無作為抽出を、何度かの段階に分けて行うこともあります。そうした複数回の段階に分けて抽出することを、多段抽出といいます。

実践では、第一段階で地域を無作為抽出し、第二段階でその地域に居住する個人をさらに無作為抽出する、などの二段抽出の手続きが行われることが多いです。最終的な個人の抽出確率を等しくするために、意図的に、第一段階では地域の人口規模に応じた確率に比例して地域を無作為抽出し、第二段階では各地域どこでも同人数となるように地域内の個人を無作為抽出するという手続きがなされます。多段抽出の段階数を多くすると、調査のコストを下げられるメリットがありますが、代償として誤差が大きくなってしまうデメリットも生じます。

同上
多段抽出の例:第一段階で全国から地域を無作為抽出し、第二段階で地域から対象者を無作為抽出する
(出所:同上)

層別抽出
また、無作為抽出する前に、層を分けておくことがあります。こうした事前の層分けを、層化と呼びます。

よくなされているのは、区部および政令指定都市、人口20万人以上の市部、20万人未満の市部、郡部のように、都市規模別に層化して調査地点の数を割り当てることです。適切に層化がなされれば、地域的な偏りを避けられたり、誤差を小さくすることができるなどのメリットがあります。

同上

🟠仮説検定・有意水準・第 1 種の誤り,第 2 種の誤り

ITパスポート試験では、実際の統計的検定を行うのではなく、概念を理解しておくことまでを求められるようです。
これについて秀逸と私が判断したのは次のまとめです。

計算式から理解するのに挑戦したいという方には次のページが良さそうです。

🟠精度と偏り

イメージとしては次の図がわかりやすいです。精度=「ばらつき」の少なさ、また、偏り=データが「平均的にどれだけ、どのように真の値からずれているか」と考えると良いようです。

ミヤマ株式会社「よろず相談室【No.16】 不確かさについて」
http://www.miyama-analysis.net/law/2020/01/no16

偏りの種類についての解説は次のものがわかりやすいです。

偏りには大きく2種類あります。

1つは偶然誤差、もう1つは系統誤差です。

偶然誤差とは
偶然誤差とは、データ収集時の偶然がもたらす値のばらつきのことを指します。
調査対象者の数が少ないなど、サンプルサイズが小さい場合をはじめ、測定回数が少ない場合に偶然誤差が生じやすくなります。
偶然誤差による偏りを防ぐには、調査対象者数や測定回数を増やすことで改善が可能です。

系統誤差とは
系統誤差とは、特定の収集対象者の性質や測定方法が影響して生じる誤差です。
偶然誤差とは異なり、調査対象者数や測定回数をいかに増やしても改善することはできません。
たとえば、男性と女性でデータの性質が違うとして、母集団の割合は男女のデータ数が同等であることを目標とした場合に、有効回答数の割合が男4対女6など、構成比が目標の割合と異なってしまうと、系統誤差が生じてしまいます。
系統誤差が生じると、全体のデータ傾向が本来捉えたいものから乖離してしまうので注意しなくてはなりません。

系統誤差とサンプルサイズ
偶然誤差は、サンプルサイズが大きくなれば小さくすることは可能ですが、系統誤差はサンプルサイズをいくら増やしても改善することはできません。
なぜなら、データの性質に差があるためです。
先の例のように男性と女性で性質が違う場合に、男性のデータをいくらたくさん集めたところで誤差の改善にはなりません。

ファーストリポート「Literacy / HR《 iパス用語解説》精度と偏りとは何か。大まかな説明付き。」
https://firstreport.work/literacy-hr/2092/

🟠統計的バイアス(選択バイアス,情報バイアスなど)

次のページに簡潔、かつ具体的な説明がありました。

🟠認知バイアス

マーケティングに焦点を当てた例を挙げて説明をしてくれている次のサイトがわかりやすいです。


⬜︎ 終わりに

いかがだったでしょうか。

私は高校の教員時代、「総合的な探究の時間」の指導をしていました。社会課題の現状をデータで示すために意識調査をアンケートで行う際には、気をつけようねと生徒に言っていた標本抽出の留意点が出ていました。しかし、それ以外にも本当は知っておくべきことがあったなぁと勉強になりました。

全部を授業でカバーするのは難しいですが。


次回は、
①「ストラテジ(経営戦略)系」
>「2. 業務分析・データ利活用 」
>(3) データ利活用

>-3 データサイエンス,ビッグデータ分析
についての予定です。

いいなと思ったら応援しよう!

オオニシ チヒロ
よろしければ応援お願いします! いただいたチップはクリエイターとしての活動費に使わせていただきます!