見出し画像

データサイエンティストの仮説思考⑤:データを予測する力を身につける

読書ノート(130日目)
前回に続いて
今回もこちらの本からです。

・日本政府は「AI戦略2019」にて、
 デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
 として、すべての国民が「数理・データサイエンス・AI」に関する
 知識を身につけることを目標に掲げている

・データドリブン思考とは、データをもとに物事を考えること

・ビジネスパーソンが身につけるべき
 6つのデータリテラシーとは
 (1)データを読む力
 (2)データを説明する力
 (3)データを扱う力
 (4)データを分類する力
 (5)データから法則を見つける力
 (6)データから予測する力

この読書ノートでは全5回に分けて
データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。

では、今日は⑤データから予測する力
についてです。

・既知のデータから見つけ出した関係性を
 適用することで未知のデータを予測する
・その際に、外挿になっていないかを常に注意する必要がある
 内挿:関係性を見つけ出したデータの内側に向かって予測すること
 外挿:関係性を見つけ出したデータの外側に向かって予測すること

・数値データの関係性を見つけ出すには
 見つけ出した関係性の背後にデータの偏りがないか注意する
 関係性を見つけ出したデータが極端に少なすぎないか確認する
 偏ったデータから見つけ出した関係性は適用できる範囲が限定される

・データから予測する手順
 手順1:データ項目を確認しざっくりと仮説を立ててみる
 手順2:データを観察し、イレギュラーデータがないかチェックする
 手順3:数値データの関係性を見つけ出す
 手順4:数値データから見つけ出した関係性に当てはめて予測する

・データサイエンティストはデータの全体傾向をつかむ際、
 代表値だけで判断せず、必ずデータの分布や内訳を確認する

今回はデータを予測するときの
注意点や手順に関する内容でした。
ちなみに本書での予測手法は
単回帰分析が紹介されていました。

特に、外挿という考え方は
言葉よりも図を見た方が分かりやすく、
本書の図が最も分かりやすかったのですが
(私のスマホのカメラ撮影技術では
 該当のページを上手く撮影できず…汗)
代わりとして以下を紹介します。

つまりは、予測するときに使ったデータの
範囲外のことを予測するときは信頼性が低い
ということですね。

例えば、モノの値段でも
値上がりや値下がりした際に
常に直線的に購入数が動くわけではなく、
ある価格帯を下回ったら
一気に購入数が増えたり、
または…
安すぎて警戒されて購入数が伸び悩んだり
と実際のデータに無い範囲のことは
予測は難しいということですね。
(この例え話によって、かえって
 伝わりにくくなっていましたらスミマセン…)

今週はかなりバタバタな一週間で、
この後も明日からの仕事の準備をしたいため
今日はこの辺で!

今回も全5回にお付き合いくださり、
ありがとうございました!!😂

それでは皆さんも
良い週末をお過ごしください~!😉✨

いいなと思ったら応援しよう!