
#5 データの蓄積と作業の効率化
前回、ロト7の各回の結果をまとめたデータベースの数字をヒストグラム風な表を作成してデータを見やすくしました。
データの可視化をCOUNT関数を使って実践したわけですが、ヒストグラムを作成するにはExcelには便利な機能があります。
Excelのオプションから、アドインの追加をしないといけないのですが、分析ツールを使ってヒストグラムを作成できます。

前回作成した表のとなりに分析ツールの機能を使って本数字①だけヒストグラムを作成してみました。表①のP列はB列と同じく当せん番号。Q列はそれぞれ何回出たのかが集計されています。そして、縦横の違いがありますがグラフ作成までやってくれます。
この作業を本数字①から⑦まで行い、きれいに整頓まで行えば慣れたとしても小一時間というところでしょうか。
が、しかしです。なぜ、COUNT関数を使って面倒な表を作成したのか。
答えはタイトルで言ってしまっていますが、扱っているデータが今後も蓄積されていくものだからです。今回作成した分析ツールを使った作成したヒストグラムは今日の時点を知るだけであればそれでいいかも知れません。
しかし、データは継続されていくもの。自身がデータ分析、可視化した結果から判断していく場合には、毎回一時間かけていられるでしょうか。
COUNT関数で作成した表に関しては、参照元のでロト7データベースに結果を追加するだけで、自動的にヒストグラムに追加されます。Excelで作った表やグラフを平面でとらえるのではなく、奥行をとらえることができれば数字を見ることが楽しくなります。


表②をグラフにしたものが表③ですが、データを可視化する上でグラフにするのが正しいわけではありません。データの内容を正しく伝えることができるのか。目的を達成できるのかが重要です。データ処理作業の効率化も同様です。
ちなみに、表③を作成した理由は本数字①で556回のうち、1が100回出ている。という事実があり、100/556と言う数字は全体から見て多いのか、少ないのか。そのあたりの傾向が出てくるのかを調査しました。
結果は、556回で7個ずつ当せん番号が選ばれるので、556 x 7 = 3,892
3,892 ÷ 37 = 105.19回が平均になります。
本数字①だけで見るのではなく、全体を通して見ると100回と言うのは平均よりも下回っていると言うことが分かりました。
13と15がよく出ていて、12が少ない印象でしょうか
こう言ったデータの散らばり具合を調べるために『分散』というものがあります。次回は分散を使って調べていきます。
今回はここまで。