ヒストグラム描くならR Studioが便利!
ヒストグラム(英語: histogram)とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう。
wikipediaより
いきなり堅苦しい話から始まりスミマセン。データ分析に携わるものなら見たこと、聞いたことはあると思います。ヒストグラム。
僕は製造業に携わる人間なのですが、製造業でもヒストグラムは頻繁に使われます。かの有名なQC7つ道具の一つでもあらせられます。まさにデータ分析には不可欠な存在です。知らないとは言わせません 笑
ですがここで問題があります。ヒストグラム描くのって地味に面倒なんですよね...
測定データをその場で分析できる機器を使っていたり、便利な統計ソフトを企業単位で持っている場合は問題ないと思います。
しかし困るのが、個人で興味本位で集めたデータとかを分析したい時です。ありますよね?そういうタイミング。(え、ない?ひょっとしたら僕だけ??)
無料で使えるR Studioがオススメ!
気軽にデータ分析もできて操作性にも優れるExcelですが、実はヒストグラムを描くのは超苦手。
いや、できなくはないんですよ?一回ポッキリの分析ならExcelでもギリOKです。
でもデータをソースを変更して、繰り返し分析をするのはとっても面倒。
それに、データ量が多ければ固まってしまうという恥ずかしがり屋さんでもあります。
そこでオススメなのがR Studioです。
何が良いかっていうと、「無料」で「大量データを捌けて」「プログラミング未経験でも比較的扱いやすい」という三拍子そろっているところです。
実践してみようの編
ここからは具体的な手段を説明しています。といっても込み入った話はせず、ザックリ説明にとどめます。
それでも全くデータ分析をしたことがない方には難しい部分もあるかもしれません。その点はご容赦ください。
また、より詳細な手法を知りたい人や丁寧な説明を知りたい人は申し訳ありませんがご自身でお調べくださいw
ステップ① RとR Studioをインストールする
ステップ② パッケージとライブラリの設定
ステップ③ データをインストールする
ステップ④ データの前処理する
ステップ⑤ ヒストグラムを描写する
ステップ① RとR Studioをインストールする
いきなり他リンク任せで恐縮ですが、下記リンク先にインストールする方法が書いてあります。細かいことは気にせずにインストールしちゃいましょう。
RとExcelの比較も掲載してくれています。これで使い分ける理由もばっちりです。
今回メインで使用するのはR Studioなのですが、R StudioはRのIDE (統合開発環境)です。まあ要するに、Rを分かりやすく操作できる環境とでも思ってください。(違ったらごめんなさい。)
ステップ② パッケージをインストールする
ステップ③ データをインストールする
ステップ④ データの前処理する
さて、R StudioとRをインストールしたら早速分析開始...という訳にはいきません。パッケージとライブラリ呼ばれる拡張機能をいくつか準備します。
今回必要なのは、
1. データをインポートするためのライブラリ
2. データ操作のためのパッケージ&ライブラリ
の2種類。
この時点でやり方が分からず、躓く初心者が後を絶えないと思います。
1. については、読み込むデータソースによって種類は変わります。Excelの場合は下記リンクとかを参考にしてください。
これでRをデータをインポートできる状態になりました。
次に2. のほうです。ヒストグラムを描くだけならライブラリもパッケージもなく実行できます。しかし、ヒストグラムを描くための下準備は必要です。
「データ分析は前処理が8割」です。データを整形したり外れ値を探したり...そのためにはデータ操作が必須です。
いくつか方法はあるのでしょうが、僕がおススメするのはdplyr とtidyr という二つのパッケージを利用したデータ処理です。
SQLでのデータ操作がある方なら、これらを使うことで似たような操作ができることに喜びを感じるでしょう。
わかりやすく基本的操作をまとめた「チートシート」を見ながら実行することを推奨します。
とにかく、これらを駆使してデータの前処理を行ってください。
「難しすぎる」「何を言っているかサッパリ」という方へ。一旦、Excel上でデータの前処理を行ってから、データをRにインポートするという方法もあります。どうしてもの場合、それで乗り切りましょう。
ただし、今後も継続してR Studioを使っていくのであれば、R Studio上でのデータ前処理ができるようになっておいた方がベターです。
ステップ⑤ ヒストグラムを描写する
データをインポートし、前処理まで完了したら、あとはヒストグラムを描写するだけです。
ここまでこればもう大丈夫でしょう。
「R ヒストグラム 描き方」とかでググって出てきた結果を試せばOKです!
まとめ
「無料」で「大量データを捌けて」「プログラミング未経験でも比較的扱いやすい」という三拍子そろったR Studioを活用しない手はありません。
本格的なデータ分析には手間がかかりますが、ヒストグラムを描くぐらいなら比較的簡単に実行できます。高額なソフトを導入する必要もないので、個人で分析実行までできちゃうのは非常にありがたい!
今回の記事は勢い重視で書きました。もし誤り等ありましたらコメントにてお知らせください!
この記事が気に入ったらサポートをしてみませんか?