データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~
データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。
実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。
今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。
scikit-learnのiris
まず始めに、Pythonのライブラリ「scikit-learn」に入っている「iris」データセットをご紹介します。
このデータセットは、アヤメの花の種類を分類するために、植物の特徴や品種に関するデータが入っており、分析の基本を身につけるのに最適です。
Pythonの機械学習ライブラリ「scikit-learn」の中に入っているデータセットのため、サイトからダウンロードをするのではなく、以下のようにPythonで簡単に取り出すことができます。
from sklearn.datasets import load_iris
iris = load_iris()
※この箇所をGoogle colabo等で再現
サイトで公開しているオープンデータ
次に日本のデータサイエンスコンペティションサイト「SIGNATE」をご紹介します。
このサイトは日本企業の株式会社SIGNATEが運営するコンペサイトのため、データセットの説明などが全て日本語で書かれています。
コンペを主催している企業や自治体が提供しているサンプルデータを使用することができるため、実際のビジネスシーンに近いデータで分析に挑戦できます。
また国内の人口統計、労働市場、経済状況など公共データに関しては、「e-Stat」や「e-Gov」がオープンデータの配布サイトとしておすすめです。
例えば、「e-Stat」では、日本の人口動態や産業別経済指標などを分析することができ、地域ごとの人口変動の傾向や経済活動の分析に興味がある方には特に優良なサイトです。
「e-Gov」では、交通、健康、教育などの分野のデータが提供されています。
例えば、都市部と地方部の交通利用の違いや、地域による健康状態の比較など、社会的な問題に対する洞察、分析を行うことができます。
まとめ
ここまでいくつかデータセットをご紹介しましたが、どれも無料ながら質の高いデータですので、データ分析のスキルを効果的に磨くことが可能です。
実際にみなさんがよく知る企業でも、オープンデータを使用してビジネスを展開しています。
ぜひ今回紹介したオープンデータを活用してみてください!
【ワークスアイディのホームページはこちら】