見出し画像

データサイエンティストのためのデータセット20選

TableauなどBIツールの習熟度が向上すると、様々なケースに挑戦したくなるかもしれません。その際、公開されているDatasetのありかをある程度把握しておくとスムーズに分析に取り掛かることができます。
TableauPublicでは多くのDatasetが公開されていますが、世の中には面白いDatasetがまだまだあります。本記事では公開されている20のDatasetを紹介していきたいと思います。

①Data.gov

Data.govには、米国政府によって収集・処理されたオープンデータが掲載されており、土地利用データ、農村部の住宅データ、内陸部の電子航法図などがあります。金融や雇用、科学技術、交通、小売、通信、貿易、エネルギーなど49のカテゴリに分類してアップされています。データの総数は約24万程度

②Kaggle

Kaggleはデータサイエンスに携わっている世界中の方が集まるコミュニティーです。アボカドの価格からビデオゲームの売上まで。24万の高品質なデータセットが公開されています。

③GitHub

Awesome Public Datasetsには、気候、経済、エネルギー、金融、生物学、物理学、健康管理、地理、交通機関、政府、データチャレンジ、機械学習、自然言語、イメージ生成、時系列データ、社会学、複雑ネットワーク、コンピューターネットワーク、パブリックドメインデータなどと膨大なデータセットが公開されている。

④Google Cloud

BigQueryの一般公開データセットには、BigQueryに保存され利用可能なデータセットが公開されている。 気象データやGithubリポジトリ上のアクションの時系列データ、Wikipediaの記事の改訂履歴データなど多種多様なデータが揃っています。 利用者はクエリを実行したときのみ料金が発生します。毎月1TBまで無料で利用可能。

⑤ユニセフデータ

Datasets Archivesには、世界中のユニセフが収集したデータセットが公開されている。移民、移住、食事、コネクティビティ、教育、健康、学習、死亡率、暴力、小児発達、児童婚、児童労働、様々な統計に関するデータがここで入手可能。

⑥世界銀行データカタログ

データカタログは、世界銀行の開発関連データに簡単にアクセスできる無料のDatasetを集めたものです。世界銀行のマイクロデータ、財政、エネルギープラットフォームをカバーする5000以上のデータセットが公開されています。

⑦YouTube 8-M

YouTube 8-Mのデータセットには、610万のビデオID、35万時間のビデオ、26億のオーディオ/ビジュアルの特徴、38百のビデオクラス、動画タイトル、ディスクリプション、その他のメタデータなどが公開されています。

⑧IMFデータ

IMF加盟国等の国内金融統計と国際金融統計データ。 為替相場とその変動、金準備高、国際流動性、利子率、価格、生産高、国際取引決済額、官庁および国民所得会計、中央銀行とその他の金融機関の取引高などが含まれています。

⑨AWS上のオープンデータのレジストリ

ROD on AWS(Registry of Open Data on AWS)は、データサイエンティストがAWSリソース上でホストされているデータセットを共有しています。SNS(Facebook Data for Good)やCOVID-19(Foldingathome COVID-19 Datasets)、The Cancer Genome Atlas,, Common Crawlなどの興味深いDatasetが公開されています。

⑩ファイブサーティエイト

FiveThirtyEightは世論調査分析、政治、経済、スポーツを扱うアメリカのウェブサイトで。そのウェブサイトからこれらの世論調査や予測に関するdatasetが公開されている。

⑪英国政府

Find Open Dataでは、英国の地方機関や中央政府によって公開されたデータが公開されている。政府支出、ビジネス、健康、教育、国防、その他のデータセットを網羅している。

⑫アメリカ合衆国国勢調査局

アメリカで実施された米国国勢調査データ。2020年国勢調査のデータ、表、地図、データプロファイルを探索し、データを視覚化したり、データツールを使用したりすることが可能。

⑬米国連邦政府機関(CDC)

米国連邦政府機関Centers for Disease Control and Preventionから公開されている、無料のDataset。環境衛生、慢性疾患、出生・出生率、死亡・死亡率、平均余命、傷害・暴力、リプロダクティブ・ヘルス、全国届出疾患などのデータが入手可能。

⑭NASA宇宙科学データ

NASAはSpace Science Data Coordinated Archiveでアーカイブデータへのアクセスを提供している。このプラットフォームは、一般の人々、特に教育や宇宙研究に携わる人々にとって大きな助けとなる。550の宇宙科学に関する情報を含む400TBのデジタルデータがある。

⑮Airbnb

Airbnbは、民泊やホリデーレンタルのための世界的に有名なオンラインマーケットプレイスである。また、Get the Dataから世界の様々な都市のデータ収集も提供している。都市をブラウズしてデータを素早く入手することができます。さらに、このポータルサイトでは、必要なデータをリクエストしたり、データの前提条件を読んだりすることができる。

⑯アマゾンのレビュー

市場調査や製品レビューに興味のある方は、Snap Web Dataが提供するデータセットを利用するとよい。1995年6月から2013年3月までの3,400万件以上のAmazonのユーザーレビューが含まれています。このデータセットには、プレーンテキスト、製品情報、ユーザー名、評価、レビューが含まれている。

⑰Google Books Ngrams

Google Books Ngramsでは、歴史や特定の時間範囲を通して、特定の単語やフレーズのデータが公開されています。

⑱フィナンシャル・タイムズ

The Financial Timesから信頼性が高く正確な世界および地域の株式市場データが公開されています。アメリカ、アジア太平洋、ヨーロッパ、アフリカ、そして世界市場の市場データを扱うことができます。

⑲DATA PLAYGROUND

フライトの遅延や映画の評価からサメの襲撃やUFOの目撃情報まで、様々なデータが公開されています。

⑳Boston Housing dataset

Boston house-pricesデータセットは、カーネギーメロン大学のStatLibライブラリーにて公開されているデータで、持家の価格とその持家が属する地域に関する指標からなります。 ボストンの各地域にある506の持家の価格の中央値に対して、その地域の犯罪発生率やNOx濃度など13の指標が得られます。

本記事では、世界経済、物理科学、医療記録、宇宙研究など様々な分野のDatasetを紹介していきました。取り組んでいるデータサイエンスの学習プロジェクトにおいて、目的の分野のデータが見つかる助けになれば幸いです。

この記事が気に入ったらサポートをしてみませんか?