G検定 テストデータなど
株式会社リュディアです。今回はデータセットについて有名なところをまとめてみたいと思います。
ちなみにいろいろなデータセットについてまとめたものが既に arXiv に存在します。
ただ G検定対策としては細かすぎると思いますので、いくつかピックアップして以下にまとめておきます。
ImageNet
G検定公式テキストにも何度も出てくる ImageNet からです。スタンフォード大学の Fei-Fei Li を中心としたグループが管理しています。1400万枚以上の大規模なカラー画像で教師ラベル付きの画像データベースです。ILSVRCはこのImageNet のデータに対するコンペティションを行っていました。最近ではデータ自身が研究されつくしており、ImageNet で評価をしてよいのか?というような話も出てきているようです。
MNIST
手書き数字画像 60,000枚とテスト画像 10,000枚による画像データセットです。手書き文字認識用のデータセットとしては実質標準です。正解ラベルも与えられており人気の高いデータセットです。トレーニングセットとテストセットの半分は NIST(米国標準技術研究所)のトレーニングセットから取り入れ、残りの半分は NIST のテストセットから取り入れていることから Mixed NIST と名付けられています。
CIFAR-10/100
CIFAR-10 は 10クラスに分類された 60,000枚のデータセットです。50,000枚のトレーニング画像と 10,000枚のテスト画像が含まれます。CIFAR-100 は 100クラスに分類された 600枚の画像があることをのぞいては CIFAR-10 と同様です。AlexNet 開発者の一人である Alex Krizhevsky が管理しています。
Microsoft COCO
Microsoft が公開している画像認識、物体検出、画像説明文がセットになったデータセットです。上記の公式ページには以下の内容を含むと記載されています。画素レベルでのオブジェクト情報、つまりセマンティックセグメンテーション情報が与えられています。
Object segmentation (オブジェクトセグメンテーション)
Recognition in context (文脈認識)
Superpixel stuff segmentation (スーパーピクセルスタッフセグメンテーション)
330K images (>200K labeled) (33万枚以上の画像、かつ 20万枚以上はラベル付け済)
1.5 million object instances (15万のオブジェクトインスタンス)
80 object categories (80 のオブジェクトカテゴリー)
91 stuff categories (91 のスタッフカテゴリー)
5 captions per image (イメージごとに 5 つの表題)
250,000 people with keypoints (キーポイントとともに25万の人物)
YouTube-8M
Google が公開した動画セットで名前の通り 8M = 800万枚の動画を含みます。上記公式ページにある最新情報では以下のようになっています。
23万の人間が検証したセグメントラベル
1000クラス分類
ビデオあたり平均セグメント数は5
Caltech101
カリフォルニア工科大学 (Caltech) が公開する画像データです。画質がよいことで有名です。
The PASCAL Visual Object Classes (VOC)
アノテーション付き画像データです。2012年までコンペティションで使われていたデータが公開されています。公式ページは host.robots.ox.ac.uk/pascal/VOC にありますが接続が重いので URL を提示するにとどめておきます。
今回はテストデータについてまとめておきました。ImageNet, MNIST, CIFER-10/100, YouTube-8M がよく問われる内容ではないかと考えています。
では、ごきげんよう。
この記事が気に入ったらサポートをしてみませんか?