G検定 テストデータなど

株式会社リュディアです。今回はデータセットについて有名なところをまとめてみたいと思います。

ちなみにいろいろなデータセットについてまとめたものが既に arXiv に存在します。

ただ G検定対策としては細かすぎると思いますので、いくつかピックアップして以下にまとめておきます。

ImageNet

G検定公式テキストにも何度も出てくる ImageNet からです。スタンフォード大学の Fei-Fei Li を中心としたグループが管理しています。1400万枚以上の大規模なカラー画像教師ラベル付きの画像データベースです。ILSVRCはこのImageNet のデータに対するコンペティションを行っていました。最近ではデータ自身が研究されつくしており、ImageNet で評価をしてよいのか?というような話も出てきているようです。

MNIST

手書き数字画像 60,000枚とテスト画像 10,000枚による画像データセットです。手書き文字認識用のデータセットとしては実質標準です。正解ラベルも与えられており人気の高いデータセットです。トレーニングセットとテストセットの半分は NIST(米国標準技術研究所)のトレーニングセットから取り入れ、残りの半分は NIST のテストセットから取り入れていることから Mixed NIST と名付けられています。

CIFAR-10/100

CIFAR-1010クラスに分類された 60,000枚のデータセットです。50,000枚のトレーニング画像と 10,000枚のテスト画像が含まれます。CIFAR-100100クラスに分類された 600枚の画像があることをのぞいては CIFAR-10 と同様です。AlexNet 開発者の一人である Alex Krizhevsky が管理しています。

Microsoft COCO

Microsoft が公開している画像認識、物体検出、画像説明文がセットになったデータセットです。上記の公式ページには以下の内容を含むと記載されています。画素レベルでのオブジェクト情報、つまりセマンティックセグメンテーション情報が与えられています。

Object segmentation (オブジェクトセグメンテーション)
Recognition in context (文脈認識)
Superpixel stuff segmentation (スーパーピクセルスタッフセグメンテーション)
330K images (>200K labeled) (33万枚以上の画像、かつ 20万枚以上はラベル付け済)
1.5 million object instances (15万のオブジェクトインスタンス)
80 object categories (80 のオブジェクトカテゴリー)
91 stuff categories (91 のスタッフカテゴリー)
5 captions per image (イメージごとに 5 つの表題)
250,000 people with keypoints (キーポイントとともに25万の人物)

YouTube-8M

Google が公開した動画セットで名前の通り 8M = 800万枚の動画を含みます。上記公式ページにある最新情報では以下のようになっています。

23万の人間が検証したセグメントラベル
1000クラス分類
ビデオあたり平均セグメント数は5

Caltech101

カリフォルニア工科大学 (Caltech) が公開する画像データです。画質がよいことで有名です。

The PASCAL Visual Object Classes (VOC)

アノテーション付き画像データです。2012年までコンペティションで使われていたデータが公開されています。公式ページは host.robots.ox.ac.uk/pascal/VOC にありますが接続が重いので URL を提示するにとどめておきます。

今回はテストデータについてまとめておきました。ImageNet, MNIST, CIFER-10/100, YouTube-8M がよく問われる内容ではないかと考えています。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?