データセット

2019年2月24日 15:47

fast.aiで使用できるデータセットは、https://course.fast.ai/datasets にまとめられている。ここでは、それらのうち重要なものを解説する。

これらのデータセットは、全てAWS(Amazon Web Service)のOpen Dataとして公開されている（https://registry.opendata.aws/）。Kaggle Competitionのデータセットは、Kaggle https://www.kaggle.com/ からダウンロードして使わなければならないが、これらはコンペに参加した人たちと比較できるので、便利である。

画像分類(image classification)

- MNIST：$$28 \times 28$$ の手書き文字画像。画像分類で最初に扱われるデータセットである。
- CIFAR10: 60000個の $$32 \times 32$$ のカラー画像であり、10種類の物体に分類する。
- CIFAR100: CIFAR10と同字であるが、100種類の物体に分類する。
- Caltech-UCSD Birds-200-2011：200種類の鳥の種類を分類する。物体検出(localization)にも使用できる。
- Caltech 101 : 101種類のカテゴリーに分類する。物体検出にも使用できる。
- Oxford-IIIT Pet：27種類のペットを分類する。物体検出にも使用できる。
- Oxford 102 Flowers : 102種類の花の名前を分類する。画像は解像度が高い。
- Food-101：101種類の食べ物を分類する。巻頭の画像はこれだ。
- Stanford cars：196種類の車を分類する。
自然言語処理(natural language processing: NLP)

- IMDb Large Movie Review Dataset：映画の批評のテキストファイルを元にした感情分類用(sentiment classification)のデータセット。
- Wikitext-103 : Wikipediaから抽出された1億個のトークンから構成されるデータセット。言語モデリングで用いられる。
意味分割(semantic segmentation)

- Camvid: Motion-based Segmentation and Recognition Dataset
- PASCAL Visual Object Classes (VOC)
- COCO - Common Objects in Context

主に、与えられた画像の分割（各ピクセルがどの物体に属するのかを分類すること）に用いられる。

しかし、ソースコードをみてみると、ドキュメントと異なるようだ。本にするには、後で、きちんと試してから書く必要がありそうだ。

# main datasets
ADULT_SAMPLE = f'{URL}adult_sample'
BIWI_SAMPLE = f'{URL}biwi_sample'
CIFAR = f'{URL}cifar10'
COCO_SAMPLE = f'{S3_COCO}coco_sample'
COCO_TINY = f'{URL}coco_tiny'
HUMAN_NUMBERS = f'{URL}human_numbers'
IMDB = f'{S3_NLP}imdb'
IMDB_SAMPLE = f'{URL}imdb_sample'
ML_SAMPLE = f'{URL}movie_lens_sample'
MNIST_SAMPLE = f'{URL}mnist_sample'
MNIST_TINY = f'{URL}mnist_tiny'
MNIST_VAR_SIZE_TINY = f'{S3_IMAGE}mnist_var_size_tiny'
PLANET_SAMPLE = f'{URL}planet_sample'
PLANET_TINY = f'{URL}planet_tiny'

# kaggle competitions download dogs-vs-cats -p {DOGS.absolute()}
DOGS = f'{URL}dogscats'

# image classification datasets
CALTECH_101 = f'{S3_IMAGE}caltech_101'
CARS = f'{S3_IMAGE}stanford-cars'
CIFAR_100 = f'{S3_IMAGE}cifar100'
CUB_200_2011 = f'{S3_IMAGE}CUB_200_2011'
FLOWERS = f'{S3_IMAGE}oxford-102-flowers'
FOOD = f'{S3_IMAGE}food-101'
MNIST = f'{S3_IMAGE}mnist_png'
PETS = f'{S3_IMAGE}oxford-iiit-pet'

# NLP datasets
AG_NEWS = f'{S3_NLP}ag_news_csv'
AMAZON_REVIEWS = f'{S3_NLP}amazon_review_full_csv'
AMAZON_REVIEWS_POLARITY = f'{S3_NLP}amazon_review_polarity_csv'
DBPEDIA = f'{S3_NLP}dbpedia_csv'
MT_ENG_FRA = f'{S3_NLP}giga-fren'
SOGOU_NEWS = f'{S3_NLP}sogou_news_csv'
WIKITEXT = f'{S3_NLP}wikitext-103'
WIKITEXT_TINY = f'{S3_NLP}wikitext-2'
YAHOO_ANSWERS = f'{S3_NLP}yahoo_answers_csv'
YELP_REVIEWS = f'{S3_NLP}yelp_review_full_csv'
YELP_REVIEWS_POLARITY = f'{S3_NLP}yelp_review_polarity_csv'

# Image localization datasets
BIWI_HEAD_POSE = f"{S3_IMAGELOC}biwi_head_pose"
CAMVID = f'{S3_IMAGELOC}camvid'
CAMVID_TINY = f'{URL}camvid_tiny'
LSUN_BEDROOMS = f'{S3_IMAGE}bedroom'

#Pretrained models
OPENAI_TRANSFORMER = f'{S3_MODEL}transformer'
WT103 = f'{S3_MODEL}wt103'
WT103_1 = f'{S3_MODEL}wt103-1'

データセット

いいなと思ったら応援しよう！