Data

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記いくらか関連するコードをgithubにuploadしました｡

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

Ghelia Tech Blog｜ギリア株式会社

2023年12月19日 12:04

COCOデータセットを可視化してみた

はじめに初めまして。
ギリアでインターン生としてデータ開発を行っている鍛原と申します。普段から様々なデータの可視化や分析を行っています。

本稿では、画像認識で広く用いられているCOCOデータセットとはどんなものか、統計情報とともに紹介します。
また、COCOデータセットを正しく使えるように、使い方やデータ構造、画像の特徴などを出来るだけ詳細にまとめました。
ぜひ、最後までお付き合いください。

もっとみる