マガジンのカバー画像

Data

55
運営しているクリエイター

#dataset

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記 いくらか関連するコードをgithubにuploadしました。

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる
COCOデータセットを可視化してみた

COCOデータセットを可視化してみた

はじめに初めまして。
ギリアでインターン生としてデータ開発を行っている鍛原と申します。普段から様々なデータの可視化や分析を行っています。

本稿では、画像認識で広く用いられているCOCOデータセットとはどんなものか、統計情報とともに紹介します。
また、COCOデータセットを正しく使えるように、使い方やデータ構造、画像の特徴などを出来るだけ詳細にまとめました。
ぜひ、最後までお付き合いください。

もっとみる
日本語オープンコンテンツデータセット

日本語オープンコンテンツデータセット

キャラクター会話

お嬢様会話

などの日本語データを無償で公開してくれている神がかったプロジェクト。NPCとの会話AIなどに活用できそう。

下記は、本家サイトからの引用。