マガジンのカバー画像

Data

55
運営しているクリエイター

2023年12月の記事一覧

LLMの事前学習で利用されるmC4のデータを確認

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。

mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる
COCOデータセットを可視化してみた

COCOデータセットを可視化してみた

はじめに初めまして。
ギリアでインターン生としてデータ開発を行っている鍛原と申します。普段から様々なデータの可視化や分析を行っています。

本稿では、画像認識で広く用いられているCOCOデータセットとはどんなものか、統計情報とともに紹介します。
また、COCOデータセットを正しく使えるように、使い方やデータ構造、画像の特徴などを出来るだけ詳細にまとめました。
ぜひ、最後までお付き合いください。

もっとみる
日本の官公庁にある「よくある質問」をデータセットにまとめました

日本の官公庁にある「よくある質問」をデータセットにまとめました

LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。

省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得し

もっとみる