マガジンのカバー画像

Data

55
運営しているクリエイター

#HuggingFace

過去の天気予報データを蓄積するリポジトリを作りました

過去の天気予報データを蓄積するリポジトリを作りました

jniimi/weather_forecast_japan (Huggingface Datasets)
7日間先までの気象予測の値を取得しています。

まだ蓄積し始めなのでしばらくは使い物にならないと思いますが。

1. データ作成の背景仕事の関係で気象関係のデータを使う必要ができたのだけれど、いい感じに使えるものがいまいちなかったので自分で作った。
完全データを使って変数間の関係性を事後的に明

もっとみる

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。

背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目

もっとみる
LLMの事前学習で利用されるmC4のデータを確認

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。

mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる
mC4データを文章量でアノテーションしました

mC4データを文章量でアノテーションしました

はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる