Data

2024年8月23日 01:41

過去の天気予報データを蓄積するリポジトリを作りました

jniimi/weather_forecast_japan (Huggingface Datasets)
7日間先までの気象予測の値を取得しています。

まだ蓄積し始めなのでしばらくは使い物にならないと思いますが。

1. データ作成の背景仕事の関係で気象関係のデータを使う必要ができたのだけれど、いい感じに使えるものがいまいちなかったので自分で作った。
完全データを使って変数間の関係性を事後的に明

もっとみる

oshizo

2024年6月25日 19:44

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。

背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目

もっとみる

もっさん

2023年12月30日 17:08

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！
ダウンロード方法から一部データの確認までします。

mC4とは？mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる

もっさん

2024年1月2日 11:09

mC4データを文章量でアノテーションしました

はじめにLLM（Large Language Models）の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください！

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる

フォローしませんか？

#HuggingFace

過去の天気予報データを蓄積するリポジトリを作りました

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

LLMの事前学習で利用されるmC4のデータを確認

mC4データを文章量でアノテーションしました