マガジンのカバー画像

Data

55
運営しているクリエイター

2024年2月の記事一覧

LLMによる疑似学習データ生成

LLMによる疑似学習データ生成

はじめに横浜国立大学大学院 理工学府 修士2年の藤井巧朗です。8月から株式会社レトリバにインターンとして参加させていただいております。インターンでの成果の第一段として記事「日本語LLMの推論速度検証」を書かせていただきましたので、そちらもよろしければご覧ください。本記事ではインターンでの成果の第二段として「LLMによる疑似学習データ生成」について紹介します。本記事の内容は言語処理学会第30回年次大

もっとみる

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題


はじめに2024年は皆で大規模言語モデルを作るので、日本語のテキストを皆でクリーニングしています。

クリーニングのための、軽い試行錯誤を行いました。
本記事では、清掃作業がどこまで進んだのか、今後やるべきこと、などについてまとめています。

関連記事

コード本記事のコードは、google colabで実行できます。

githubのrepoはこちらです(CommonCrawlのダウンロードプ

もっとみる

【22個掲載】機械学習に使えるスポーツ関連のデータセットまとめ

公開されているスポーツデータの不足は、近代的かつ再現可能な研究やスポーツのデータ分析の妨げにもなってしまいます。貴社のスポーツデータ解析にもお役に立てるよう、今回は機械学習に使える公開データセットをスポーツごとにまとめました。

サッカーのスポーツデータ

サッカーデータベース: サッカーに関する無料のパブリックドメインデータセットおよびスキーマ。どのプログラム言語でも利用可能。

FIFA 19

もっとみる
AIとARの未来を形作る: AEAデータセットの探索

AIとARの未来を形作る: AEAデータセットの探索

Metaチームにより開発されたAEAデータセットは、Project Aria AR眼鏡から記録された第一人称の多様なモダリティを持つ開放データセットです。この革新的なリソースは、AIとARの研究に新たな地平を開きます。日常活動のリアルタイムデータを利用して、私たちの周りの世界とのやり取りを再定義する技術の開発を支援します。この記事では、AEAデータセットの潜在的な影響とその利用方法について深く掘り

もっとみる

大規模言語モデルのための合成データセットcosmopediaの中身を確認する


はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。

この合成データセットだけを学習した1Bモデルも公開されています。

本記事では、Cos

もっとみる
Hugging FaceのWikipedia英語データセットの比較

Hugging FaceのWikipedia英語データセットの比較

Hugging Faceにある次の2つのWikipediaデータセットで英語のWikipediaデータを読み込み比較します。
結論としては、graelo/wikipediaのほうがデータが新しくてデータ数が多いので良さそうです。

データセットを読み込むコードコア部分は次の2行

# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定# wikipediaデータセッ

もっとみる
Wikipedia日本語データセットの読み込み

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる
フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

主だったところで

LLM-jp-13B

weblab-10b

PLaMo-13B

Stockmark-13b

Japanese StabeleLM Alpha

の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。

疑問点wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHuggin

もっとみる

ルールベースでWebページから日本語のテキストを清掃する


はじめにmc4などのコーパスを清掃するコードを調べたり書いたりしています。
本記事では、こちらのGitのコードを模倣しながら、若干の追記修正を入れてクリーニングしてみました。

2/21追記
関連コードをgithubにuploadしました。

要するにどうなったのか?以下のコード(MITライセンス)を実行することで、テキストが清掃されます。

def do_filter(text): te

もっとみる

教師なし学習で事前学習用のWebテキストを分類する

はじめに最近は大規模言語モデルの学習に用いるテキストの整形加工にハマっています。
前回は、mc4などのデータセットを教師あり学習でクリーニングするスクリプトを書きました。体感では、webサイトの半分以上は宣伝文や公序良俗に反するページなので、適切にフィルタリングしてあげないと、かなり偏った文章になります。

今回は、フィルタ後のwebサイト群を、教師なし学習でカテゴリ別に分類してみたいと思います。

もっとみる

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記 いくらか関連するコードをgithubにuploadしました。

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ

はじめに最近は大規模言語モデルの日本語データセットの生成にハマっております。
ネット上の雑多な文章よりも、AIが作った文章の方がマシではないか、という気がしてきたので、自動生成も試しています。

GPT3.5/4はかなり良い品質のデータを作ってくれますが、出力をAI学習に使う上で諸々の制約があります。

以下の記事ではいい感じにローカルLLMからデータ生成できており、いたく感銘を受けました。これを

もっとみる

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。

そこで、独自に日本語コーパスを作る動きも出ています。

本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし

もっとみる

CommonCrawlの生データをダウンロードして解析する練習



はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。

ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。

URLリストを取得する

まずは上記CCのサイトにアクセス

もっとみる