- 運営しているクリエイター
2024年2月の記事一覧
AIとARの未来を形作る: AEAデータセットの探索
Metaチームにより開発されたAEAデータセットは、Project Aria AR眼鏡から記録された第一人称の多様なモダリティを持つ開放データセットです。この革新的なリソースは、AIとARの研究に新たな地平を開きます。日常活動のリアルタイムデータを利用して、私たちの周りの世界とのやり取りを再定義する技術の開発を支援します。この記事では、AEAデータセットの潜在的な影響とその利用方法について深く掘り
もっとみる大規模言語モデルのための合成データセットcosmopediaの中身を確認する
はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。
この合成データセットだけを学習した1Bモデルも公開されています。
本記事では、Cos
Hugging FaceのWikipedia英語データセットの比較
Hugging Faceにある次の2つのWikipediaデータセットで英語のWikipediaデータを読み込み比較します。
結論としては、graelo/wikipediaのほうがデータが新しくてデータ数が多いので良さそうです。
データセットを読み込むコードコア部分は次の2行
# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定# wikipediaデータセッ
Wikipedia日本語データセットの読み込み
日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。
データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。
データセットを読
フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット
主だったところで
LLM-jp-13B
weblab-10b
PLaMo-13B
Stockmark-13b
Japanese StabeleLM Alpha
の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。
疑問点wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHuggin
日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習
はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。
(ルールベースで真面目に清掃するスクリプトも存在します)
2/21追記 いくらか関連するコードをgithubにuploadしました。
データセットのダウンロードと内訳チェックhuggingfaceのda
CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ
はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。
そこで、独自に日本語コーパスを作る動きも出ています。
本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし
CommonCrawlの生データをダウンロードして解析する練習
はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。
ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。
URLリストを取得する
まずは上記CCのサイトにアクセス