マガジンのカバー画像

Data

55
運営しているクリエイター

#データセット

LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました

「LAION-5B」は非常に大規模なデータセットであり、その中から2000件の児童性的虐待コンテンツ(CSAM)が見つかったという報告があります。これを受けて、開発元であるLAIONは、これらのリンクを削除した「Re-LAION-5B」という新しいバージョンをリリースしました。

この問題についての説明ですが、まず重要な点として、2000件という数は確かに懸念されるべきものであり、CSAMが含まれ

もっとみる
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。

実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。

今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。

scikit-learnのiris

まず始めに、Pythonのライブラリ「scikit-l

もっとみる

LLMだけでデータセット生成してみよう!Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる
LLM評価データセット概観

LLM評価データセット概観

研究開発本部 海老原樹

はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL

もっとみる

誰でも自由に使える日本語の指示データセットを作っています

要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)

ーーーー

以下、データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ

もっとみる

【22個掲載】機械学習に使えるスポーツ関連のデータセットまとめ

公開されているスポーツデータの不足は、近代的かつ再現可能な研究やスポーツのデータ分析の妨げにもなってしまいます。貴社のスポーツデータ解析にもお役に立てるよう、今回は機械学習に使える公開データセットをスポーツごとにまとめました。

サッカーのスポーツデータ

サッカーデータベース: サッカーに関する無料のパブリックドメインデータセットおよびスキーマ。どのプログラム言語でも利用可能。

FIFA 19

もっとみる
AIとARの未来を形作る: AEAデータセットの探索

AIとARの未来を形作る: AEAデータセットの探索

Metaチームにより開発されたAEAデータセットは、Project Aria AR眼鏡から記録された第一人称の多様なモダリティを持つ開放データセットです。この革新的なリソースは、AIとARの研究に新たな地平を開きます。日常活動のリアルタイムデータを利用して、私たちの周りの世界とのやり取りを再定義する技術の開発を支援します。この記事では、AEAデータセットの潜在的な影響とその利用方法について深く掘り

もっとみる

大規模言語モデルのための合成データセットcosmopediaの中身を確認する


はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。

この合成データセットだけを学習した1Bモデルも公開されています。

本記事では、Cos

もっとみる
Hugging FaceのWikipedia英語データセットの比較

Hugging FaceのWikipedia英語データセットの比較

Hugging Faceにある次の2つのWikipediaデータセットで英語のWikipediaデータを読み込み比較します。
結論としては、graelo/wikipediaのほうがデータが新しくてデータ数が多いので良さそうです。

データセットを読み込むコードコア部分は次の2行

# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定# wikipediaデータセッ

もっとみる
Wikipedia日本語データセットの読み込み

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる
フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

主だったところで

LLM-jp-13B

weblab-10b

PLaMo-13B

Stockmark-13b

Japanese StabeleLM Alpha

の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。

疑問点wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHuggin

もっとみる

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ

はじめに最近は大規模言語モデルの日本語データセットの生成にハマっております。
ネット上の雑多な文章よりも、AIが作った文章の方がマシではないか、という気がしてきたので、自動生成も試しています。

GPT3.5/4はかなり良い品質のデータを作ってくれますが、出力をAI学習に使う上で諸々の制約があります。

以下の記事ではいい感じにローカルLLMからデータ生成できており、いたく感銘を受けました。これを

もっとみる

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM

会話するAIキャラクターを作ろうとすると、返答を生成する待ち時間が気になります。気になるはずです。GPT-4はサーバーが重いときはおよそ会話として成立しないほど待つこともあります。

そこで、軽量なローカルLLMにとりあえず相づちだけ打たせて、その間に、性能の良いLLMにちゃんとした返答を生成させれば良いのでは、なんてことを考えてみました。

データセットとして、以下のRosebleuデータセット

もっとみる
LLMの事前学習で利用されるmC4のデータを確認

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。

mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる