Data

2024年5月28日 18:19

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる

はち

2024年5月22日 19:56

論文メモ: Self-Rewarding Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる

はち

2024年5月21日 16:47

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる

Kan Hatakeyama

2024年4月20日 11:01

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では､かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる

Kan Hatakeyama

2024年3月21日 11:41

CommonCrawl PDFを漁る練習

はじめに最近は大規模言語モデルを作っています｡

データソースとして､ネット上のhtmlデータを収集したCommonCrawlは有名です｡

しかし､htmlから抜き出したテキストは､あまり品質が高くないケースが多いです｡
また､html版は多くの方が取り組んでおり､意外と日本語のテキストは枯渇気味です｡

そこで今回は､CommonCrawlのPDF版を解析してみます｡

コード一式(3/21

もっとみる

npaka

2024年3月2日 11:54

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画（会話テキストデータセット配布）今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

Kan Hatakeyama

2024年3月4日 10:14

誰でも自由に使える日本語の指示データセットを作っています

要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)

ーーーー

以下､データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ

もっとみる

Kan Hatakeyama

2024年2月26日 11:44

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題

はじめに2024年は皆で大規模言語モデルを作るので､日本語のテキストを皆でクリーニングしています。

クリーニングのための、軽い試行錯誤を行いました。
本記事では、清掃作業がどこまで進んだのか、今後やるべきこと、などについてまとめています。

関連記事

コード本記事のコードは、google colabで実行できます。

githubのrepoはこちらです(CommonCrawlのダウンロードプ

もっとみる

Kan Hatakeyama

2024年2月23日 18:20

大規模言語モデルのための合成データセットcosmopediaの中身を確認する

はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。

この合成データセットだけを学習した1Bモデルも公開されています。

本記事では、Cos

もっとみる

ウチダマサトシ

2024年2月20日 03:21

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる

Kan Hatakeyama

2024年2月18日 16:58

ルールベースでWebページから日本語のテキストを清掃する

はじめにmc4などのコーパスを清掃するコードを調べたり書いたりしています。
本記事では、こちらのGitのコードを模倣しながら、若干の追記修正を入れてクリーニングしてみました。

2/21追記
関連コードをgithubにuploadしました｡

要するにどうなったのか?以下のコード(MITライセンス)を実行することで、テキストが清掃されます。

def do_filter(text): te

もっとみる

Kan Hatakeyama

2024年2月18日 14:04

教師なし学習で事前学習用のWebテキストを分類する

はじめに最近は大規模言語モデルの学習に用いるテキストの整形加工にハマっています。
前回は、mc4などのデータセットを教師あり学習でクリーニングするスクリプトを書きました。体感では、webサイトの半分以上は宣伝文や公序良俗に反するページなので、適切にフィルタリングしてあげないと、かなり偏った文章になります。

今回は、フィルタ後のwebサイト群を、教師なし学習でカテゴリ別に分類してみたいと思います。

もっとみる

Kan Hatakeyama

2024年2月17日 17:14

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記いくらか関連するコードをgithubにuploadしました｡

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

Kan Hatakeyama

2024年2月17日 12:00

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ

はじめに最近は大規模言語モデルの日本語データセットの生成にハマっております。
ネット上の雑多な文章よりも、AIが作った文章の方がマシではないか、という気がしてきたので、自動生成も試しています。

GPT3.5/4はかなり良い品質のデータを作ってくれますが、出力をAI学習に使う上で諸々の制約があります。

以下の記事ではいい感じにローカルLLMからデータ生成できており、いたく感銘を受けました。これを

もっとみる

フォローしませんか？

#大規模言語モデル

LLMによる合成データ(Synthetic Data)生成のテクニック

論文メモ: Self-Rewarding Language Models

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

CommonCrawl PDFを漁る練習

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

誰でも自由に使える日本語の指示データセットを作っています

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題

大規模言語モデルのための合成データセットcosmopediaの中身を確認する

Wikipedia日本語データセットの読み込み

ルールベースでWebページから日本語のテキストを清掃する

教師なし学習で事前学習用のWebテキストを分類する

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ