マガジンのカバー画像

Data

55
運営しているクリエイター

#大規模言語モデル

LLMによる合成データ(Synthetic Data)生成のテクニック

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる
論文メモ: Self-Rewarding Language Models

論文メモ: Self-Rewarding Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる
論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き



はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる

CommonCrawl PDFを漁る練習


はじめに最近は大規模言語モデルを作っています。

データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。

しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。

そこで今回は、CommonCrawlのPDF版を解析してみます。

コード一式(3/21

もっとみる
Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

誰でも自由に使える日本語の指示データセットを作っています

要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)

ーーーー

以下、データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ

もっとみる

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題


はじめに2024年は皆で大規模言語モデルを作るので、日本語のテキストを皆でクリーニングしています。

クリーニングのための、軽い試行錯誤を行いました。
本記事では、清掃作業がどこまで進んだのか、今後やるべきこと、などについてまとめています。

関連記事

コード本記事のコードは、google colabで実行できます。

githubのrepoはこちらです(CommonCrawlのダウンロードプ

もっとみる

大規模言語モデルのための合成データセットcosmopediaの中身を確認する


はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。

この合成データセットだけを学習した1Bモデルも公開されています。

本記事では、Cos

もっとみる
Wikipedia日本語データセットの読み込み

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる

ルールベースでWebページから日本語のテキストを清掃する


はじめにmc4などのコーパスを清掃するコードを調べたり書いたりしています。
本記事では、こちらのGitのコードを模倣しながら、若干の追記修正を入れてクリーニングしてみました。

2/21追記
関連コードをgithubにuploadしました。

要するにどうなったのか?以下のコード(MITライセンス)を実行することで、テキストが清掃されます。

def do_filter(text): te

もっとみる

教師なし学習で事前学習用のWebテキストを分類する

はじめに最近は大規模言語モデルの学習に用いるテキストの整形加工にハマっています。
前回は、mc4などのデータセットを教師あり学習でクリーニングするスクリプトを書きました。体感では、webサイトの半分以上は宣伝文や公序良俗に反するページなので、適切にフィルタリングしてあげないと、かなり偏った文章になります。

今回は、フィルタ後のwebサイト群を、教師なし学習でカテゴリ別に分類してみたいと思います。

もっとみる

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記 いくらか関連するコードをgithubにuploadしました。

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ

はじめに最近は大規模言語モデルの日本語データセットの生成にハマっております。
ネット上の雑多な文章よりも、AIが作った文章の方がマシではないか、という気がしてきたので、自動生成も試しています。

GPT3.5/4はかなり良い品質のデータを作ってくれますが、出力をAI学習に使う上で諸々の制約があります。

以下の記事ではいい感じにローカルLLMからデータ生成できており、いたく感銘を受けました。これを

もっとみる