Data

「LAION-5B」は非常に大規模なデータセットであり、その中から2000件の児童性的虐待コンテンツ（CSAM）が見つかったという報告があります。これを受けて、開発元であるLAIONは、これらのリンクを削除した「Re-LAION-5B」という新しいバージョンをリリースしました。

この問題についての説明ですが、まず重要な点として、2000件という数は確かに懸念されるべきものであり、CSAMが含まれ

もっとみる

マーケットフィット観測所

2024年7月21日 19:31

Persona Hubについて

少し前に中国のTencentのチームが発表したPersona Hub（テクニカルレポート）について書いてみたいと思います。

Persona Hubは、ウェブデータを活用して膨大なペルソナ（「〇〇の専門家」みたいな人格・属性を表す短文）を生成したデータセットです。

具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし

もっとみる

鐵火卷

2024年6月19日 21:34

LLMだけでデータセット生成してみよう！Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる

はち

2024年5月28日 18:19

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる

npaka

2024年4月23日 08:18

JAT (Jack of All Trades) の概要

以下の記事が面白かったので、簡単にまとめました。

1. JAT (Jack of All Trades)「JAT」 (Jack of All Trades) は、ジェネラリストエージェントの推進を目的とするプロジェクトです。このプロジェクトは、視覚と言語 (vision-and-language) のタスクと意思決定 (decision-making) のタスクの両方を実行できるTransfor

もっとみる

npaka

2024年3月2日 11:54

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画（会話テキストデータセット配布）今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

Yoshihiro Tanaka | taziku

2024年1月24日 22:16

AI開発のための日本人プロ声優の音声データセット「moe-speech」他 / Catch up on AI 2024.1.24

Pick up日本人プロ声優による高音質（スタジオ録音）でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル（ほぼ全て44.1kHz、いくつかは48kHz）。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech

もっとみる

フォローしませんか？

#生成AI