マガジンのカバー画像

Data

55
運営しているクリエイター

2024年6月の記事一覧

LLMだけでデータセット生成してみよう!Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。

背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目

もっとみる
デルタもんLoRAの正式版を公開します。

デルタもんLoRAの正式版を公開します。

こんにちは、BlendAI運営です。

デルタもんLoRAの正式版を公開しました。 以下からダウンロード可能です。

booth (学習データセット付き)
https://blendai.booth.pm/items/5801621

civitai (LoRAのみ)
https://civitai.com/models/492694

デルタもん公式LoRA version1.0の特徴についてご

もっとみる