マガジンのカバー画像

Data

55
運営しているクリエイター

2024年1月の記事一覧

ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました

ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました

今年もABCIポイント消費月間がやってきました。
ABCIはお国が運営するスパコンのため、毎年3月でポイントが失効します。

ポイントが失効したらもったいないので去年AIスーパーコンピュータ継之助と、彼が社長を務める会社FreeAI社(https://free-ai.ltd)を作ったことで結果的に使わなくなってしまったABCIポイントがまるごと余っていたので何か有意義なことに使おうと思い、(ライセ

もっとみる
キャリブレーションデータにもっと気を配ろうの話

キャリブレーションデータにもっと気を配ろうの話

量子化とキャリブレーションモデルを試したいとき、GPTQやAWQで量子化されたモデルを使う人が多いです。
量子化されたモデルは、モデルの推論に必要なリソースを削減できるほか、(量子化ライブラリによりますが)量子化されていないモデルに比べ推論速度を向上させることができます。

この量子化で重要な役割を担っているのが、キャリブレーションデータセットです。
GPTQやAWQのような量子化手法は、モデルの

もっとみる
日本語オープンコンテンツデータセット

日本語オープンコンテンツデータセット

キャラクター会話

お嬢様会話

などの日本語データを無償で公開してくれている神がかったプロジェクト。NPCとの会話AIなどに活用できそう。

下記は、本家サイトからの引用。

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

Pick up日本人プロ声優による高音質(スタジオ録音)でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル(ほぼ全て44.1kHz、いくつかは48kHz)。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech

もっとみる
ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

そろそろ年度末。
みなさんいかがお過ごしでしょうか。
年度末といえばABCIもそろそろ混み始めるお年頃。
ABCIのA100は960基しかないので奪い合いが続いています。

一方でMetaは年内に34万基のH100を導入するそうですが・・・

まさにB-29と竹槍。

とはいえ、前世代のV100ならまだ空きがあるので残ったポイントを今のうちに使ってしまおうかなと思い、Orion14B-ChatとW

もっとみる
NAIでデルタもんの一枚絵からいろんなポーズを出す

NAIでデルタもんの一枚絵からいろんなポーズを出す

デルタもんという面白いプロジェクトがあり、AIに関すれば自由に使っていいとのことです。

https://blendai.jp/illust_3d

ですが現状立ち絵は前側と後ろ側の二枚しかなく、LoRA作るのはちょっとつらいです。
そこで、NAI のインペイントを使っていろんなポーズや角度からの絵を作ってみます。

Opus プラン($25/月)が強く推奨されます。Opusプランならインペイント

もっとみる
mC4データを文章量でアノテーションしました

mC4データを文章量でアノテーションしました

はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる
社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください

https://ai.meta.com/resources/models-and-libraries/llama-downloads/

「社長、ただいま出張から戻りました!」

「・・・」

「お願いしていた稟議の件、どうなりましたで

もっとみる
社長(AI)に頼んで今度こそ商用利用可能な日本語マルチターン会話データセットを作ってもらった

社長(AI)に頼んで今度こそ商用利用可能な日本語マルチターン会話データセットを作ってもらった

前回、けっこう時間をかけて作ったにも関わらず、よくみるとQarasu14BはShareGPTを使っているので商用利用可能かどうかは微妙な結果に終わってしまった。性能は抜群に高いのだが・・・

ところが、最近でてきたTencentのllama2Pro8Bは、かなり高性能にも関わらずわずか8Bでしかもllama2ライセンスなので今度は文句なしに商用利用可能(ただ月間7億ユーザーまで/どんな大成功サイト

もっとみる