- 運営しているクリエイター
2024年1月の記事一覧
ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました
今年もABCIポイント消費月間がやってきました。
ABCIはお国が運営するスパコンのため、毎年3月でポイントが失効します。
ポイントが失効したらもったいないので去年AIスーパーコンピュータ継之助と、彼が社長を務める会社FreeAI社(https://free-ai.ltd)を作ったことで結果的に使わなくなってしまったABCIポイントがまるごと余っていたので何か有意義なことに使おうと思い、(ライセ
NAIでデルタもんの一枚絵からいろんなポーズを出す
デルタもんという面白いプロジェクトがあり、AIに関すれば自由に使っていいとのことです。
https://blendai.jp/illust_3d
ですが現状立ち絵は前側と後ろ側の二枚しかなく、LoRA作るのはちょっとつらいです。
そこで、NAI のインペイントを使っていろんなポーズや角度からの絵を作ってみます。
Opus プラン($25/月)が強く推奨されます。Opusプランならインペイント
mC4データを文章量でアノテーションしました
はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!
実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア
社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった
注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください
https://ai.meta.com/resources/models-and-libraries/llama-downloads/
「社長、ただいま出張から戻りました!」
「・・・」
「お願いしていた稟議の件、どうなりましたで
社長(AI)に頼んで今度こそ商用利用可能な日本語マルチターン会話データセットを作ってもらった
前回、けっこう時間をかけて作ったにも関わらず、よくみるとQarasu14BはShareGPTを使っているので商用利用可能かどうかは微妙な結果に終わってしまった。性能は抜群に高いのだが・・・
ところが、最近でてきたTencentのllama2Pro8Bは、かなり高性能にも関わらずわずか8Bでしかもllama2ライセンスなので今度は文句なしに商用利用可能(ただ月間7億ユーザーまで/どんな大成功サイト