マガジンのカバー画像

Data

55
運営しているクリエイター

#AI

llm-jp-evalの中身を見てみる

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論(Natural Language Inference, NLI)
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答(Question Answering, QA)
- JEMHopQA, NIILC

読解力(Reading Comprehension, RC)
- JSQuAD

多肢選択問題(Mul

もっとみる
JAT (Jack of All Trades) の概要

JAT (Jack of All Trades) の概要

以下の記事が面白かったので、簡単にまとめました。

1. JAT (Jack of All Trades)「JAT」 (Jack of All Trades) は、ジェネラリストエージェントの推進を目的とするプロジェクトです。このプロジェクトは、視覚と言語 (vision-and-language) のタスクと意思決定 (decision-making) のタスクの両方を実行できるTransfor

もっとみる
Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM

会話するAIキャラクターを作ろうとすると、返答を生成する待ち時間が気になります。気になるはずです。GPT-4はサーバーが重いときはおよそ会話として成立しないほど待つこともあります。

そこで、軽量なローカルLLMにとりあえず相づちだけ打たせて、その間に、性能の良いLLMにちゃんとした返答を生成させれば良いのでは、なんてことを考えてみました。

データセットとして、以下のRosebleuデータセット

もっとみる
LLMの事前学習で利用されるmC4のデータを確認

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。

mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる
COCOデータセットを可視化してみた

COCOデータセットを可視化してみた

はじめに初めまして。
ギリアでインターン生としてデータ開発を行っている鍛原と申します。普段から様々なデータの可視化や分析を行っています。

本稿では、画像認識で広く用いられているCOCOデータセットとはどんなものか、統計情報とともに紹介します。
また、COCOデータセットを正しく使えるように、使い方やデータ構造、画像の特徴などを出来るだけ詳細にまとめました。
ぜひ、最後までお付き合いください。

もっとみる
日本語オープンコンテンツデータセット

日本語オープンコンテンツデータセット

キャラクター会話

お嬢様会話

などの日本語データを無償で公開してくれている神がかったプロジェクト。NPCとの会話AIなどに活用できそう。

下記は、本家サイトからの引用。

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24

Pick up日本人プロ声優による高音質(スタジオ録音)でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル(ほぼ全て44.1kHz、いくつかは48kHz)。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech

もっとみる
ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

そろそろ年度末。
みなさんいかがお過ごしでしょうか。
年度末といえばABCIもそろそろ混み始めるお年頃。
ABCIのA100は960基しかないので奪い合いが続いています。

一方でMetaは年内に34万基のH100を導入するそうですが・・・

まさにB-29と竹槍。

とはいえ、前世代のV100ならまだ空きがあるので残ったポイントを今のうちに使ってしまおうかなと思い、Orion14B-ChatとW

もっとみる
mC4データを文章量でアノテーションしました

mC4データを文章量でアノテーションしました

はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる
社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください

https://ai.meta.com/resources/models-and-libraries/llama-downloads/

「社長、ただいま出張から戻りました!」

「・・・」

「お願いしていた稟議の件、どうなりましたで

もっとみる
日本語Wikipediaのマルチターン会話データセット10万個を作りました

日本語Wikipediaのマルチターン会話データセット10万個を作りました

GPT-3.5-Turboを使って、約一ヶ月かけて日本語のWikipediaの項目をもとに先生と生徒が会話するマルチターンデータセットを作りました。

GPT-3.5を使っているため取り扱いには注意が必要ですが、とりあえず「日本語の高性能LLM」を作ってみる実験はできるはずです。

GPT-4でもやってみようかなと思っていますが、GPT-3.5でも一ヶ月でかなりの出費があり、GPT-4で同じ分量の

もっとみる
ゲームシナリオから作成した、学習用データセット公開プロジェクト

ゲームシナリオから作成した、学習用データセット公開プロジェクト

日本語オープンコンテンツデータセット プロジェクトというプロジェクトを始めました。

https://open_contents_datasets.gitlab.io/project_home/

LLM(大規模言語モデル)の学習をする上で、日本語のデータセットがまだまだ多くありません。特に、プロが作ったエンターテイメント作品のシナリオを、個人開発者や研究者が利用出来る場面は限られています。

もっとみる