マガジンのカバー画像

Data

55
運営しているクリエイター

2024年3月の記事一覧

CommonCrawl PDFを漁る練習


はじめに最近は大規模言語モデルを作っています。

データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。

しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。

そこで今回は、CommonCrawlのPDF版を解析してみます。

コード一式(3/21

もっとみる
チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①

チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①

概要 ニンジャスレイヤーTRPG、立ち絵を素材として配布している方はいるけれど、マップ探索時のコマ画像とかそんなに見ないな……まあ立ち絵を縮小表示すればいいだけなんだけど……ところでこないだウキヨエに投稿したチミッチャイやつらをカラーにして遊んでいるんだけどもなんかすごくゲーム素材とかに使えそうな雰囲気だな……。

配布してみるか!!

一読して了承したうえで使って欲しい事柄・この記事や記事中の画

もっとみる
Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

誰でも自由に使える日本語の指示データセットを作っています

要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)

ーーーー

以下、データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ

もっとみる