- 運営しているクリエイター
2024年3月の記事一覧
CommonCrawl PDFを漁る練習
はじめに最近は大規模言語モデルを作っています。
データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。
しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。
そこで今回は、CommonCrawlのPDF版を解析してみます。
コード一式(3/21
チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①
概要 ニンジャスレイヤーTRPG、立ち絵を素材として配布している方はいるけれど、マップ探索時のコマ画像とかそんなに見ないな……まあ立ち絵を縮小表示すればいいだけなんだけど……ところでこないだウキヨエに投稿したチミッチャイやつらをカラーにして遊んでいるんだけどもなんかすごくゲーム素材とかに使えそうな雰囲気だな……。
配布してみるか!!
一読して了承したうえで使って欲しい事柄・この記事や記事中の画
Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す
「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。
1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。
2. デ
誰でも自由に使える日本語の指示データセットを作っています
要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)
ーーーー
以下、データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ