Data

はじめに最近は大規模言語モデルを作っています｡

データソースとして､ネット上のhtmlデータを収集したCommonCrawlは有名です｡

しかし､htmlから抜き出したテキストは､あまり品質が高くないケースが多いです｡
また､html版は多くの方が取り組んでおり､意外と日本語のテキストは枯渇気味です｡

そこで今回は､CommonCrawlのPDF版を解析してみます｡

コード一式(3/21

もっとみる

沓石耕哉（クツイシ）

2024年3月7日 20:34

チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①

概要　ニンジャスレイヤーTRPG、立ち絵を素材として配布している方はいるけれど、マップ探索時のコマ画像とかそんなに見ないな……まあ立ち絵を縮小表示すればいいだけなんだけど……ところでこないだウキヨエに投稿したチミッチャイやつらをカラーにして遊んでいるんだけどもなんかすごくゲーム素材とかに使えそうな雰囲気だな……。

配布してみるか！！

一読して了承したうえで使って欲しい事柄・この記事や記事中の画

もっとみる

npaka

2024年3月2日 11:54

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画（会話テキストデータセット配布）今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

Kan Hatakeyama

2024年3月4日 10:14

誰でも自由に使える日本語の指示データセットを作っています

要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)

ーーーー

以下､データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ

もっとみる

フォローしませんか？

CommonCrawl PDFを漁る練習

チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

誰でも自由に使える日本語の指示データセットを作っています

Data

フォローしませんか？

2024年3月の記事一覧

CommonCrawl PDFを漁る練習

チイサイ16×16dot風バイオのニンジャをTRPGコマ向け素材として配布する記事①

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

誰でも自由に使える日本語の指示データセットを作っています

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す