日本の官公庁にある「よくある質問」をデータセットにまとめました
LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。
省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得しているので、本データセットもCC-BY-4.0(国際)として利用できます。商用利用も可能です。著作権者は各省庁です。
ただ、自然言語処理なんてやったこともない素人が作ったデータセットなので、まだまだ改良の余地があるような気がします。よろしければぜひ、改良のためのアドバイスをいただけると嬉しいです!
正月休み、お時間のある方は、ぜひ試してみていただければ幸いです。
このデータセットについて
このデータは、日本の官公庁のWebサイトに掲載されている「よくある質問」を手作業で抽出し、インストラクション用のデータセットとしたものです。
日本の官公庁のWebサイトは多くが「政府標準利用規約(第2.0版)」に準拠しており、この規約はCC-BY-4.0(国際)と互換性があると記述されています。 参考 https://www.digital.go.jp/copyright-policy
したがって本データセットの著作権者はデータセットのcopyrightに記載された各官公庁であり、ライセンスもCC-BY-4.0(国際)です。
特徴
質問と回答の形式になっています。
国家公務員によるチェックを経ているので、誤字脱字がほぼありません。もしあったら、このデータセット製作者(松xR)のミスに起因するものです。御指摘いただければ修正するつもりです。
論旨も明快で、日本語として品質の高いデータセットであると考えています。
ソースとなるURLも添付しているため、リンク集としても活用出来ます
想定する利用法
大規模言語モデルのInstruction Tuning
RAGの実装テストのためのデータベース
免責事項
本データセットは現状のままで提供され、データセット製作者はその利用における一切の責任を負いません。
手作業でデータをまとめたため、作業ミスによるデータの間違いがある可能性があります。御指摘いただければ修正する意志はありますが、修正を保証するものではありません。
現時点で存在する課題
官公庁の文書は多くが、箇条書き、表組み、図示を活用して作成されています。これらを機械的にプレーンテキストに変換しているため、プレーンテキストだけを見ても意味が通りにくいことがあります。
特にPDFから変換したものは上記の問題を多く含むため、ソースURLの末尾がpdfになっているものは利用しない、などの方法が考えられます
官公庁の文書は日本政府の立場を表明するものであるため、主張の強い文章も含まれます。特定の立場・思想が強く反映されたチューニングを行いたくない場合には、適さない可能性があります。
人の目でフィルタリングするのも有効です。
気象庁のデータは事実説明にとどまるものが多く、まずは気象庁のデータだけを利用することも一つの方法です。
この記事が気に入ったらサポートをしてみませんか?