見出し画像

日本の官公庁にある「よくある質問」をデータセットにまとめました

LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。

省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得しているので、本データセットもCC-BY-4.0(国際)として利用できます。商用利用も可能です。著作権者は各省庁です。

ただ、自然言語処理なんてやったこともない素人が作ったデータセットなので、まだまだ改良の余地があるような気がします。よろしければぜひ、改良のためのアドバイスをいただけると嬉しいです!

正月休み、お時間のある方は、ぜひ試してみていただければ幸いです。

このデータセットについて

このデータは、日本の官公庁のWebサイトに掲載されている「よくある質問」を手作業で抽出し、インストラクション用のデータセットとしたものです。

日本の官公庁のWebサイトは多くが「政府標準利用規約(第2.0版)」に準拠しており、この規約はCC-BY-4.0(国際)と互換性があると記述されています。 参考 https://www.digital.go.jp/copyright-policy

したがって本データセットの著作権者はデータセットのcopyrightに記載された各官公庁であり、ライセンスもCC-BY-4.0(国際)です。

特徴

  • 質問と回答の形式になっています。

  • 国家公務員によるチェックを経ているので、誤字脱字がほぼありません。もしあったら、このデータセット製作者(松xR)のミスに起因するものです。御指摘いただければ修正するつもりです。

  • 論旨も明快で、日本語として品質の高いデータセットであると考えています。

  • ソースとなるURLも添付しているため、リンク集としても活用出来ます

想定する利用法

  • 大規模言語モデルのInstruction Tuning

  • RAGの実装テストのためのデータベース

免責事項

  • 本データセットは現状のままで提供され、データセット製作者はその利用における一切の責任を負いません。

  • 手作業でデータをまとめたため、作業ミスによるデータの間違いがある可能性があります。御指摘いただければ修正する意志はありますが、修正を保証するものではありません。

現時点で存在する課題

  • 官公庁の文書は多くが、箇条書き、表組み、図示を活用して作成されています。これらを機械的にプレーンテキストに変換しているため、プレーンテキストだけを見ても意味が通りにくいことがあります。

    • 特にPDFから変換したものは上記の問題を多く含むため、ソースURLの末尾がpdfになっているものは利用しない、などの方法が考えられます

  • 官公庁の文書は日本政府の立場を表明するものであるため、主張の強い文章も含まれます。特定の立場・思想が強く反映されたチューニングを行いたくない場合には、適さない可能性があります。

    • 人の目でフィルタリングするのも有効です。

    • 気象庁のデータは事実説明にとどまるものが多く、まずは気象庁のデータだけを利用することも一つの方法です。

この記事が気に入ったらサポートをしてみませんか?