databricks-dolly-15kのデータセットをfuguMTで翻訳しました。が、すでにもっといい翻訳をされた物がありました…
databricks社による、人の手によるCC BY SA 3.0 LICENSEで公開されているDollyというデータセットがあります。
こちらで公開されているデータセットを、英日翻訳エンジンfuguMTを使ってローカルで翻訳したものです。
↑ fuguMT作者のstakaさんのブログ
出来上がってみたら、すでにもっといい翻訳をされたがクニえもん.inc🤗さん(@kun1em0n)によって公開されていました。ですので、私が作ったデータセットは使わずに以下のものを使うことをおすすめします。
Dolly 2.0の作成で使用されているデータ databricks-dolly-15k.jsonlをDeepLで日本語に翻訳したデータセットを作りました!(Alpaca形式になってます) 日本語モデルの作成に是非ご活用下さい。https://t.co/BLTDd6660I
— クニえもん.inc🤗 (@kun1em0n) April 13, 2023
公開しないほうがいいかなとも思った既に意味が無いデータセットではありますが、翻訳プログラムの練習のために作ったものではあるので、翻訳のソースと一緒にGithubで公開しておきます。fuguMTや、transformersのpipelineで翻訳をするときの参考になれば幸いです。
ちなみに、約15000個のデータですが、翻訳にはM1 macbook Airにて20時間以上かかりました。ローカル翻訳はそれなりに時間がかかりそうです。