日本語大規模言語モデルの学習でよく使われているデータセットmC4を確認してみる
主要な日本語大規模言語モデルの学習でよく使われているデータセットmc4。
これをダウンロードして確認してみました。
mC4とはデータセットを読み込むソースコード読み込みのコア部分は次の1行だけ。
dataset = load_dataset('mc4', 'ja', cache_dir="/Volumes/DataSets/DataSets", split='train')
ダウンロード時間約9時間
データ容量2024-02-18にダウンロードしたデータです。
do