タイトル通りです!
りんなちゃんに江戸川乱歩の少年探偵団シリーズの完全新作「十字館の幽霊」(適当)の続きを書いてもらう
青空文庫にある江戸川乱歩先生の少年探偵団シリーズから50万字ほどテキストを拝借し、そちらを以下の条件でファインチューニングさせてみました。
(ほんとはもっとテキストがあるのですが、時間がかかる為50万字抽出しました)
python ./transformers/examples/pytorch/language-modeling/run_clm.py ^
--model_name_or_path=./models/rinna/japanese-gpt-1b ^
--train_file=./train_data/edogawaranpo.txt ^
--validation_file=./train_data/edogawaranpo.txt ^
--do_train ^
--do_eval ^
--num_train_epochs=3 ^
--save_steps=5000 ^
--save_total_limit=3 ^
--per_device_train_batch_size=1 ^
--per_device_eval_batch_size=1 ^
--block_size 512 ^
--output_dir=./output/edogawaranpo ^
--overwrite_output_dir ^
--use_fast_tokenizer=False
だいたい一晩位でファインチューニングは終了。
それっぽい書き出しを作成してりんなちゃん(japanese-gpt-1b)にはこの書き出しの続きを考えてもらいます。
-------------------------------------------------------------
「私は幽霊だ。それが原因で今日まで苦しんでいる。あの日、あの選択をしなければ……」
私は十字館の主、世間からは既に死んだと思われている作家だった。
唯一話しかけてくれるのは、小説家志望の若い青年だった。
彼は私に師事を受ける代わりに身の回りを世話してくれた。
彼は魅力と才能に溢れていたが、自分の過去や家族については一切話さない奇妙な青年でもあった。
不思議なことに彼が十字館に住み込んでから間もなく、「十字館に幽霊が出る」という噂が町中に広まった。
そしてある日、殺人事件が起きた……。
事件現場に駆けつけた名探偵・明智小五郎とその助手・小林少年だった。
小林少年は私のファンでもあった。
「先生!大丈夫ですか?」 小林少年は心配そうに私と青年を見つめてくれた。 しかし、その目には疑惑も浮かんでいた。
「先生……この事件と幽霊の噂、そして先生が隠している秘密は何か関係がありますか?」
私は言葉を失った。彼は気づいてしまっただろうか?恐ろしい真実を……。
-------------------------------------------------------------
まず何もチューニングしていないりんなちゃんの返答です。
とりあえず50トークン×10ほど、出力させてみました。
うーん!いくつか良さそうなのがありますが打率としてはぐぬぬ……です。
では次に江戸川乱歩の小説でファインチューニング済みのモデルで同じ条件で続きを書いてもらいましょう。
おおおお!!!明らかに少年探偵団シリーズを学習しています!
文章として成立する打率も上がっています。読者諸君好きすぎだろ感はありますが。
ちなみに各種AIに続きを書かせると以下のような感じになりました。
うーん、多種多様で面白いですね!しかし「江戸川乱歩風」という意味ではファインチューニング済みjapanese-gpt-1bはかなりいい線を言っているのではないでしょうか?
FlexGenもでてきたことですし、ローカルで動くLLM、なかなか面白い領域に入ってきたかもしれません。