
モラズbot V4 製作の途中経過
これは人工芝アドベントカレンダー2022 11日前の記事です。10分で何かをポストします。
モラズbot とは
福岡の妙齢の女モラズこと、年齢性別不詳の謎のツイッタラー・モラズのbot のことである。
ここ数年くらいライフワークとしてモラズさんの bot を作ってアップデートを年1回くらいずつ地味に加えていっている。去年までの経緯はモラズbot V3 リリースの記事を参考のほど。
モラズbot V4 製作の途中経過
2022年も年の瀬が近づいてきてモラズbot にアップデートせずに年を越すことになるという焦りから、アップデートを加えてモラズbot を新しく作り直している。
以下これまでの作業を振り返って紹介する。
モラズbot V4 アップデート①学習データクレンジング
モラズbot V3 は学習に使っていた元データの中にモラズさんの引用していた動画タイトルやニュース記事タイトルなどがモラズさんのオリジナルツイートに混ざっていたことが原因で、モラズさんオリジナルのツイートではない内容のツイートをすることがあった(イケてない点)。
【マイリスト】【初音ミク】鏡の響きが怖すぎた【鏡夜のオーケストラ版】 (ミュート) #niconews
— モラズBo†möräzümöräzü† (@morazu2_bot) October 27, 2022
【A】暇人\(^o^)/速報 : 【画像あり】美人すぎる女の画像ください …
— モラズBo†möräzümöräzü† (@morazu2_bot) October 10, 2022
そのため、今回モラズbot V4 では学習に使った元データ(モラズさんの過去ツイート7万件)を一つ一つ見直し、上記のような動画やブログ記事のタイトルおよびモラズさんのオリジナルツイート以外のツイートを徹底して除くようにした。
ただ、最初モラズさんの過去ツイート7万件すべてを人の目と手でチェックするという頭の悪いアプローチをとったため、1人の人間として辛い作業となった。
モラズの過去ツイ7万件と向き合ってる…(辛い
— あらB🌘 (@ark_B) November 1, 2022
幸いにもピジェさんが手伝ってくれたおかげでモラズさんの過去7万件のツイートのデータクレンジング作業を無事終えることができた(忍者?に感謝)。
手伝いましょうか?
— ピジェ (@xiPJ) November 1, 2022
モラズbot V4 モデル作成
上記の学習データを使ってモラズbot V4 のモデル作成をした。今回 rinna の日本語GPT-2モデルをファインチューニングする方法を採用した。
家のGPUマシンで5-6時間くらい学習させモラズbot V4 モデルを作成できた。
"おはよう" と入力した際のモラズbotの返事(お試し pic.twitter.com/Qs5cGp8FLW
— あらB🌘 (@ark_B) November 3, 2022
ラズパイ4上でモラズbot を動かす
元々モラズbot V3 は電気代節約のためラズパイ4上で動かしていた(月60円くらい)。モラズbot V4 をラズパイ4上で動かすため、上記モデル作成に利用した深層学習フレームワークPyTorch をラズパイ4に4-5時間かけてビルド&インストールし、上記モラズbot V4 モデルが動くことを確認した。

上記のようにサラッと書くと何も問題なく動いたようにも見えるが、実際は全然上手くいかなかった。
寝て起きたら94%でビルドエラーなってた(辛
— あらB🌘 (@ark_B) November 5, 2022
具体的にはラズパイ4に PyTorch の最新バージョンをビルド&インストールする部分が上手くいかず、そこで足踏みしてしまって1-2週間の時間が溶けた(汗)。
最終的にはラズパイの OS のバージョンが古いことが原因ではないかと思い立ち、エイヤッと OS を最新バージョンに入れ直したところ上手く PyTorch もビルド&インストールすることができた。
おわり
現在モラズbot V4 リリースに向けて20日ほど作業を進めたため、その途中経過を紹介してみた。
そこまでトントン拍子に作業を進められているわけではない。仕事の傍らモラズbot V4 のアップデート作業にそこまで熱中できているわけでもない。しかし、トロ火で煮物を作っているような地味な進捗を重ねているという実感はある。
できれば2022年中にモラズbot V4 をリリースしたい。日の暮れぬうち。