新聞の一面コラムの一部を人工知能(AI)に書いてもらってみた話
1.このnoteを書く理由
新聞の一面コラムといえば朝日新聞さんの「天声人語」、読売新聞さんの「編集手帳」、毎日新聞さんの「余禄」等があります。静岡新聞は「大自在」。1月25日付朝刊のコラムでAIを使いました。生成条件などの詳細を補足すべきと思うのですが、コラム内では十分に説明できませんでした。
条件を付記しないのは不親切だと引っかかっていたので、2年前にアカウントだけ作っていたnoteで補足します。AIに関心はあるけどまだよく分からないという方(特に新聞記者の方々)の、微力ながら参考にもなればとも思います。詳しい方には間違いや誤解をご指摘いただければ幸いです。
これを機に、AIや機械学習、3Dモデリング、点群データ、QGISなど、次世代ジャーナリズムに使えそうな技術の備忘録もこれから書いていきたいと思っています。※この記事のアイキャッチ画像もAIで生成しました。
2.使用したモデル
日本語モデルで有名なのは、rinna社でしょう。機械学習のツールを集めたHugging Faceで検索すると世代や軽重が違うモデルが複数出てきます。今回はrinna/japanese-gpt2-mediumをGoogle Colaboratoryで使用しました。
いま世間を騒がせているChatGPTはGPT-3GPT-3.5です。rinna/japanese-gpt2-mediumはGPT-2、つまりGPT-3の一つ前の世代。mediumとは、少し力は抑え気味だけども軽量で気軽に使えるようにしてありますよということです。この画期的な日本語GPT2は2021年4月に公開されました。
rinna/japanese-gpt-1bというモデルも試しました。これはさらに一つ前のGPT-1がベースですが、mediumと付いていません。いわば「本気を出したGPT-1」。※ご覧いただいた方からご指摘があり、rinna/japanese-gpt-1bはGPT-1がベースではありませんでしたので修正しました。完全に早とちりで申し訳ありませんでした。gpt-1bの説明はこちらのプレスリリースにあります。モデルの詳細は記載がありませんが、少なくともGPT-1がベースではなく、gpt-1bの名称は13億パラメータに由来すると考えられます。ご指摘くださった方いわく、明言はされていないものの、GPT3の論文は参考にしていると考えられるとのことです。従って「本気を出したGPT-1」という表現を「2022年1月公開のGPT-1b」と修正させていただきます。ちなみにhttps://rinna/japanese-gpt2のプレスリリースはこちらで、GPT-2モデルと明記されています。公開日は21年4月ですので、GPT-1bはその9ケ月ほど後に公開されたより新しいモデルとなります。
コラムを書いてもらうにあたって、この「2022年1月公開のGPT-1b」と「力を抑え気味のGPT-2」のどちらを使うかの見極めが必要でした。両モデルを試行し、rinna/japanese-gpt2-mediumを選びました。
3.過去のコラム文体の学習と生成例
ChatGPTと対話して書く選択肢もありましたが、今回は特定の文体を再現する必要があり、趣旨から逸れます(有名なコラムなら指定すれば書いてくれそうですが)。今回は過去5年分の「大自在」を学習してもらいました。学習前後の生成例を示します。どちらも「おばあさんは川へ洗濯に行った」という最初の文だけ与えます。
学習前の生成例(rinna/japanese-gpt2-medium)
学習後の生成例1(rinna/japanese-gpt2-medium)
学習後の生成例2(rinna/japanese-gpt2-medium)
学習時間は約30分。雰囲気は出ましたが、読んでお分かりの通り、事実関係がでたらめなんです(涙)よかった!亡くなったおばあちゃんはいなかったんだ、やった、なんですが、新聞にでたらめを書くわけにはいきません。石田衣良さんの実名も出てきました。もちろんAIが勝手に名前を使わせてもらっただけで、「おばあちゃんは戦争を知らない」なんて本を出されているわけでも毛頭ありません。架空の小説を作るなら良きパートナーのAIですが、新聞での活用はこのあたりがまず課題となりそうです。
今回は300例を生成し、その中から事実関係に誤りがない文章を選ぶ工程が必要でした。固有名詞が入っていたらダメ、事実に誤りがあればダメ、ポリコレ的にアウトならダメ、など厳しい条件でふるい分けしました。
「2022年1月公開のGPT-1b」の文章生成例もご紹介します。指定した冒頭の一文は「静岡県といえば」です。ちなみに、rinna/japanese-gpt-1bの学習には通常のGoogle Colabではメモリが足りず、有料のPro版を使うことになります。今回かかった一連のGPU使用コストは300円程度かと思います。
学習前の生成例(rinna/japanese-gpt-1b)
学習後の生成例1(rinna/japanese-gpt-1b)
学習後の生成例2(rinna/japanese-gpt-1b)
4.結び
コーディングなどの詳細も書きたいのですが、noteは長くても3000字に収めるのがいいそうなので、次回以降のエントリにします。「大自在」は19字詰め×33行と厳格。人生に制限時間があるから一生懸命生きるように、新聞も紙幅が限られているからこそ皆で創意工夫して、より良い、より濃縮した紙面を作ろうとしています。以前、「縦読み」や「全てが会話」みたいな大自在に挑戦したこともあります。AIなどの技術の活用もそうした創意工夫の一つとして、今後も紙面づくりに取り入れていきたいと思います。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?