新聞の一面コラムの一部を人工知能（AI）に書いてもらってみた話

2023年1月29日 12:03

１．このnoteを書く理由

　新聞の一面コラムといえば朝日新聞さんの「天声人語」、読売新聞さんの「編集手帳」、毎日新聞さんの「余禄」等があります。静岡新聞は「大自在」。１月２５日付朝刊のコラムでAIを使いました。生成条件などの詳細を補足すべきと思うのですが、コラム内では十分に説明できませんでした。

　条件を付記しないのは不親切だと引っかかっていたので、２年前にアカウントだけ作っていたnoteで補足します。AIに関心はあるけどまだよく分からないという方（特に新聞記者の方々）の、微力ながら参考にもなればとも思います。詳しい方には間違いや誤解をご指摘いただければ幸いです。

　これを機に、AIや機械学習、３Dモデリング、点群データ、QGISなど、次世代ジャーナリズムに使えそうな技術の備忘録もこれから書いていきたいと思っています。※この記事のアイキャッチ画像もAIで生成しました。

２．使用したモデル

　日本語モデルで有名なのは、rinna社でしょう。機械学習のツールを集めたHugging Faceで検索すると世代や軽重が違うモデルが複数出てきます。今回はrinna/japanese-gpt2-mediumをGoogle Colaboratoryで使用しました。

　いま世間を騒がせているChatGPTは~~GPT-3~~GPT-3.5です。rinna/japanese-gpt2-mediumはGPT-2、つまりGPT-3の一つ前の世代。mediumとは、少し力は抑え気味だけども軽量で気軽に使えるようにしてありますよということです。この画期的な日本語GPT2は2021年4月に公開されました。

rinna/japanese-gpt-1bというモデルも試しました。~~これはさらに一つ前のGPT-1がベースですが、mediumと付いていません。いわば「本気を出したGPT-1」~~。※ご覧いただいた方からご指摘があり、rinna/japanese-gpt-1bはGPT-1がベースではありませんでしたので修正しました。完全に早とちりで申し訳ありませんでした。gpt-1bの説明はこちらのプレスリリースにあります。モデルの詳細は記載がありませんが、少なくともGPT-1がベースではなく、gpt-1bの名称は13億パラメータに由来すると考えられます。ご指摘くださった方いわく、明言はされていないものの、GPT3の論文は参考にしていると考えられるとのことです。従って~~「本気を出したGPT-1」~~という表現を「2022年1月公開のGPT-1b」と修正させていただきます。ちなみにhttps://rinna/japanese-gpt2のプレスリリースはこちらで、GPT-2モデルと明記されています。公開日は21年4月ですので、GPT-1bはその9ケ月ほど後に公開されたより新しいモデルとなります。

コラムを書いてもらうにあたって、この「2022年1月公開のGPT-1b」と「力を抑え気味のGPT-2」のどちらを使うかの見極めが必要でした。両モデルを試行し、rinna/japanese-gpt2-mediumを選びました。

３．過去のコラム文体の学習と生成例

　ChatGPTと対話して書く選択肢もありましたが、今回は特定の文体を再現する必要があり、趣旨から逸れます（有名なコラムなら指定すれば書いてくれそうですが）。今回は過去５年分の「大自在」を学習してもらいました。学習前後の生成例を示します。どちらも「おばあさんは川へ洗濯に行った」という最初の文だけ与えます。

学習前の生成例（rinna/japanese-gpt2-medium）

おばあさんは川へ洗濯に行った。僕はおばあさんと二人きりになって話していた。いつも自分の話を笑うおばあさんの様子が可笑しくて、僕は時々笑わせてみたりして、おばあさんは僕の肩をぽんぽん叩きながらおばあさんの話をしている。なんか素敵な朝。

rinna/japanese-gpt2-medium（「大自在」学習前）が生成

学習後の生成例１（rinna/japanese-gpt2-medium）

おばあさんは川へ洗濯に行ったが、あえなく流された。橋を渡ったところに、何人もの人が作った田植えをした田んぼがあった。稲の甘露[かんろ]を待ちながら、無農薬、無肥料で米作りを実践してきたおばあさんが、田植えを終えた際に亡くなったのだそうだ。72歳。

rinna/japanese-gpt2-medium（「大自在」学習後）が生成

学習後の生成例２（rinna/japanese-gpt2-medium）

おばあさんは川へ洗濯に行った。水洗いをしたとき、袋から水があふれ出た。「おばあちゃん、濡れたわ。はだしで洗濯しちゃいけないのよ。すぐに拭くことが大事。それを怠るとどうなるの」。洗濯にかこつけて、おばあさんの怒りが爆発した(「おばあちゃんは戦争を知らない」石田衣良著)。

rinna/japanese-gpt2-medium（「大自在」学習後）が生成

　学習時間は約３０分。雰囲気は出ましたが、読んでお分かりの通り、事実関係がでたらめなんです（涙）よかった！亡くなったおばあちゃんはいなかったんだ、やった、なんですが、新聞にでたらめを書くわけにはいきません。石田衣良さんの実名も出てきました。もちろんAIが勝手に名前を使わせてもらっただけで、「おばあちゃんは戦争を知らない」なんて本を出されているわけでも毛頭ありません。架空の小説を作るなら良きパートナーのAIですが、新聞での活用はこのあたりがまず課題となりそうです。

　今回は３００例を生成し、その中から事実関係に誤りがない文章を選ぶ工程が必要でした。固有名詞が入っていたらダメ、事実に誤りがあればダメ、ポリコレ的にアウトならダメ、など厳しい条件でふるい分けしました。

　「2022年1月公開のGPT-1b」の文章生成例もご紹介します。指定した冒頭の一文は「静岡県といえば」です。ちなみに、rinna/japanese-gpt-1bの学習には通常のGoogle Colabではメモリが足りず、有料のPro版を使うことになります。今回かかった一連のＧＰＵ使用コストは３００円程度かと思います。

学習前の生成例（rinna/japanese-gpt-1b）

静岡県といえばお茶を思い浮かべる方が多いですよね。静岡県は日本茶栽培の80%を占めており、良質な緑茶が生産されています。年間を通して温暖な気候と、全国有数のお茶の名産地であることからも、人気があります。様々な製茶方法、種類の煎茶やほうじ茶、抹茶など、静岡県は国内に知られた日本茶の聖地なのです。

rinna/japanese-gpt-1b（「大自在」学習前）が生成

学習後の生成例１（rinna/japanese-gpt-1b）

静岡県といえば、ミカンを頭に挙げる人も多いのでは。言わずと知れた「静岡茶」の名産地だ。近年は紅茶や緑茶ドリンクの出荷量で全国上位に立つ。県内には茶業試験場が3カ所あるほか、各産地で茶の新たな価値や楽しみ方を追求する取り組みも盛んという。茶畑の多面体などを見ると、やはり静岡は「お茶の都」だ。

rinna/japanese-gpt-1b（「大自在」学習後）が生成

学習後の生成例２（rinna/japanese-gpt-1b）

静岡県といえば、今季の豊橋スタジアムに7万3千人の観客を集めるなど人気上昇中のサッカーチーム「ジュビロ磐田」の本拠地。例年以上に注目を集めるであろう「サポーターズ総選挙」の昨季1位投票者の中川さん(38)=焼津市=は、首長選への立候補を表明した。ファンを巻き込みながら巻き込まれていく「ジュビロ劇場」が楽しみだ。

rinna/japanese-gpt-1b（「大自在」学習後）が生成

４．結び

　コーディングなどの詳細も書きたいのですが、noteは長くても３０００字に収めるのがいいそうなので、次回以降のエントリにします。「大自在」は１９字詰め×３３行と厳格。人生に制限時間があるから一生懸命生きるように、新聞も紙幅が限られているからこそ皆で創意工夫して、より良い、より濃縮した紙面を作ろうとしています。以前、「縦読み」や「全てが会話」みたいな大自在に挑戦したこともあります。AIなどの技術の活用もそうした創意工夫の一つとして、今後も紙面づくりに取り入れていきたいと思います。

この記事が参加している募集

#AIとやってみた

32,955件

この記事が気に入ったらサポートをしてみませんか？