見出し画像

新聞社の管理職がChatGPTやデータサイエンスを学ぶ意義とは(その2)~KHCoderでテキストマイニング

ChatGPTなどAIの話題が続いていますが、機械学習を活用した他の技術も決して色あせてはいません。むしろ一層活躍の場を広げていくことが期待されます。今回はテキストマイニングのための優れた老舗フリーウェア「KH Coder(KHコーダー)」をご紹介します。定例会見や一般質問のテキスト分析をはじめ、どの記者がどんな記事を書いているかの分析もでき、さまざまな業種で活用できます。

KHCoderとは

KHCoderは立命館大の樋口耕一教授らによるフリーウェアで、誰でも無料で使えます。ここでは個人的な活用事例を簡単に紹介します。原理や使用方法などはホームページに丁寧な説明があるので、詳しくはそちらをお読みください。興味を持たれた方はじっくり挑戦されるとよいかと思います。

読者の投稿で「共起ネットワーク」

「ワードクラウド」はよく見るようになってきました。自分はKHCoderで描ける「共起ネットワーク」のほうが情報量が多い気がするので好きです。これまで紙面にも使ってきました。まずは見てもらうのが早いと思いますので、実際に紙面に使用した共起ネットワークをご紹介します。「子どもに子ども部屋が必要か」という趣旨のテーマについて、読者の皆さんが寄せてくれたご意見をKHCoderで分析し、共起ネットワークを描きました。

「こども部屋は必要か」という趣旨のテーマで寄せられた読者の皆さんのご意見をHKcoderで分析し、描いた「共起ネットワーク」と記事の一部

最初に掲載したのは数年前ですが、樋口教授にご連絡し、ご助言いただいた上で掲載しました。樋口教授から「こうして意見を分析してもらうと、読者の皆さんも嬉しいのでは」と言っていただき、感激したのを覚えています。

県議会一般質問で「共起ネットワーク」

共起ネットワークは簡単に言うと、言葉と言葉の関係性の強さを視覚化するものです。間接的に人の考え方の類似性も調べることができます。

次の図は静岡県議会の令和4年12月定例会の一般質問をKHCoderに放り込んで作った共起ネットワークです。発言議員名を外部変数として指定することで、議員の"立ち位置"が浮き彫りになってきます。なお、これは今回のエントリー用の簡易的な分析です。デモンストレーションと考えてください。

静岡県議会の令和4年12月定例会の一般質問の共起ネットワーク。外部変数に議員名(所属)を指定したもの。

県議会一般質問を「対応分析」

KHCoderを使ってできる「対応分析」も手軽で利用価値が高いです。同じデータで「対応分析」を試した結果が次の図です。
第一象限(右上)は旧民主系の「ふじのくに県民クラブ」と「共産党」、第二象限(左上)は「ふじのくに県民クラブ」と自民系の「自民改革会議」、第三象限(左下)は全てが「自民改革会議」、第四象限(右下)も全て「自民改革会議」(一人無所属だが自民系)が分布していることが分かります。

静岡県議会の令和4年12月定例会の一般質問の対応分析。外部変数に議員名(所属)を指定したもの。原点付近を拡大してある。

これだけでみると、縦軸はリベラル⇔保守、横軸はリニア中央新幹線のような課題⇔台風15号対応⇔観光や交通、医療などの話題、と解釈できるという仮説が一つ立てられます。本来は非自民系と考えられる図の上方に自民党の議員2人が分布していますが、この2人は台風15号対応に関する超党派的な課題について当局をただしたのではないか、と仮説が立てられます。

対応分析は、簡単に言うと、言葉同士の関係性が最も情報量を持つような角度を機械学習で探し出して2軸を引く分析方法です。縦軸と横軸にどんな意味があるかは人間が解釈して意味付けする必要があります。

KHCoderでデータドリブンな判断ができる

KHCoderを新聞社で内部的に活用することももちろんできます。記事データベースを使って記事とそれを書いた記者名を検索し、KHCoderに放り込むことで、それぞれの記者がどんな記事を書いているかの傾向が分かります。弊社の場合、社会部の全記者が1年間でどんな記事を書いたかを共起ネットワークや対応分析にかけたところ、県警や防災、医療など複数の明確なクラスタ(塊)が浮かび上がり、それぞれ何人くらい記者が必要か、などを上司に定量的に説明することが可能になりました。根拠が図示できると、人事異動や記者配置などに役立てることができます。文章や文字という一見定性的なデータですが、いわゆる「データドリブンな判断」ができるようになるわけです。新聞社でなくても、社員の書く日報やブログなどを分析するといろいろな知見が得られるかと思います。

また、対応分析では時系列的な情報も外部変数として盛り込めます。時系列をみることで、一人の記者が1年間、単調なマンネリ仕事をしていたか(つまり同じような言葉ばかり使っている)、それとも激動の毎日を送っていたか(同じような言葉を使っていない)などをうかがい知ることができます。

県知事の定例会見を「対応分析」

また、出力はjpgやpngだけでなく、ベクターデータのepsやemf形式にも対応しているのが、KHcoderがかゆいところに手が届く理由の一つです。次に川勝平太静岡県知事の過去6カ月の定例会見のリニア中央新幹線部分の対応分析の図を示します。先ほどの県議会よりも語の取捨選択を丁寧にし、表記ゆれもプラグインである程度修正してあります。emf形式で出力し、Adobe Illustratorで加工しました。デザイン的にもなかなか見やすくなったのではないかと思います。

川勝平太静岡県知事の定例会見のリニア中央新幹線関連部分を6か月分、対応分析し、出力したemfファイルをアドビ・イラストレーターで加工したもの

時系列的な情報(緑色)を加えることで、リニア中央新幹線をめぐる論点の移り変わりが見て取れると思います。解釈や活用の仕方は人それぞれかですので詳しく触れませんが、昨年までの全体像や抽象論から2月や3月になってボーリングや変電施設、地元協議会などのより地域的、具体論に移ってきているようにも見えます。

ChatGPTが全盛ですが、KHcoderこそ骨太で確実なテキスト分析が可能です。ぜひ試してみてください。

高度な組み合わせの時代へ

現代はAPIやパイプラインが充実し、さまざまなアプリやソフトを組み合わせてより高次元の分析や見せ方ができるようになっているのが非常に面白いと考えています。特にChatGPTなど高度なAIの急速な発展でこの傾向はますます加速していくと予測できます。対応分析で2軸の意味を解釈するのはなかなか大変ですが、例えばそれをChatGPTに考えてもらうと人間には思いつかないような絶妙な解釈を示してくれたりします。

最後の図は、KHCoderで出力し、Adobe Illustratorで加工した県知事の定例会見の対応分析の図をFortnite上に出現させたものです。Photogrametryでモデル化した静岡おでん街が並んでいて、なかなかのカオスです。こんな時代、ジャーナリズムはますます面白くなっていくのではないかと考えています。

KHcoderで出力し、Adobe Illustratorで加工した県知事の定例会見の対応分析の図をFortnite上で見せられるというなんだか凄い時代。Photogrametryで撮影した静岡おでん街の3Dモデルも並ぶカオス感がたまらない。

いいなと思ったら応援しよう!