スクリーンショット_2018-11-21_17

AIで橋下徹さんのメルマガを解析してみた

技術書店で『はじめての自然言語解析』という本を出版しました。

自然言語解析とは、この僕らが普段使っている言語を数値に落として解析をすることです!なんだそれ?と思うかもしれませんが、様々なサービスで活用されています。

例えば、Googleの検索システムだったり、Gunosyのユーザーへのウェブ記事個別化配信であったり、スマートニュースのウェブ記事の芸能やビジネスなどのタブ分類であったり。

そんな自然言語解析のモデルを使って、橋下徹さんのメルマガを解析してみました!以前ブログに書いたのですが、僕は橋下徹さんの大ファンで、メルマガを初号から全て取っています。データサイエンティストでかつ橋下徹のメルマガを全て持っているのは、僕だけでは?それならば、この解析は僕にしか出来ないと思い、本を書いた訳であります。

今回使ったのは、LDAという文章のトピック(潜在的意味)を推定するモデルです。Smart Newsさんのテックブログで詳しい説明が載っています!ニュース記事を「スポーツ」「エンタメ」「コラム」のようなタブに分類するのにLDAを使っているようです。

要は、Smart Newsさんがアプリでやっていることを、橋下徹さんのメルマガに適用しました。さて、どんなトピックに分類されるのでしょうか?

LDAでは、トピックを構成する特徴単語からトピック名を決定します。例えば下記のグラフは、「関空」「空港」という単語と、「子供」「保険」「増税」などの単語が特徴単語として上がっています。

橋下さんの経営改革によって、赤字垂れ流していた関空が今や成田空港より営業利益を上げているそうです。また、小泉進次郎さんが進めていた「こども保険」について

『これは保険ではない、増税だ。増税するならきちんとそれを説明すべきだ!保険なんて名前を付けるべきじゃない』

と批判されていました。関空とこども保険、本来であればトピックを分けなければいけないけれど、2つくっついてしまったようです。理想では2つのトピックを分けて欲しかったですが、LDAは万能ではありませんので、こういったことも起こります。トピック名は「関空経営改革とこども保険の欺瞞」にしましょう。

続いて、下記のグラフには、「インテリ」「トランプ」という特徴単語があります。


橋下さんはメルマガでトランプの事態を『変える力』を非常に評価しています。インテリと呼ばれる方々はトランプの発言の細かいところを批判するだけで、トランプを正しく評価出来ていないと言います。政治家は批判されても停滞している流れを変えることこそが仕事だ、という強い信念から出る解説だと思います。トピック名は「橋下徹のトランプ論」とでもしましょう。


LDAでは、トピックに分類した後、各文書をどのトピックに分類されるか、『所属確率』というものを算出することが出来ます。下記のグラフはトピック名「関空経営改革とこども保険の欺瞞」のメルマガの所属確率を表しています。

メルマガ27号と55号で所属確率が上がっています。27号は、豊洲移転問題について解説されていてます。都政問題ですね。メルマガ55号はこども保険と待機児童問題について解説されています。純粋な都政問題に絞られたトピックという訳ではないですね〜。少し外している気がします。

続いて、トピック名「橋下徹のトランプ論」の所属確率を表しているグラフになります。

これは非常に多くのメルマガで所属確率が高いです。
トランプさんの言動に関してはメルマガ開始頃から様々な話題について橋下さんが解説をしてきました。この図を見ても、トランプさんに言及されてきた回数が多い事が分かりますね。

このようにLDAを使えば、好きな文章をトピックに分類して、各文章のトピックへの所属確率を算出することが出来ます。このようにしてSmart Newsさんはウェブ記事を分類しているんですね〜。

全文は下記のURLから購入出来ます。もし興味があったらご購入いただけると嬉しいです。


そして、エンジニアの方は、下記のgithubからcloneすることでpythonによる自然言語解析のコードを取得することが出来ますので、自然言語解析気になってたけど、触ってみたかった〜という人は是非動かしてみて下さい^^


いいなと思ったら応援しよう!