見出し画像

国会会議録 共起単語ネットワーク図の実装

ネットワーク図の課題を解決した
共起単語ネットワーク図の課題として、テキストサイズとノードサイズの調整、ノード(表示される単語)の重複があった。
前者は以下の画像のように、min_edge_frequencyを降順に試し、ノードサイズが126を超えた場合テキストサイズを5%ずつ削っていくことで解決しました。ノードサイズは関数の戻り値として与えられないので、contextlibというライブラリを使って出力された値を取得。

後者は、共起の範囲を、センテンス単位から発言単位にすることで改善しました。センテンスは発言を句点で区切ったテキストで、発言はspeechID単位のテキストです。


実装
課題を克服し良いレイアウトのネットワーク図を量産できるようになったので、ウェブアプリに搭載してみる。

カレンダーのラベルをクリック
クリックした日の委員会リストを表示
委員会をクリックし、以下2つの図を表示
カテゴリー単語表
セルをクリックし、セル内の単語をハイライトした状態で会議録を表示
共起単語ネットワーク図
単語をクリックし、クリックした単語をハイライトした状態で会議録を表示
メタン
農地法


ネットワーク図は、colaboratoryで作成し、plotlyオブジェクトをjson形式で保存しておく。htmlでplotlyライブラリをオーバーヘッドしておく
<script src="https://cdn.plot.ly/plotly-latest.min.js"></script>


単語表とネットワーク図を縦に二つ並べるとやや見にくいのでレイアウト再考する。
おわり

いいなと思ったら応援しよう!