国会会議録 共起単語ネットワーク図の実装
ネットワーク図の課題を解決した
共起単語ネットワーク図の課題として、テキストサイズとノードサイズの調整、ノード(表示される単語)の重複があった。
前者は以下の画像のように、min_edge_frequencyを降順に試し、ノードサイズが126を超えた場合テキストサイズを5%ずつ削っていくことで解決しました。ノードサイズは関数の戻り値として与えられないので、contextlibというライブラリを使って出力された値を取得。
後者は、共起の範囲を、センテンス単位から発言単位にすることで改善しました。センテンスは発言を句点で区切ったテキストで、発言はspeechID単位のテキストです。
実装
課題を克服し良いレイアウトのネットワーク図を量産できるようになったので、ウェブアプリに搭載してみる。
ネットワーク図は、colaboratoryで作成し、plotlyオブジェクトをjson形式で保存しておく。htmlでplotlyライブラリをオーバーヘッドしておく
<script src="https://cdn.plot.ly/plotly-latest.min.js"></script>
単語表とネットワーク図を縦に二つ並べるとやや見にくいのでレイアウト再考する。
おわり