国会会議録検索システムがもっと便利になる。記者でもAPIを使い倒せる方法。
第1回国会(昭和22年5月)からの本会議・委員会の会議録を検索できる国会会議録検索システムは、新聞記者、報道記者なら必須でしょう。普段一つ一つ検索語を試していくことが多いと思いますが、検索語についてどの議員が特に関心があるか、言及される頻度が時系列でどう変わっているかなどを俯瞰的に見たいことがあるかと思います。そんなときはAPIが便利です。政府のデジタル化は全体的に遅れていると思わざるを得ませんが、国会会議録検索システムはかなりセンスの良いDXが行われている印象を受けます。
1.国会会議録検索システム検索用APIとは
「国会会議録検索システム 検索用APIの仕様」というページを見てください。無料で公開されている検索用APIの使い方が比較的分かりやすく書いてあります。ほとんどの記者にとっては、そもそもAPIってなに?という感じかもしれません。このページにある説明は次の通りです。
国会会議録検索システムのサイトを閲覧しなくても検索できる仕組みが「検索用API」だと思ってもらえばいいかと思います。現代社会にはAPIがあふれていて、これからも一層重要になっていくでしょう。APIで何ができるの?という記者の疑問に分かりやすい実用例を示してくれる教材的な存在になりうる一つが、この国会会議録検索システムの検索用APIだと思います。ぜひこうした機会にAPIに関心をもってみてください。
2.URLによる検索リクエストを試してみよう
簡単に試してみましょう。「検索用APIの仕様」のページの「5.詳細仕様」のところに検索リクエストのアクセスURLが3つ書いてあります。このうち3つ目の「発言簡易出力」で試してみます。アクセスURLは、https://kokkai.ndl.go.jp/api/speech?{検索条件}と書いてあります。この{検索条件}のところに好きな検索条件を入れてみます。
上記の説明によると、{検索条件}は「パラメータ名=値」の形式で指定すればいいようです。パラメータ名は同じページのすぐ下に列挙されていますが、「検索語」や「発言者名」「会議名」「開会日付」など23項目あります。
ここで、例えば、2023年1月1日から2023年12月31日までの間に「裏金」という言葉が国会会議録にどれだけ出てくるか検索したいとしましょう。
「検索語」「開会日付/始点」「開会日付/終点」の3つのパラメータを使います。一覧を見ると、それぞれのパラメータ名は「any」「from」「until」と分かります。複数のパラメータで検索する場合には、半角の「&」でつなげばいいので、検索条件は、{any=裏金 & from = 2023-01-01 & until = 2023-12-31}と書けます。
その検索条件を最初のURLに代入した最終的なURLは、https://kokkai.ndl.go.jp/api/speech?any=裏金 & from = 2023-01-01 & until = 2023-12-31となります。このURLをコピーし、皆さんのブラウザのURL窓に直接貼ってみてください。
どうでしょうか。検索結果の一覧がズラッと表示されたのではないでしょうか。検索結果がまとめてテキストで得られるので、これだけでも取材や調査報道をする上で取り回しが良さそうだとピンと来てもらえるかと思います。
上のURLの検索語や期間の部分を変えれば、そのまま他の検索もできます。試しに、検索語を「パーティー券」、期間を2020年から2023年に書き換えてみましょう。上のURLの一部を変えるだけなので簡単です。皆さんの好きなように変えてもらって構いません。
このURLを作りさえすれば、国会会議録システムのトップページを経ずにいきなり一発で検索できるわけです。しかもテキストベースなので軽く、スマホや低速度回線でもストレスなく検索ができます。いろいろな検索条件をスプレッドシートで管理したり、他の記者とシェアすることも簡単です。
3.検索結果の集計、グラフ描画まで自動化できる
さらに最大のメリットの一つは、検索結果を自動で集計したり、グラフを描いたりする処理に回せることでしょう。Google Colaboratoryを使って私が社会部で活用している方法ですが、検索をするだけで、あとは全て自動的に集計し、下に紹介するようなグラフまで書いてくれるようにしてあります。
例えば、過去10年間の「裏金」というキーワードの検索結果を全自動で議員ごとに集計してグラフ化した出力例が下図です。内容は触れませんが、どんな議員が裏金問題を追及しているかなどのヒントが得られると思います。
次に、検索語の出現回数を年ごとに集計した例です。2023年の突出は自明ですが、過去にどんな頻度で「裏金」という言葉が国会に登場してきたかという時系列の変化がよく分かります。4年周期があるような、ないような。
4.そのまま生成AIに渡すのも可
いまどきだと、検索結果をそのままChatGPTなどの生成AIにかけてしまうような使い方もできます。分析記事まで自動でAIに書かせてしまうことも十分可能かと思います。APIの活用は一見難しそうですが、実際はそうでもないので、記者の皆さんも、興味を持たれた方は積極的に挑戦してみてはいかがでしょうか。持論ですが、システム任せにせず、豊富な取材経験のある記者が自分の手でやってみることに大きな意味があるのだと思っています。
5.注意点
最後に注意点として、リクエストの負荷をかけないなど、国会会議録の利用条件・免責事項をよくお読みください。私も自動化するときには気を付けるようにしています。ただ、通常に使っている限りは問題ないと思いますので、安心していろいろ試してみてください。