荻原 和樹 / Kazuki OGIWARA

データ可視化とデータ報道の仕事をしています。Google News Lab ← スマートニュース メディア研究所 ← 東洋経済新報社。データ報道コンテンツの制作でグッドデザイン賞など受賞。著書に『データ思考入門』(講談社現代新書)など。

荻原 和樹 / Kazuki OGIWARA

データ可視化とデータ報道の仕事をしています。Google News Lab ← スマートニュース メディア研究所 ← 東洋経済新報社。データ報道コンテンツの制作でグッドデザイン賞など受賞。著書に『データ思考入門』(講談社現代新書)など。

最近の記事

  • 固定された記事

スマートニュースを退職してGoogleに移ります

スマートニュースを退職して、10月からGoogle News LabのTeaching Fellowとして仕事をします。ここでは自己紹介を兼ねてスマートニュースでの仕事を振り返りつつ、今後の仕事について書きます。 自己紹介データ可視化やデータ報道の分野で仕事をしています。新卒で東洋経済新報社に入り、最初はデータベースの開発などをしていました。その後イギリスの大学院でデジタルデザインを勉強し、帰国してからは編集部でデータ可視化を活用した報道コンテンツの制作をしました。夏の気温

    • 誰でも手軽にグラフを作成できるツールを開発中です

      誰でも手軽にグラフを作って、画像をダウンロードできるツールを開発中です。商用・非商用を問わず自由にお使いいただけます。 このツールで何ができるか 内容に集中できるシンプルなUI このツールは「誰でも手軽に素早くグラフを作成できること」に特化しています。文字の大きさ、余白、目盛り線の太さ、といった視覚要素は可能な限りツール側で自動設定し、ユーザーはデータやタイトルなどの「内容」に注力できるようにしています。 グラフの種類を選び、データをコピー&ペーストで貼り付け、あとは

      • データ報道における「停滞感」を考察する

        日本のデータ報道は一時的に流行ったが今は停滞している、という意見を最近見かけた。 私はこの数年間日本のデータ報道を観察し続けているが、同じ感覚を持っている。新型コロナ禍を機に、日本の報道業界でもようやくデータ報道やデータ可視化に参入しようとする報道機関が増えたものの、その試みは多くの会社で小規模なプロジェクトにとどまり、当初の熱が消えかけているように感じる。 そもそも2010年ごろ米国や欧州で盛んになったデータ報道は、日本の報道業界においては長らく実践されてこなかった。単

        • 政治資金収支報告書を総務省のページからPythonとPinpointで文字起こしする方法

          政治資金収支報告書とは 政治資金収支報告書とは、政治団体の1年間における収入、支出を記載した報告書です。政党本部や支部からの交付金、受け取った寄付の金額と寄付者の名前、家賃やガソリン代などの経費、SNS運用費やパーティー会費などの政治活動費など、さまざまな情報が記載されています。政治資金の透明性をチェックするための重要な資料です。 しかし、現状公開されている政治資金収支報告書は大部分が紙での提出です。報告書は総務省や各都道府県に提出され、PDFファイルとしてウェブサイトで

        • 固定された記事

        スマートニュースを退職してGoogleに移ります

          新聞で重用される混合2軸グラフの難点とその解決策

          先日、日経新聞のこのような2軸グラフが批判されていました。 出所はこちらの記事。グラフのタイトル通り、日米で家計の資産所得(利子・配当収入)には大きな差があるという話の補足として示されたグラフです。 こうした混合2軸グラフ(これは私の命名。通常の2軸グラフとも少し作法が異なるので便宜的にこう呼んで区別します)が批判されがちな理由はいくつかあります。 まず最大の難点が、軸のスケールが不明瞭であること。左軸では日本の資産所得が5〜30兆円のスケールとされています。他方で右軸

          新聞で重用される混合2軸グラフの難点とその解決策

          デジタル報道の事例集「デジタル報道カタログ」を公開しました

          日本におけるデジタル報道の事例集「デジタル報道カタログ」を公開しました。使用している技術やビジュアライズ手法ごとにタグを付与し、検索・絞り込みができます。 背景 仕事柄、デジタル報道の手法や技術を紹介することが多いのですが、事例について聞かれることが多く、自分用にメモをまとめていました。 デジタル報道はその特性上、自然言語で検索することが簡単ではありません。そこで今回のページでは日本国内の主なデジタル報道事例を会社横断的に一覧できるようにしました。手法や技術ごとにタグを

          デジタル報道の事例集「デジタル報道カタログ」を公開しました

          Mapshaperを使ってGeoJSONファイルの加工を行う

          データ可視化で多く使われる手法のひとつが色分け地図(Choropleth map)です。都道府県、市区町村、選挙区といった区域を色で塗り分けて統計データや選挙結果などの地理的なデータを表現します。 色分け地図を作るためには、区域ごとの統計データ(たとえば「神奈川県横浜市は200」など)とあわせて、区域の境界線を示すデータが必要です。Google マップやTableauなど、各種のウェブサービスやBIツールにおいては、ツール側で区域データを持っている場合があります。たとえばG

          Mapshaperを使ってGeoJSONファイルの加工を行う

          Google PinpointでスキャンPDFの「表」をCSVに変換する

          前回の記事ではGoogle Pinpointを使ってスキャンPDFの文章を読み込み、単語や日付で絞り込む方法を解説しました。 Google Pinpointでは文章だけでなく、表や箇条書きなど何らかの構造を持つ文書を表形式で取得する「構造化データの抽出(Extract Structured Data)」と呼ばれる機能があります。この記事では、前回と同じく日本銀行のスキャンPDF資料から表をCSV形式で抽出する方法を解説します。 サンプルデータの読み込み まずサンプルデー

          Google PinpointでスキャンPDFの「表」をCSVに変換する

          Google PinpointでスキャンPDFの文章を読み込む

          PDFは文書を扱う際によく使われるファイル形式ですが、現実には印刷された文書をスキャンした「画像」としてPDFを扱うことも少なくありません。FAX、郵送、またはメールに添付されたPDFが何故か画像だったり……。こうしたPDFは「画像」として扱われるため文字や数字をコピーすることはできません。便宜上ここではスキャンPDFと呼びます。 スキャンPDFの読み込みに便利なGoogle Pinpointというツールがあります。一言で表現すれば大量のドキュメントを探索・分析するためのツ

          Google PinpointでスキャンPDFの文章を読み込む

          「エモい記事」批判とジャーナリズムの意義

          このところ報道メディア関連のタイムラインで「エモい記事は是か否か」的な議論?が起こっている。 たとえばこちらの論考。 この論考では「実例を挙げるのははばかられるので控える」としつつ「データや根拠を前面に出すことなく、なにかを明確に批判するのでも賛同するわけでもない、(中略)ナラティブ重視の記事」を「エモい記事」と定義し、「すこぶるタチが悪い」と批判している。 Twitter(現X)での反応を見る限り、他の業界関係者(と見られるアカウント)もおおむね「エモい記事」には批判

          「エモい記事」批判とジャーナリズムの意義

          現代的データ報道の最大の特徴と、それを取り巻くさらに大きな流れ

          現代のデータ報道が普及した要因や、Immersive Contents / Visual Investigationといった似た概念との関連をX(Twitter)に連投しました。ここでは改めて流れを整理して書いています。 そもそも、データ報道はPCやスマートフォンが普及する前から存在していました。世界で最初の事例を断定するのは難しいですが、一般的には1821年に英国マンチェスター・ガーディアン(現在のガーディアン)が掲載した子どもの貧困に関する記事だとされています。 同様

          現代的データ報道の最大の特徴と、それを取り巻くさらに大きな流れ

          Flourishでヒートマップを作る方法

          ヒートマップ(Heatmap)とは ヒートマップ(Heatmap)とは、データの値を色の濃淡や異なる色で表現するデータ可視化手法の一種です。地図上に人口密度を色で重ねたり、ウェブサイトでよくクリックされている領域を色で示すものがよく使われます。 より汎用的なデータの可視化手法として、画面上を二次元(縦と横)のセルに分け、各セルを塗り分けることによって縦×横×色(値)と三次元のデータを表現することができます。今回は例として、夏の気温のヒートマップの作り方を解説します。 元

          Flourishでヒートマップを作る方法

          Flourishでバーチャート・レースを作る方法

          バーチャート・レース(Bar chart race)とは バーチャート・レースとはデータの変化を時間経過とともに動的に示すデータ可視化(Data visualization)手法のひとつです。棒グラフが一定の時間ごとに更新され、バーの長さが変化するとともにランキングが上下します。 通常、棒グラフでランキングの結果を単年度のみ示すことができますが、アニメーションにすることで時系列の変化を表現することが可能です。 なおFlourishの基本的な使い方は以下の記事で解説してい

          Flourishでバーチャート・レースを作る方法

          Flourishの基本的な使い方:棒グラフを作る

          Flourishとは Flourishとは、インタラクティブな=ボタンやスイッチで動くデータ可視化(Data visualization)を作るためのツールです。作成したプロジェクトは個別のURLを発行して公開でき、ウェブサイトへの埋め込みも可能です。ソフトウェアのダウンロードは必要なく、ウェブブラウザ(Google Chromeなど)で動作します。 データ可視化を作るツールは複数ありますが、日本ではメディアの記者・編集者が自分でビジュアルを作成する際に使われることが多い

          Flourishの基本的な使い方:棒グラフを作る

          順序で配色を分けてみる - データ可視化ミニ講座(9)

          地図やグラフなど、データを可視化する際は数値の大小を色に変換することが頻繁に行われます。一見して数値の大小が視覚的にわかりやすくなり、地図ならば地理的な傾向もわかるため、よく使われるテクニックのひとつです。 ただ「数値の大小を色に変換」といっても、その方法はひとつではありません。一般的によく使われるのは、最小値と最大値から計算して均等に色を分ける方法です。たとえば10刻みに10・20・30・40・……・90という9つの値からなるデータを色分けしたいとします。最小値は10、最

          順序で配色を分けてみる - データ可視化ミニ講座(9)

          移動平均を使ってデータの傾向を見やすくする - データ可視化ミニ講座(8)

          ランダムな変動や周期的な傾向があるデータの場合、実数だけでなく移動平均を同時に可視化することによってデータの中長期的な傾向を見やすくすることができます。 移動平均とは、時系列データにおいて一定期間におけるデータを平均し、時点が動くごとに古い時点を外して新しい時点を含めて、……という計算を繰り返し、数値の変動を平滑化するものです(厳密に言うと時系列でなくとも使われる場合があります)。 言葉だとわかりにくいので具体例を出します。たとえば、新型コロナの感染者数(検査陽性者数)は

          移動平均を使ってデータの傾向を見やすくする - データ可視化ミニ講座(8)