
【無料公開中】日本の音声配信の特徴と現在位置を、音声プロデューサー/編集者の野村高文さんに聞く
音声配信の日本での現在位置はどうなっているのか。音声プロデューサー/編集者の野村高文さんに聞きました。野村さんはNewsPicksを経て、3年前にPodcast Studio Chronicleを創業。現在、音声コンテンツ事業を運営し、「News Connect」「経営中毒」などを配信中。また、TBS Podcast「東京ビジネスハブ」MCも勤めています。
*この原稿は、Voicyでのインタビューを編集したものになります。
――現在、音声配信の需要は伸びているのでしょうか。
アメリカでは実際、大統領選に影響を与えるほどの力を持ちました。特に、選挙戦の最終局面でトランプ氏がPodcast番組に積極的に出演し、それが接戦を抜け出す要因の一つになったとも言われています。オーストラリアでも今年選挙がありますが、一部では「Podcast選挙」と呼ばれるほどで、人気番組に現職のアルバニージー首相が出演しており、国政選挙にも影響力を及ぼすメディアになっています。
日本国内ではそれほど急激には伸びていませんが、確実に拡大傾向にはあります。
日本の音声メディアはお笑いとエンタメが強い?
ーー日本で伸びているのはどんなコンテンツでしょうか。
日本のPodcastでは、「お笑いとエンタメ」が強いと言われています。SpotifyもAppleもランキングの上位は、「令和ロマン」に代表されるような、お笑い芸人さんのコンテンツが多いです。20代の男女がお笑い番組を求めて聴きにきている。芸能人や声優さんの番組、「2.5次元」のキャラクターが配信する番組なども人気ですね。
ーーPodcast以外でも、日本はお笑いとエンタメが強い印象がありますね。
ただ、YouTubeを見ると、政治を扱った番組もあって、政治に影響を与えるレベルにまで成長しています。実際、昨年の兵庫県知事選挙でも、ReHacQさんを中心に、YouTubeチャンネルの影響が話題になりました。
ただ、それと同じ構造がPodcastに来るかどうかはまだわかりません。
――日本のPodcastでは、複数名が談笑する形式が多い印象があります。
海外のPodcastと比べると、日本には“コンビ芸”や“トリオ芸”が多いです。相方との配信、つまり複数名でのトークです。仲の良い二人が雑談していて、そこにリスナーが空間ごとついてくるイメージですね。アメリカやオーストラリアと比較しても、その特徴は顕著だと思います。
――米国だとレックス・フリードマンやジョー・ローガンのように、ホスト役が毎回ゲストを迎える形式が典型的ですよね。
アメリカではまさに有名ホストとゲストの1対1トークが代表的です。ホストが司会進行をして、毎回違うゲストを呼ぶかたちです。一方、日本のPodcastは、基本的に「いつもの二人、三人が楽しく喋っている」スタイルが多いと思います。日本のリスナーは、ズバッと切り込むとか、ディベートするよりは、「仲良いこと」に価値をおいているのではないか、と思います。パーソナリティ同士の楽しそうな雰囲気を自分も味わいたい、同じ空間にいたい、とリスナーがついていくイメージですね。
たとえばTBSのジェーン・スーさんと堀井美香さんの番組や、歴史や哲学などを解説する人気Podcast番組「コテンラジオ」もそうですよね。
「コテンラジオ」は歴史を扱った情報密度が高い番組ですが、男性3人の仲の良さも大きな魅力になっている気がします。
ーー米国のPodcastを聴いていると長尺のものが多くて驚くこともあります。
確かにアメリカでは、ビデオPodcastは映像つきでも、字幕もほとんどなく、それでコンテンツ成立しています。あの内容で見るんだ? というのは驚きです。
日本にそのフォーマットをまるっと輸入してきても、それがみられるかはわからないです。日本のYouTubeはサムネイルを目立つものにしたり、やや現世利益っぽいタイトルをつけないといけない。編集もテロップや字幕をつけます。見ているというよりも、「読んでいる」体験に近いではないかと思います。
長尺1~2時間で話し続けるだけの動画が、視聴者に受け入れられるかは何とも言えないですね。
日本では企業のPodcast参入が増えている
――野村さんは番組を制作するうえで、どのようなスタイルを意識しているのでしょうか。日本のPodcastの“雛形”を作っているようにも感じます。
いろいろなフォーマットがありますが、私は書籍を作るイメージで企画しています。
本の場合、テーマと著者名の掛け合わせでコンテンツの強さが決まります。例えば、大谷翔平さんが著者なら、どんなテーマでも「読んでみたい」となるじゃないですか。しかし、配信者の名前だけで引っ張れないなら、テーマの決め方が大事になります。「こういうバックグラウンドを持つ人がこのテーマを語るから聴いてみよう」という動機づけですね。
アメリカのゲスト形式「○○の部屋」的なものも魅力がありますが、無名のホストが無名のゲストを呼んでも、最初は聴く動機が弱い。だからこそ、「この番組で何を提供するのか」を明確にしておく必要があると思います。
――刺さりそうなテーマから出演者を決めて、タイトルや内容を整えていくイメージでしょうか。
そうです。「このテーマなら、誰が話すのが面白いのか」「この人なら、何を語ってもらうのか」をセットで考えます。単なる自分語りやトークだとリスナーの興味を引くのは、なかなか難しいと感じています。
また、企業さんから依頼を受けて番組を制作することもあります。
――それは、いわゆる“オウンドメディア(企業の自社メディア)”でしょうか。
そうです。その場合は経営者が出演することが前提なので、「この方の専門性や経歴を活かして、リスナーが面白いと思う話題は何だろうか」と頭を使っています。いくら有名な経営者でも、Podcastでは最初から知名度だけで勝負はできません。雑誌インタビューの企画づくりと似ていますよね。
「発見・理解・共感・空間設計」の四つがカギ
――ラジオ番組のように、台本を細かく作り込むのですか。
逆にほぼ作り込まないです。だいたい20~30分番組が多いのですが、決めるのはメインタイトルと、タイトルを支える質問を5個ほど箇条書きにするぐらいで、話者に任せています。
――それは雑誌のインタビューに近いですね。
一方で、各回のメインタイトルを並べると、バラバラ感なく首尾一貫しているようにしています。雑誌の連載インタビューに近いと思います。
――編集にはどの程度力を入れるのでしょうか。
基本的には、話した内容をほぼそのまま残します。誤解を招きそうな部分を落とすくらいですね。語り口や間のとりかた、話の技術的な部分ではノイズをを丁寧に切っていくとテンポ感のいい会話に聞こえるので、そこは編集します。
私は番組を作るうえで、「発見」「理解」「共感」「空間設計」の四つが大事だと考えています。
発見:知らなかった情報を得られるか。
理解:複雑な事象を整理して理解できるか(ニュース解説など)。
共感:パーソナリティと価値観を共有し、「わかる!」と感じられるか。
空間設計:会話している空間にリスナーが入って、一緒に居続けたいと思うかどうか。
この「空間設計」は音質、声質、音量バランス、会話のテンポ、出演者同士の関係性など、いくつか要素が絡んでいます。
音質が悪かったり、声が甲高すぎたりすると、ずっと聴いていたくなくなる。「えー」「あのー」など、テンポを乱す部分はカットして、聴きやすさを整えます。そうすることで会話がスムーズに聞こえます。
そういう細かい部分まで意識して、快適な空間を作るように心がけています。
ーー声の質などはデータ化しているのでしょうか。
データ化はしていませんが、アンケートをとって定性的にリスナーの声をとったり、伸びた番組の共通点を探ったりしています。効果測定に使うよりも、企画化するときに、ポイントとして満たされてるかどうかを重視します。
「ゆるい雑談」よりも「専門性が高い話」を求めるリスナーが多いPodcast
――3年番組を作ってきて、初期の頃と違いを感じる点はありますか
それは面白いご質問で、番組ごとに仮説が外れたことはあります。
例えば、思ったよりも難しい話が求められているということが何番組かで発生しています。今、Podcastを聴いている時点で、リスナーのリテラシー、理解レベル、知識レベルはある程度高いと思います。パーソナリティの「深い話」を聞きたくて来ていると考えられます。
これくらいの難易度が届きやすいのでは? と思ってアンケートや一対一のヒアリングをしてみると、「ゆるい話より深い話が面白い」と言われることがあります。リスナーを置いてきぼりとまではいかないけれど、手加減せずに、リスナーのリテラシーレベルを信頼して、難しい話をした方がポッドキャストはいいかもしれないと思います。
――たとえば、どのような番組でそれを感じましたか。
記者の方々が取材しながら専門分野を語る番組を制作したことがあります。
取材の裏話が面白かったので、「海外取材中にこんな生活をしている」という裏話を語る回を作ったのですが、そこまで再生数が伸びませんでした。それよりもリスナーに話を聞いたところ、技術のど真ん中の話、ともすれば「難しすぎる」と感じられるぐらいの回の方が求めていたとわかりました。
テキストだと難しすぎるから落とすような話題も、Podcastでは歓迎されることがある。これは音声メディア特有の魅力だと思います。
専門家が楽しそうに話していれば、リスナーはすべてを100%理解できなくても「なんだか面白そう」と聴いてくれる。文字メディアだと、一度わからない言葉が出たら目が止まってしまいます。でも音声だと、100%咀嚼できなくても、きっと楽しいことなんだろうな、その業界では興味・関心の中心にあるんだろうな、ということが伝わるんでしょうね。
ーーそれはテキストメディアでは起きないですね。
起きないですね。特有だと思います。
私の以前、NewsPicksというメディアで編集者をしていたのですが、在籍中に音声を作り始めた時は、テキストメディアっぽく編集して失敗したことがありました。「無駄を少なくしすぎた」ということです。テキストは無駄を削ぎ落としますが、音声は無駄があっても構わない、というのは自分が得た教訓でした。「ああ、これじゃダメなのか」、と。
体脂肪率0%・100%筋肉です、といったトークって、ちょっと聞き逃した瞬間に流れが分からなくなるんです。むしろ、ふっと意識がとんでも次の瞬間に戻って来れる方が、音声向きなんです。それでいて学びになると言う塩梅がちょっと難しいですが。
ーーYouTubeとの違いはありますか?
視聴者目線ですが、YouTubeは動画なので、目線がどうしても画面に集中します。一方、Podcastは“誰かの会話を横から眺めている”ような感覚です。視線がこちらに来ない分、気軽に耳を傾けられる。それも大きな違いだと思います。
企業のオウンドメディアとしても注目される音声配信
――先ほどオウンドメディアの話がありました。企業の音声メディアへの参入が増えているのでしょうか。
以前、企業がオウンドメディア(自社メディア)を開設するブームがあって、その後、自社でメディアまで立ち上げるのは大変だからnoteをやろうとなり、さらには自社YouTubeチャンネルを立ち上げる流れが生まれました。
その3つに課題を抱く企業さんを中心に、音声を活用しようという動きが増えていると感じています。
ーー企業の狙いはなんでしょうか?
音声は拡散力こそ弱いですが、それより、「長い話を聞いてくれるメディア」というところが強みです。30分間、ほとんど離脱されることなく話を聞いてくれるメディアは音声以外にほとんどないでしょう。YouTubeはだいたい最初の数分で離脱されます。
マスに向けて何かを届けるのではなく、特定の顧客セグメントに向けて、自分たちの長い話を聞いてほしい、その結果、何かのアクションを起こしてほしい、それは購買行動かもしれないし、B to Bの企業の顧客獲得かもしれないし、採用かもしれない。そうした狙いを持つ企業さんは、音声を配信する価値はあると思います。。音声は、テキスト、動画では満たせなかった「かゆいところに手が届く」媒体なのです。
ーーよく音声はリスナーと発信者の距離が近いと言われます。
そうです。単純接触時間の話で、長い間その人の話を聞くと愛着が湧きます。アメリカ大統領選のさなかでいえば、メディアに切り取られたトランプ氏はまるで悪魔のように見えたが、2時間彼の話を聞くと、「あれ、案外こんな人なのか」と思った有権者がいたと思います。彼の政治的主張の是非はともかくとして、構造としてそういうところがある。
ーー確かに、マーク・ザッカーバーグ氏も映像メディアだとぎこちなく見えがちですが、長尺の音声なら自然体な面が伝わると言っていたように思います。
ニュースのコメンテーターのように、カメラを向けられて1分でいい話をするのは至難の業です。アテンションエコノミーの時代なので、最初の数分で意識を引かないといけない時代に、唯一、Podcastだけは長い時間をもらえる良さがあると思います。
ーーVoicyを聴き始めた頃に、有名人が話しているのを聞いて、親しみやすいなと思いました。文字だと冷たい人が、暖かく感じるところはありますね。
きつい表現を使う人でも、その人の喋りを聞くと「ああ、そういうニュアンスなのね」とわかるんです。しかし文字にニュアンスまで詰め込むのは技術がいります。野本さんも私も文筆の仕事ですが、声はニュアンスがそのまま伝わるというその良さがありますね。世間が思っているほど怖い人じゃないよ、というのにいいのかな。
有料課金・広告・サブスク…マネタイズは模索段階
――収益は広告がメインなのでしょうか。
広告出稿や有料課金が基本になると思います。今後はPodcastだけでなく、メールマガジンやnoteなどテキストと組み合わせたサブスクリプション(定額課金)モデルがいいのではと考えています。
オーストラリアで影響力を持つ番組を例に挙げると、女性2人がホストで、政治家ゲストを招きつつ、YouTubeは使わずにPodcastとメルマガだけで月額課金を成功させているようです。ホストのコラムや長文インタビューを書き起こし配信するなど、音声と文字をうまく組み合わせている。AIで書き起こしやテキスト化が以前より楽になっているので、この方法は日本でも可能性が高いと思います。
Voicyは貴重な国内プラットフォーム
――国内独自の音声プラットフォームとしてVoicyがありますが、野村さんから見てVoicyはどんな存在でしょうか。
Voicyは独自の生態系を築いている印象です。日本において、グローバルプラットフォームに抑えられていない、独自の生態系が保たれていると思っています。
イベント・カンファレンス会場などで「Podcastを作っているんですよ」、というと、「Podcastってなんですか?」と聞き返されることがあります。そこで「音声コンテンツです」というと、「Voicyみたいなやつですか」と言われることが結構あります。
ビジネスパーソンにおいてはPodcastの知名度はある程度ありますが、ビジネスをしてないけど音声コンテンツが好き、といった方々には、Podcastを知らないけどVoicyを知っている人は一定数いると感じています。
そこはまた違うクラスター(愛好者層)がいるからこそ成立しているのだと思います。
また、配信者が一人語りで、ほぼ編集しないスタイルが主体ですよね。だとすると、よりPodcastよりもナマ感が強くてシンパシーを感じる人が多いのではと思います。
ーー他の音声メディアも合わせて俯瞰するとどうなっていると見ていますか?
基本はApple PodcastやSpotifyなど、グローバル・プラットフォームが強いです。そしてVoicyが一定数のリスナーを獲得している。あとスタンドFMとかLISTENなどが存在感を放っています。
ーー最後にリスナーへのメッセージをお願いします。
音声を聴く習慣がある人は、ぜひ日常の隙間時間、知らない音声番組を聴いてみると発見があると思います。掘れば掘るほど無数に面白い番組があるのが音声です。一回この世界に入ってきてもらうと、魅力が伝わります。ぜひ習慣としてない方にVoicyやSpotifyを使ってみたら、と勧めてもらうと嬉しいです。
ーーありがとうございました。
野村さんのX
https://x.com/nmrtkfm
News Connect
注釈一覧
アルバニージー首相:アンソニー・アルバニージー(Anthony Albanese)。2022年5月に就任したオーストラリアの現職首相。
リハックさん:兵庫県知事選で話題になったYouTubeチャンネルReHacQ−リハック−【公式】
令和ロマン:お笑いコンビ名。SpotifyなどのPodcastでも人気。
レックス・フリードマン:アメリカの研究者・ポッドキャスター。AIなどの専門分野の話題を中心に、各界の著名人をゲストに呼んだインタビュー番組が人気を博している。
ジョー・ローガン:アメリカのコメディアン・ポッドキャスター。長尺インタビュー形式の「The Joe Rogan Experience」が人気。
コテンラジオ:歴史や哲学などを解説する人気Podcast番組。複数名のパーソナリティによる掛け合いが魅力。
オウンドメディア:企業や団体が自社で運営・管理するメディアの総称。ホームページやブログ、SNS、Podcastなど多岐にわたる。
B to B(B2B):Business to Businessの略称。企業間の取引形態を指す。
ここから先は

これまで数百件を超えるサポート、ありがとうございました。今は500円のマガジンの定期購読者が750人を超えました。お気持ちだけで嬉しいです。文章を読んで元気になっていただければ。