見出し画像

a16zの音声エージェントに対する仮説

軽い自己紹介

こんにちは、ミネルバ大学2年生でKUSABIというVCでインターンをしてる藤原大輔です。AI周りのスタートアップを研究していく中で面白いな!と思った情報をツイッターでまとめています。

この記事は公認翻訳ではなくて、書いてある内容は全て自分の表現や解釈で翻訳してます。このメモの作者はa16zパートナー(消費者領域)のOlivia Mooreさんとa16zジェネラル・パートナー(消費者領域)のAnish Acharyaさんです。

ツイッター:https://x.com/omooretweets
ツイッター:https://x.com/illscience

この記事はLLM x 音声の可能性が深く説明されていて、音声に関わる技術の時間軸(過去と未来)についても書いてあり、この考え方は面白いな!と思いながら翻訳したので、この技術の未来を考えながら読んでもらえると嬉しいです!


a16zの音声エージェントに対する仮説

今こそ電話をするというプロセスを再発明する時だ。生成AIのおかげで、人間は電話をかける必要がなくなる。人間は、自分にとって価値のある電話がかかってきたときだけ、電話に時間を費やすようになるだろう。

企業にとって、これは次のことを意味する:

(1) 人間が電話対応にかける時間と人件費を節約できる
(2) リソースを収益を増やす作業に振り向けることができる
(3) よりコンプライアンスに準じた一貫性のある顧客体験を提供することで、リスクを軽減できる

消費者にとって、音声エージェントが存在することで、実際の人間にかかるコストを払わずに、人間並みのサービスへのアクセスを得ることができる。現在このサービスに属するのはセラピスト、コーチ、コンパニオンなどが挙げられる。だが、将来的には音声を軸にした体験が幅広く生まれるだろう。しかし、他の多くのtoC向けソフトウェアと同じように、どのようなサービスとどのような会社が”勝者”になるかは予測できないだろう!

『電話は世界へのAPIであり - AIはこれを次のレベルに引き上げる』

私たちがチャンスだと思う場所

各レイヤーにとてつもなく大きいチャンスがあると考えている。インフラに関わるプレーヤー、消費者に関わるUI、企業向けエージェントなど。特にB2CとB2Bエージェントに関してはもっともアツいプロダクトについて、いくつかの仮説がある。

技術スタック:音声エージェントはどうやって作るの?

新しいGPT-4oのようなマルチモーダルなモデルは1つのモデルで複数のレイヤーを同時に実行することで、技術スタックの構造そのものを変えるかもしれない。これはレイテンシやコストを下げ、より自然な会話インターフェースを作る。今あるエージェントの多くは下に示してる構造を使っていて、人間のクオリティからはまだ遠い。

ちゃんと稼動するために、音声エージェントは人間のスピーチ(ASR)を取り入れ、LLMでこのインプットを処理してアウトプットを出す、そして人間に声で返す(TTS)。

企業やアプローチによっては、LLMが会話の流れや感情のような部分を処理する。他のケースではこのプロセスに独自のエンジンを使う。フルスタックの音声プロバイダーは、これらすべてを1か所で提供する。

B2CとB2Bのアプリは、このスタックの上に存在している。サードパーティのプロバイダを使用する場合でもアプリは通常カスタムのLLMを使用する(このLLMは会話エンジンのような役割をこなす)。

フルスタック vs.自分で組み立てる

音声エージェント周りの創業者は、フルスタックプラットフォーム(例:Retell、Vapi、Bland)上でエージェントを立ち上げるか、自分たちでスタックを組み立てるかを選択することができる。この決定には、いくつかの重要な要素がある:

今ある各スタックレベルの主要プレーヤーを一部紹介する。これは解像度の高い市場マップではないが、音声エージェントの創業者が最もよく挙げる名前を表している。マルチモーダルモデルの出現に伴い、このスタックも大きく変化することが予想される。

B2Bエージェントに対する仮説

今の時代はAI音声1.0といって、ユーザーが自然言語で答えると、決まった答えが返ってくる。そこからLLMベースのAI音声2.0の流れがきている。過去6ヶ月で2.0企業が台頭してきた。今は1.0企業の方が正確かもしれないが、長期的には2.0アプローチの方がはるかにスケーラブルで正確なはずだ。

一つの会社が全ての業界に通用する水平(ホリゾンタル)モデルやプラットフォームを作る確率は低い。垂直(バーティカル)に考える時にいくつかの違いがある:

(1)電話の種類、会話のトーン・流れ、構造
(2)プロセス・ワークフローの統合
(3)GTMとキラー機能

つまり、とても偏った、特定の作業に特化したUIのバーティカルなエージェントが爆発的に増えると考えている。そのためには、深い専門知識や関心を持つチームを設立する必要がある。多くの企業にとって、人件費は最大のコストセンターである。この”特化”に成功した企業のTAMはとてつもなく大きいだろう。

最も短期的なビジネスチャンスは、電話受付が生死を分けるような業界や、労働力不足が顕著で、電話の複雑性が低い業界であろう。エージェントがより高性能になれば、より複雑な電話にも対応できるようになるだろう。

B2Bエージェントの時間軸

私たちはB2B音声エージェントの分野で3つの主要な技術の波を見てきた:

多くの音声エージェント企業は、特定の業界(例:自動車サービス)や特定のタイプのタスク(例:アポイントメントのスケジューリング)に対して、垂直方向に特化したアプローチを取っている。これにはいくつかの理由がある:

1. 実行の難しさ

AIに通話を任せるにはクオリティのハードルが高く、会話の流れ(さらに顧客側のバックエンドのワークフロー)がすぐに複雑なものになる可能性がある。このような業種(バーティカル)の「エッジケース」向けに開発する企業の方が、成功する可能性が高い(例:一般的なモデルでは誤解するユニークな語彙を理解できる)。

2. 規制とライセンス

音声エージェント企業の中には、特別な制限やコンプライアンス的な課題に直面している。この典型的な例はヘルスケア(例:HIPAAコンプライアンス)だが、アメリカでは国レベルで営業のようなカテゴリーにAI電話規制が現れている。

3. 統合の難しさ

カテゴリーによっては、UX(企業と消費者の両方)を完璧にするために、多くの統合(インテグレーション)が必要になることもある。

4. 他のソフトウェアに組み込む事ができる

音声は、予約、更新、見積もりなどのような顧客の基本的なアクションに自然に入り込むことができる。場合によっては、このようなビジネスにとって、より広範な垂直SaaSプラットフォームへの進化するチャンスでもある(特にカスタマーがオフラインで活動している場合)。

B2Bエージェント:私たちがチャンスだと思う場所

LLMベースだが、最初から100%自動化されてるとは限らない

AI音声エージェントの「最終形態」は、対話型音声応答(IVR)やテレフォンツリー(AI1.0)方式ではなく、完全にLLM主導の会話になるだろう。しかし、LLMは常に100%信頼できるものではないため、よりデリケートで大規模なシチュエーションでは一時的に人間が流れ(フロー)に入る可能性がある。だからこそバーティカルに特化したエージェントが強い。これは、エッジケースを少なくして人間の干渉を最小限に抑えながら、成功の確率を最大化できるため。

カスタムモデルのチューニング vs. LLMにプロンプトするアプローチ

B2Bの音声エージェントは、一般的なLLMでは不十分である可能性が高い、特殊な(または垂直方向に特化した)会話を必要がある。多くの企業は、(数百から数千のデータポイントを使用して)顧客ごとのモデルをチューニングしている。カスタムチューニングは、企業顧客向けに継続されると予想される。注:企業によっては、特定のユースケースのために「一般的な」モデル(顧客全体で使用する)をチューニングし、その後、顧客ごとにプロンプトを出す場合もある。

専門分野に知見がある技術力の高いチーム

高品質のB2B音声エージェントを立ち上げ、スケールさせるためには、AIの予備知識が役に立つだろう。しかし、プロダクトをどのようにパッケージ化し、その業界に食い込ませるかを理解することも同様に重要である。企業向け音声エージェントを構築して立ち上げるのに、AIの博士号は必要ない!逆に強い興味か業界への知見が必要になってくる。

統合とエコシステムに関する鋭い視点

上記と同様に、各業界の買い手は、一般的に購入する前に確認したいいくつかの特定の機能や統合を考えている。実際、これは彼らの評価において、プロダクトを「便利なもの」から「魔法のようなもの」へと転換させる大事なポイントかもしれない。これは、垂直的に始めることに意味があるもう一つの理由だ。

「エンタープライズグレード」または強力なプロダクト主導型成長(PLG)モーションのいずれか

トップ企業やプロバイダーに収益が大きく集中する垂直型では、音声エージェント企業は大企業から始めて、最終的に中小企業に向かっておりていくかもしれない。中小企業の顧客は特定の解決策を欲しがっていて、様々な選択肢をテストすることを厭わないが、スタートアップが大企業向けにモデルを調整できるような規模や質のデータを提供できないかもしれない。

B2Cエージェントに対する仮説

B2Bでは、音声エージェントは、特定のタスクを完了させるために、主に既存の電話フローを置き換える。消費者向けエージェントの場合、ユーザーは電話を続けるというを選択しなければならないが、音声でのやり取りは必ずしも便利ではないため、これは難しいことだ。つまり、プロダクトのハードルが 「より高い 」ことを意味する。

消費者向け音声エージェントの最初の、最も明白な使い道は、高価な、あるいは利用しにくいサービスを、AIに置き換えることである。これには、セラピー、コーチング、家庭教師など、対話ベースでバーチャルに完結できるものが含まれる。

しかし、B2Cの音声エージェントにおける真の魔法は、まだこれからだと考えている!私たちは、音声の力を利用して、これまで存在しなかった新しい種類の「会話」を可能にするプロダクトを探している。これは、既存のサービスの形を再発明するかもしれないし、まったく新しいサービスを生み出すかもしれない。

UXにこだわるプロダクトにとって、音声エージェントは、今までのソフトウェアにはなかったレベルで消費者と関わる機会を提供する。形としてはプロダクトそのものにエージェントとして現れるか、より広範なプロダクトの一つの形態としての音声に現れるかもしれない。

B2Cエージェントの時間軸


今のところ、消費者向けAI音声エージェントのビッグプレーヤーは、ChatGPT VoiceやInflectionのPiアプリのような大企業によるもの。消費者向け音声エージェントの登場が遅れている理由はいくつかある:

大企業はすでに消費者向けの流通チャネルを確保していて、精度やレイテンシーなどの点で最高クラスのモデルを持っている。音声を大規模に提供するのは容易ではなく、GPT-4oが最近発表されたことを考えると、これは特に真実である。

B2Bの音声エージェントは、既存のプロセスにAIを組み込むものであるのに対し、B2Cの音声エージェントは、ユーザーに新しい行動を取らせる必要がある。これは、より遅く、より魔法のような製品を必要とする可能性がある。

歴史的な流れを考えても消費者は、Siriのようなプロダクトの経験から、音声AIに対してネガティブなバイアスがかかっているため、必ずしも新しいアプリを試す気にならない。

広範的なプロダクトは音声AIの基本的なユースケース(家庭教師、コンパニオンなど)を提供することができる。B2Cの音声スタートアップは、ChatGPTやPiなどが扱わないようなユースケースに取り組んだり、体験を創造したりし始めているところ。

B2Cエージェント:私たちがチャンスだと思う場所

なぜ音声が必要なのかについての強い視点

私たちは、「”音声だから” とりあえず使ってる」ではなく、音声がプロダクトにどのようなユニークな価値をもたらすかがハッキリしているプロダクトや創業者に興味を持っている。多くの場合、音声インターフェースは、情報を消費したり抽出したりするのに不便であるため、テキストインターフェースに比べて劣っているケースが多い。

なぜリアルタイムの音声が必要なのかについての強い見解

音声の情報を理解するのは難しいが、リアルタイムの音声はさらに難しい(非同期の音声メッセージと比べて)。私たちは、自分たちの製品がなぜライブの会話を中心に構築される必要があるのか?について高い解像度を持っている起業家に期待している。これは人間のような交友関係かもしれないし、何かの練習環境なのかもしれない。

今の人間の会話の置き換えではない、AIを使ってそれを超える何か

私たちは、最終的に残るプロダクトは、AI音声エージェントが単に人間のプロバイダの代わりに置き換わる、以前の人間対人間の会話の直接翻訳ではないだろうと推測している。そもそも、その基準に沿うことは難しい。しかし、より重要なことは、AIを使って同じ価値をより良く(より効率的に、より楽しく)提供する機会があるということだ。

モデルの質=勝者ではない程度の垂直化

主要な一般消費者向けAIプロダクト(ChatGPT、Pi、Claude)は、高品質の音声モードを持っている。彼らは多くのタイプの会話やインタラクションに有意義に関わることができる。そして、彼らは独自のモデルとスタックをホストしているため、当面はレイテンシーと会話フローで勝利する可能性が高い。

私たちは、スタートアップが特定のタイプの会話に合わせたチューニングを行うか、音声エージェント体験により多くのコンテキストと価値を提供するUIを構築することで成功することを期待している。形としてこれは時間の経過とともに進歩を測ってくれるプロダクトかもしれないし、強い視点を持って会話・経験をリードしてくれるプロダクトかもしれない。

参考記事:


終わりに

ここまで、僕の翻訳noteを読んでくださり、ありがとうございました!この記事は面白い!と思った人は是非作者のOlivia MooreさんとAnish Acharyaさんのプロファイルをチェックしてください!

僕は毎日このようなAI周りのスタートアップの情報や海外有名VCの動きをまとめているので、興味があればツイッターをチェックしてください!

ツイッター: https://x.com/dicefujiwara

この記事が気に入ったらサポートをしてみませんか?