見出し画像

AI音声エージェントがアツい🔥

AIを活用した音声エージェントが急速に普及しています。

イノベーター理論において、イノベーターからアーリーアダプターへと移行する段階に突入。様々な業界で、AIボイスエージェントを活用する新興企業が次々と誕生しています。

a16zより引用

とはいえ、テクノロジーの最前線を行く企業であっても、最新のAIボイスエージェントに完全に対応できているわけではありません。この革新的技術をいち早く取り入れる先駆者たちには、いくつかの共通点が見られます。

まず特筆すべきは、彼らが新規ビジネスが電話に大きく依存していることです。これらの企業が扱う通話は、明確に定義されたタスクや構造を持ち、比較的リスクが低いのが特徴です。生死に関わるような重大な案件ではないからこそ、新技術の導入に踏み切れるのでしょう。

a16zより引用

また、見込み客との貴重な接点をボイスメールで逃すことを嫌う傾向も強く見られます。顧客との直接的なコミュニケーションを重視する姿勢が、AIボイスエージェント採用の原動力となっているようです。

具体的には、もっとも最初に取り入れるイノベーターには、中小企業の予約管理、コールセンターサービス、電話営業、レストラン注文などが挙げられます。

続いてアーリーアダプターには、ドライブスルー、物流業界、バックオフィスの医療サポート、債権回収、トレーニング/コーチング、採用面接。アーリーマジョリティには、医療サービスの初期対応や高度なインタビュー業務と続きます。

現在のAIボイスエージェントは、特に営業時間外や通話が集中する時間帯に真価を発揮します。驚くべきことに、一部のAIエージェントはすでに人間のオペレーターを擁するコールセンター以上の性能を示しています。技術の進歩に伴い、これらのAIエージェントはさらに洗練され、低コストで高品質なサービスを提供できるようになるでしょう。

近い将来、AIボイスエージェントは国内の人間の従業員に匹敵する、あるいはそれ以上の能力を発揮する可能性があります。この革新的技術が描く顧客対応の未来図は、ビジネス界に大きな変革をもたらすことでしょう。AIボイスエージェント革命の波に乗れるかどうかが、これからの企業の競争力を左右するかもしれません。

興味深い事例をいくつか紹介します。

物流業界に革命を起こすHappyrobot

Happyrobotは、物流の最前線で活躍するAIボイスエージェントです。貨物ブローカーや運送業者の日々の業務に欠かせない通話を、効率的に処理します。出発前の最終確認から積荷情報の更新、さらには繊細な価格交渉まで、幅広いタスクをこなします。

その実力は数字が物語っています。大手物流企業Circle Logisticsとの提携では、10万件以上の通話を自動化。人間のオペレーターでは到底達成できない規模で、業務効率化に貢献しています。

AIが面接官に。採用革命を起こすMercor

グローバル人材市場に新風を吹き込むMercorが注目を集めています。同社が開発したAIエージェントは、ライブインタビューを通じて候補者を審査する革新的なシステムを提供しています。

これまでに30万人もの候補者をスクリーニングし、10万件を超えるインタビューを実施しました。

AIをつかって営業スキルを磨くHyperbound

Hyperboundは営業担当者のスキルアップを効率的にサポートします。Hyperboundの特徴は、顧客ペルソナに基づいてカスタマイズされたAIバイヤーとの対話です。営業担当者は、このAIとのシミュレーション通話を通じて、リアルな商談シーンを何度も練習できます。これにより、様々な状況に対応する能力を効果的に養うことができるのです。

すでに7,000社もの企業がHyperboundを導入し、10万件を超える練習通話が実施されました。

自動車業界の顧客サービスを変革するToma

Tomaは自動車ディーラーの電話を自動化し、顧客の予約の作成と変更を行います。サービス開始以来、ディーラーパートナーのために100万件を超える通話を処理。人間のアドバイザーが電話対応に費やす時間を大幅に削減し、その分を顧客との直接的なコミュニケーションに充てられるようになりました。

11xのAIアシスタント「Jordan」

11xが開発したAIアシスタント「Jordan」も、営業プロセスに革新をもたらしています。Jordanは単なる電話オペレーターではありません。顧客に代わってリードに電話をかけ、ミーティングをスケジュールする高度な機能を備えています。

さらに、JordanはCRMの更新やA/Bテストの実施、通話録音からの学習など、多彩な能力を持ち合わせています。これらの機能により、AIアシスタントの性能は日々進化し、より効果的な顧客対応を実現しています。

多くの機会が広がっている

インフラの提供者、消費者向けインターフェース、そして企業向けエージェント。各レイヤーには膨大な機会が広がっています。B2CおよびB2Bのボイスエージェントにおいて、a16zはいくつかの興味深い仮説を立てています。

スケールに対応

遅延と会話体験の問題はまだ解決されていません。エージェントの構築に関して明確な意見を持ち、エージェントにとって最も重要な要素(スピード、精度、トーン/感情表現など)を最大化する創業者が必要です。

特定の業界に特化

特定のユースケースに合わせて調整されたモデルと、密接に統合されたシステムを使用することで、優れたパフォーマンスを発揮するエージェントが、縦割りの業界に求められています。このアプローチは構築が容易であり、市場に出し、成功させやすいです。

現実的な範囲

重要な通話をAIに完全に委任するのはハードルが高くあります。a16zは、ボイスエージェントの企業が短期的には「スケールしないことをする」ことを期待しています。これは、顧客ごとに調整を行ったり、通話の最終段階で人間のエージェントに引き継ぐこともありえるかもしれません。

技術スタック

GPT-4oのような新しいマルチモーダルモデルは、複数のレイヤーを一つのモデルで同時に「動作」させることで、スタックの構造を変える可能性があります。これにより、遅延やコストが削減され、より自然な会話インターフェースが実現されるでしょう。

ボイスエージェントが機能するためには、人間の音声を取り込む(ASR)、その入力をLLMで処理し、出力を返し(TTS)、そして人間に対して再度音声で返答する必要があります。

LLMが会話の流れや感情表現を管理するアプローチがある一方で、他のケースでは、感情の追加や中断の処理などを担当する独自のエンジンが使用されることもあります。

引用:https://gamma.app/docs/a16z-Real-Time-Conversational-Voice-AI--m3v486p98gt7jol?mode=doc 

音声エージェントの技術スタックで先行している企業

最後に、この領域で先行している企業をいくつかご紹介します。 各社がWEBサイト上で音声エージェントのデモを公開しています。ぜひ、試してみてください。精度に驚くと思います。

AI音声エージェントの可能性に目が離せませんね。


この記事はa16zのパートナーのOlivia MooreさんのXスレッド、およびa16zの資料をもとに再構成しました。


いいなと思ったら応援しよう!