見出し画像

エンジニアが語る対話型音声AI SaaS IVRyの可能性

この度、IVRyは2024年5月にシリーズC 30億円の資金調達を発表しました。
調達した資金の大事な活用用途の1つが、技術面のさらなる強化。
そこで今回は「エンジニアが語る対話型音声AI SaaS IVRyの可能性」をテーマに、Principal AI Engineerの花木さん、Principal Engineerの成田さん、AI Engineering Managerの町田さんにお話いただきます。
さらに詳細はPodcast「IVRy Talks」でお聴きいただけます。


現在、IVRyには音声データにAIを掛け合わせるプロダクトに将来性を感じ、技術力の高いエンジニアが続々とジョインしている状況です。
花木さんは過去にGoogle本社でGoogleアシスタントを開発、成田さんはクックパッドのCTOを6年間務め、町田さんはエクサウィザーズでAIチームのマネージメントを経験しています。

ChatGPTの登場で思い描いていたプロダクト構想がスピーディーに形に

ーー まずIVRyのローンチ初期から関わっていた町田さんに聞いてみたいと思います。ChatGPTが出てくる前からIVRyとしてはAIの可能性に注目して開発を行ってきたと思いますが、具体的にどんなことやっていたのか教えていただけますか。

町田
自分はかなり前からIVRyのサービスに関わっていますが、超初期はプッシュ型の、電話分岐サービスとしてのIVRyのPMFを目標に動いていました。そこはAIありきではなかったんですが、 IVRyがタッチできるデータのポテンシャルについてはかなり前から理解していました。実際クライアントに使っていただくプロダクトを作っていく中でも、データを貯めていく仕組みを最初から入れて設計していました。そういった形でサービスを作っていくと、様々な形でクライアントの課題がデータに現れてくるというのがわかってきます。

例えばホテルだと予約の問い合わせが多いことがわかりますし、 同じ東京にあるホテルでも特定のテーマパークの方に寄っていくとそのテーマパーク関連の問い合わせが増えるといった違いも分かってきたので、やっぱりデータって重要だなと認識しましたね。 こうしてわかってきたことを元に、サイトを自動で出したり、自動で問い合わせに対してAIに答えさせたりといったことができそうだなとは当時から思っていました。

でも プロダクトとして作っていくのは結構まだ難しいなという感覚がありましたね。昔はAIを作る時にトレーニングデータが必要だったので、 それをしっかりとした量作っていかないといけなかったり、作ったモデルを維持管理し続けていけるスキルがある人が一定数必要だったり、 トレーニング自体にもお金がかかるので一定の資金も必要だったり、といった様々な課題がありましたので、これを全部スタートアップでやるのはなかなか難しいだろうという時代でした。

ただ、その当時でも学習が簡単になっていくだろうという流れはあったので2、3年ぐらいしたらやれるようになるんじゃないかと言うのは予想していました。なので、とりあえずデータを集めるところをしっかりやりつつプロダクトを作っていたんですが、 ご存知の通り急にChatGPTが出てきて、この辺の悩みが、全部一気に解決しちゃったと。そこから先は本当にIVRyのスピード感が生かされて、半年くらいでやろうと思ってたことがどんどん形になってきたという感じですね。

ーー やっぱりChatGPTの存在がめちゃくちゃ大きかったんですね。 IVRyで言うと、花木さんのジョインというのも大きかった と思いますが、ChatGPT、LLMをビジネスに落としていく上で、どういった流れや課題がありましたか?

花木
そうですね。まず最初に取り組んだのが今リクルートさんと一緒にやっている、レストランの予約システムをChatGPTを使って作ろうという話なんです。それで 1番最初にやろうとしたのはChatGPTに全部を任せて、ユーザーとの会話を全部やってもらうことでした。 でも、それがあんまりうまくいかなかったんですね。というのも、結構皆さんよく言うんですが、ChatGPTが適当なことを言う現象を”ハルシネーション”と呼ぶのですが、一見うまく会話できているように見えても、そうではなかった。例えば「明日の10時半に予約したい」 と言うと、ChatGPTが勝手に「明日の10時半はもう満席です」みたいなことを言って予約を断っちゃったりとか。

それをどういうふうに解決したかというと、ChatGPTに全部を任せるのではなくいくつか対話する時って、結構いくつかのコンポーネントに分かれるわけなんですが、対話って基本的にはユーザーの言ってることを理解して、それに基づいてシステムの状態っていうのを更新して、システムがユーザーに対して発話を返す仕組みなんですね。この、ユーザーに対して発話を返すところは、うまくやらないと、さっき言ったようなハルシネーションが起きて適当なことを言ってしまうので、手堅くルールベースのアルゴリズムや古典的な機械学習のアルゴリズムを駆使して作っていくことをしました。

ただ、最初のユーザーの言ってることを理解するところというのは、結構バリエーションがあるんですね。言い方のバリエーションもありますし、ドメインが違ったらユーザーが言ってくることも全然違ったりしますし。このバリエーションがある難しいところを、ChatGPTとかを組み合わせていくことで、結構スケールしやすい汎用的なところを担保しつつ、ちゃんと答えられる対話システムを作ることになりました。 こんな感じでサービスを改善していって、もう出せるねという状態になり、先ほどのレストラン予約システムを出す形になりました。

サービスの質改善、ユースケースの開拓、技術ドリブンに新たな可能性にも挑んでいきたい

ーー ひとえにAI活用開発と言っても、最初思い描いていた方向とは違って、 逆にそこから新しい可能性が見つかってという流れがあったんですね。
その流れで伺いますが、今後のAI開発みたいなところってどうなっていくと思われますか?


花木
レストラン予約システムと別に、企業にかかってくる代表電話をAIが一次受けするという、今IVRyで出しているサービスがありますが、1つはこのサービスの質を改善していくことですね。もうユーザーさんに結構使っていただいているので、フィードバックとして機能要望などが結構出てきているので、様々な機能を追加していくことかと思います。

あと今は、レストラン予約とか代表電話のサービスが中心になっていますが、他のドメイン、例えばホテルの予約、クリニックの予約、注文といった新しいユースケースに今後対応していかないといけないかなと思っています。

今あげた2つは割とユースケースドリブンなものですが、3つ目やりたいこととしては、もう少し技術ドリブンな話で、今GPT-4oのような割と新しいモダリティー、例えば音声を入力・出力できたり、画像を入力・出力できたりするLLMが最近出てきていますよね。これに関して、ちょっとまだ表に出せるものはあまりないですが、IVRyのビジネスにはまるようなものが結構あるので、その辺の音声からの理解、画像の理解なども今後手を出していきたいなと思っています。

ーー 電話とか音声だけじゃなく画像までプランがあるんですね。今、花木さんと町田さんの話を聞いて、どうお客さまに使っていただくかに非常にフォーカスを置いた組織だと感じました。成田さんはIVRyにジョインしたのは、3人の中では1番日が浅いですが、外から見て&中から見て、IVRyのエンジニア組織ってどんな組織だと思いますか?

後付けのAI活用ではなく、IVRyはAIがないと成立しないビジネス。だから可能性が広がる。

成田
AIの組織っていろんな会社にあったりしますが、 大体が研究開発の部門にAIのチームがいるんですね。そうすると、プロダクトとAIの距離が遠いということがよくあるパターンなんです。つまり、研究開発のチームが作っているのはいわゆるPoCというか、プロトタイピングとか事業上の課題を投げられてAIでモデルを作って、課題解決とかの精度を上げることをやる。でも結果が出たとしても、あまりプロダクトにいまいち歓迎されなくて、一方AIのチームはお客さんからは遠いしプロダクトにはなかなか入らないし・・みたいな問題を抱えている会社が古典的には結構多かったんです。

もしくは、それだと困るからといってじゃあプロダクトにAIをもっと組み込もうぜってやってる会社は、AIで解く課題が小さすぎるみたいな問題もあると。要は、先の数値の改善に機械学習のエンジニアたちが総動員されて、 データ分析屋さんというか数字改善屋さんみたいになったり、解いている課題が小さすぎるといった問題があったんですね。なんでそういうことが起こるかっていうと、大体AIをプロダクトに導入したい会社というのは、AIが後付けなんですよね。AIがなくてもその製品は売れてるし成長してるけれど、AIをくっつけたいとなって、後から「うちのデータ、うちの事業でAIってどうやって活用するんだっけ。」をやり始めるからAIがサブになるんですよね。

でもIVRyはAI SaaSの会社なんですよね。AIがないとIVRyが成立しないビジネスなんですよ。だから、AIというものがプロダクトの中心にあるし、 町田さんとか花木さんがいるAIのチームが直接お客さんの課題解決をしてるわけです。だから距離そのものがない、AIがプロダクトのコアなんですよね。 ここが他の会社との大きな違いで、僕がIVRyに入社した理由の1つです。令和のこれからの時代に、AIが中心にある会社っていうのはすごく強いだろうな、これからすごく可能性のある組織の形だろうなって思っています。

ーーAIって先ほど町田さんからもあったように、急に出てきた感があって、どうしても後付けになっちゃうところが多いけれどIVRyは全然違うよって話ですよね。そんなエンジニア組織ですが、まだまだ人は足りていないんですよね?どんな方に入っていただきたいですか。

花木
全然足りていないですね。まだAIエンジニアがここにいる2人しかいない組織なので、全然足りてないと思います。これからどんどん入って欲しいです。さっき成田さんが言っていた通り、AIがコアになっている会社で、AI的にも本質的な問題を解いているので、AIの知識があることは大事ですよね。かつ、AIをプロダクトに反映させていきたいので、研究開発だけではなくちゃんと手を動かしてプロダクトが作れる人を求めているフェーズになります。

町田
補足すると、もちろんプロダクトに繋げていくことも非常に重視はしていますが、AI自体に対する深い理解ももちろん必要だと思っています。LLMに代表されるような、言葉を使う分野はNLPっていう ですけど、この辺りは自分と花木さんは結構長いことやってますが、LLMで世界的に取り組んでいる課題って、結構昔からやられてるようなタスクもあるんです。なので、昔こういうところがなぜうまくいかなかったか、といった知識が最初にあるかないかで、最初に取り組むアプローチが変わってくるので、1つの分野に対する深い 理解も必要にはなってくるかなと思っています。
その中でやはりプロダクトに生かしていくところを重視できる方を非常に求めていますね。

AIの専門家でなくともAIを活用できる時代に。知識をアップデートしながらAIを使ってIVRyの未来を作っていきたい

ーー 最後に成田さんにお聞きします。IVRyのエンジニアはどんな方が向いていますか?

成田
今までのAIというものは、AIを専門的に研究してきた人以外にはすごく難しかったんですよ。機械学習を大学でずっと研究してきてっていう人にしかプロダクトに使えるレベルのものを作り上げるのって難しかった。あと単純に機械学習ができても、それをプロダクトに載せるためには、どういう基盤でモデルをビルドして、プロダクトにデプロイしてといった技術も必要でした。したがって、それぞれに詳しい専門家を集めないと、1つのAIプロダクトって作れなかったんです。

でも今それが大きく変わっていて、今は僕ら、ChatGPTとか外部のLLMの基盤にリクエストを投げているわけです。つまり自分で機械学習のモデルを組む能力や基盤を組む能力がなくても、普通にソフトウェアエンジニアリングのスキルセットでAIを組み込んだプロダクトが作れるようになってきてるんですね。

それで、今AI SaaSであるIVRyに必要なプロダクト開発の能力というのは、AIの専門家だけじゃなく、普通のソフトウェアエンジニアでも、LLMを普段の開発道具として組み込んでプロダクトを作っていけるっていうスキルとか考え方になると思います。


IVRyでは、エンジニアを絶賛募集中です。


■IVRyオリジナル音声配信番組「IVRy Talks(アイブリートーク)」とは
IVRyのリアルを伝える!をコンセプトにIVRyのカラーやcultureの社内外への発信を目的として、スタート。毎回ゲストをお招きして、IVRyに関わることになった経緯や働き方、社内メンバーからこの人にはこれを聞いてみたい!といった内容をお届け。

アイブリーの魅力やどんな会社なのかを知っていただく、そして、中のメンバーにはもっとアイブリーのことを好きになってもらいたい!そんな番組となっております。


この記事が気に入ったらサポートをしてみませんか?