商談解析を支える音声認識エンジンの挑戦
こんにちは、amptalkの髙信です。
このたび、グローバルブレイン様、エンジェルブリッジ様をリード投資家として総額10億円の資金調達を実施させていただきました。ご投資くださった投資家の皆様、関わってくださったチームメンバーの皆様、改めて深く感謝申し上げます。
この投稿では、資金調達を機にamptalkの音声認識エンジンを中心に振り返りを行ってみたいと思います。
amptalkとの出会い
本題に入る前に軽くamptalkに参画した経緯をご紹介できればと思います。
amptalkと関わり出したのは今からちょうど4年前の2020年になります。
代表の猪瀬からメッセージを受け取ったことから、まずはプロダクト作りのお手伝いエンジニアという形でスタートしました。当時私は独立の流れからフリーランスとして働いており、その形態を活かして幅広い機械学習プロジェクトに関わりたいという考えを持っていたので、当初は"固定された組織の中"でという気は正直あまりありませんでした。
しかし自分たちの考えがプロダクトとして形になっていくのは言葉では表現しきれない感動があり、シンプルに自分たちが作ったものが世の中にどう影響を与えていくのか見てみたいという想いも生まれ、また、猪瀬の自身のビジョンに対する圧倒的な熱量とその行動力(AIの学習データのアノテーションすらやっていた)、ソフトウェア開発に対する深い想いと高い開発力をもつCTO鈴木に惹かれ、この2人とならやるしかないなと思い参画することを決めました。
鈴木の専門はアプリケーション開発であるのに対して私がAIの開発であったので、amptalkというAIが搭載されたプロダクト開発という点で見ても、それぞれの強みを活かした価値を生み出せると感じました。
自社開発の音声認識エンジン、その理由と挑戦
OpenAIの衝撃
amptalkをAIの観点から見ていくと、amptalkで扱っているAIのメインの分野は音声認識と自然言語処理です。ご存知の通り、2022年にOpenAIよりWhisper(音声認識)とChatGPT(自然言語処理)がリリースされています。
我々はこれらの分野のAIをほぼスクラッチで作っていたので、この驚異的なAI達の出現により、強制的にゲームチェンジをさせられることになりました。特にWhisperに関しては大変なものをオープンソースにしてくれたなぁという感想でしかありませんでした。当時日本語の音声認識をするとしたら自分たちで作るしか選択肢がほぼ無かったという状況だったのです。
音声認識エンジンを1から作るのは技術的にも日本語という少ないデータソースであるというデータの面でも容易ではなく、それまでは単純に日本語の音声認識という点で参入障壁になっていたと思います。しかし、Whisperの登場により一気に音声認識のコモディティ化が進み様相が変わりました。これにより、この市場への参入が(技術的には)しやすくなりました。
Whisperを使うか?自分たちで開発するか?
社内でもエンジンをWhisperに変えようかという議論もたびたび出ましたが、自社開発するという結論に至っています。amptalk analysisは商談を解析するためのプロダクトです。仮に1日あたり4商談をする場合、月に約80時間であり、そのコストはかなりのものになり単純にAIの精度だけで決めることはできません。
自分たちで作ろう
たしかにWhisperは高精度でありかつ、APIすら提供されており扱いやすいのは事実ではありますが、我々のビジネスにおいて適しているのか考えるべきです。書き起こしのコストは結果プロダクトの利用料に反映される形になるため、お客様へ提供する価格として適切なのか疑問が生じます。そこから導かれた結論は高精度で低コストな音声認識エンジンを作ろうといういたってシンプルなものです。まぁそりゃそうなるよねっていう話ではあるのですが、実際、技術的にはチャレンジングなものでした。
固有名詞を書き起こす挑戦
商談解析においては業界の固有名詞を正しく書き起こせることがとても重要です。例を挙げると、弊社であれば「amptalk」という単語です。固有名詞を正しく音声認識する問題に関しては、ビッグテックからも頻繁に論文が出されており、これはつまりこの問題の難易度の高さを示しています。LLMの登場により、LLMを音声認識エンジンと統合させるという手法も提案されておりその難易度はだいぶ低くなってきているようには感じられますが、音声認識エンジン単体で正しく認識させるのは依然として難しい問題です。やや技術的な話ですが、Whisperであればプロンプトを使って固有名詞の認識精度を向上させることは可能ですが、以下の論文にもある通り問題が指摘されております。
新音声認識エンジンの完成 高精度と低コストの実現
結果として、Whisperを超えた精度(Common Voiceデータセットによる精度検証)と固有名詞の認識、圧倒的低コストな音声認識エンジンの開発に成功しました。一般的にはより多くのパラメータがあれば(AIのサイズを大きくすれば)高精度なAIになるというがここ最近の常識ですが(もちろんデータの量が一定ある前提です)、パラメータを増やすとその分計算すべき量が増えることになり通常高コストになります。
精度とコストにはある種のトレードオフの関係があり、ビジネスでの利用となるとこのトレードオフの問題に向き合わなければなりません。しかしamptalkの音声認識エンジンは高精度でありながら低コストであるといういいとこ取りのAIの開発に成功しています。開発に関わってくださったエンジニアと以下でお話しするアノテーション組織には感謝しかありません。
本日、音声認識エンジンについてこちらでリリースを出させていただいておりますので、こちらもぜひお目通しいただけますと幸いです!
amptalkの音声認識エンジンの精度など、より技術的な評価についてはまた別のブログ等でご紹介したいと思います。
とにかくAIを学習させ続ける
amptalkの音声認識エンジンの成長は今この瞬間も続いています。新しい学習データ、新しい手法などさまざまなトリガーを基にAIが学習し続けており、継続的に精度が向上しております。この仕組みについては自動化がなされており、以下の記事で過去に紹介をしました。こちらは技術的な内容ですので、もしご興味があるようでしたらぜひご一読くださると幸いです。
高品質な学習データ アノテーション組織の取り組み
高精度なAIを作る上で最も重要なのは、結局は良質な学習データというところに行き着きます。高品質な学習データ作成のため創業当初からアノテーション組織を整備してきました。データの特性に合わせたアノテーションのラインの作成、専用のアノテーションツールの開発などアノテーションの生産性向上にこだわりを持って進めてきました。
くわえて、以下の流れのいわゆるHuman-in-the-Loopを構築することで、修正箇所が減っていくことによりアノテーションの負担も減り生産性が向上していくという複利的な作用が働きます。
AIで音声データを書き起こす
書き起こされたデータの誤りをアノテータが修正する
修正されたデータを使ってAIを学習させる
1に戻る
AIの学習に与えるデータならなんでも良いというわけでもなく、以下の論文が示すように学習データを戦略的に選ぶべきであるということです。(技術的な話になってばかりですみません)
amptalkでもこれに倣って、特にAIが苦手とするデータを選定しアノテーションしております。
Human-in-the-LoopおよびActive Learningについてはこちらの書籍が詳しいので、アノテーションにご関心のある方におすすめします。
これから
弊社のプロダクト商談解析amptalk analysisは大変嬉しいことに多くの企業様にご導入いただいております。
現在のAIの成長は著しいものがありますが、今後は以下の記事にもあります通りLLM単体での推論ではなくAIエージェントとしての可能性を探究してく方向になることが予想されています。
これはとてもワクワクする世界であり、セールスにおいてももちろん例外ではなく大きな変革を与えられる可能性を示していると思います。私自身としても機械学習エンジニアという視点からセールス領域に貢献できるよう精進してまいります。
最後に、資金調達を通じてさらにセールス領域を加速させていくamptalkを引き続きどうぞよろしくお願いいたします。
採用
amptalkはあらゆるポジションで積極採用中ですので、ご興味のある方はぜひご連絡ください!