Whisper APIとChatGPT APIを使用して、超速で返答してくれるAIキャラクターを作ったよ!

はじめに

先日公開されたChatGPT APIをご存知の方は多いと思います。
実はその時に同時にWhisper APIと呼ばれるAPIも公開されました。

Whisper APIは現在世界最高精度を誇る音声認識モデルです。
非常に精度がいいんですが、同時にモデルが大きくて使うのが大変、という問題があります。
今回公開されたWhisper APIはその問題を解決してくれます。
Whisper APIは音声ファイルをAPIに送信するだけで、音声認識の結果を返してくれるのです。
なので使用するメモリは最小限で可能。
しかも、とても速い。
CPUのみの環境だと、ローカルで使用した場合の十数倍速いです。

今回はそのWhisper APIとChatGPT APIを使用して、超速で返答してくれるAIキャラクターをUnity上で作成したので、そのご紹介をします。

ではさっそくご覧ください。


どうですか?
すごく早くないですか?
ほとんど人間相手の会話速度と変わらないレベルでの速度で返答してくれていると思います。
これなら日常的にAIキャラクターと会話することも問題ないレベルです。
使用金額も、一時間の音声の書き起こしで約47円。
実際の会話だと、人間側の音声のみの録音でしょうから、それの数分の1。
一時間ずっと会話しっぱなしでも10円ぐらいでおしゃべりできちゃいます。
これが音声を録音してデータを送るだけでできるので、デスクトップPC以外でも使えるようになります。

例えば以下のように、スマートフォン上で使うことなんかもできます。


本記事ではこのシステムの仕組みと、今後の展望について語りたいと思います。

システムの仕組み

図の番号に沿って順番に説明していくと、

1. ユーザーがマイクに音声を発話して、音声情報を入力します。

2. マイクはユーザーの音声を常に把握していて、一定以上の音量の音声が入ると、録音して、音声ファイルに保存します。

この時の音声ファイルは、Whisper APIが対応している以下の形式に限定されます。
`
mp3, mp4, mpeg, mpga, m4a, wav, and webm.
`

3. 保存した音声ファイルをWhisper APIに投げます。

この時のコードは昨日書いた記事に載せているので、良ければ参考にしてください。

4. Whisper APIから音声の認識結果が超速で返ってきます。

5. ChatGPTのAPIに音声の認識結果を投げます。

ChatGPTへのAPIの投げ方や使い方は記事:ChatGPT API の使い方が参考になります。
またUnity上でChatGPTのAPIを使う方法は記事:Unity上でChatGPT「text-davinci-003」APIを実行する話を参考にしました。

6. ChatGPTのAPIから投げかけた文に対する返答が返って来ます。

7. ChatGPTから返ってきた文から必要な部分だけ抜き取り、Dispalyに結果を表示します。

8. UserがDisplayに表示された返答を読み、また応答を返します。

このような仕組みで成り立っています。
非常にシンプルで、必要なスペックもほとんどありません。
スマートフォンどころか、ある程度の録音ができるデバイスなら大抵のもので使えるでしょう。
誰でも、どこでも、AIと会話できるようになる。
そしてAIの支援を受けられるようになる。

これからの時代はそのような世界になっていくと思います。

今後の展望

需要があるようなら誰でも簡単にAIキャラの設定とOpneAPIのKeyを入力することで、スマートフォンなどでAIを使用できるアプリを作成して公開しようかと思っています。
やっぱりAPIをたたくとか、エンジニア以外にはまだ難しいと思うので、だれでもAIキャラクターと話せる体験を試せるようなものを作ろうかなと。
画像の設定と、キャラクターの特徴や設定とかをカスタマイズできて、いろんなキャラクターが見れるようになったら楽しそうですよね。
以前一日で俺の嫁を作る方法 ~一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう~という記事でもAIキャラクターを作れるアプリを公開したのですが、あれは使うのに必要な知識が多すぎてあまり使われなかったので、今度はできるだけ簡単に使えるものを作ろうと思っています。
公開するときは記事を書いて紹介する予定なので、その時はまた読んでくださいね。

この記事が気に入ったらサポートをしてみませんか?