見出し画像

Geminiに音声インターフェースでアクセスできるようにしてみた

最終的にはラズパイ5で動かしますが、Mac上で流れの確認

GeminiのAPIキーが今は無償で取得できるのでそれを取得して、音声認識結果をGeminiのリクエストにして、回答結果を音声で読み上げる流れ

まだ流れの確認だけなので、チューニング(ユーザーエクスペリエンス的な)はこれからだし、不具合もあります

音声認識と音声合成はクラウド(Gemini)は使わずクライアント側で完結させるのが、プライバシー上は良さそうなのでGeminiのリクエストは通常のテキストベースと差はありません

本来やりたいことはDialogflowを使ってChatbotにすること、Dojoでも使えそうではないかと思う

ラズパイ5でも動かしてみた、体感速度的には問題ない

全体の構成

VNCの画面は、

動作サンプル

あまりに長いレスポンスを読み上げるのは、プロットを追えなくなりそうなので適宜省略した方が良いように思う


いいなと思ったら応援しよう!