
Geminiに音声インターフェースでアクセスできるようにしてみた
最終的にはラズパイ5で動かしますが、Mac上で流れの確認
GeminiのAPIキーが今は無償で取得できるのでそれを取得して、音声認識結果をGeminiのリクエストにして、回答結果を音声で読み上げる流れ
まだ流れの確認だけなので、チューニング(ユーザーエクスペリエンス的な)はこれからだし、不具合もあります
音声認識と音声合成はクラウド(Gemini)は使わずクライアント側で完結させるのが、プライバシー上は良さそうなのでGeminiのリクエストは通常のテキストベースと差はありません
本来やりたいことはDialogflowを使ってChatbotにすること、Dojoでも使えそうではないかと思う
ラズパイ5でも動かしてみた、体感速度的には問題ない

VNCの画面は、

あまりに長いレスポンスを読み上げるのは、プロットを追えなくなりそうなので適宜省略した方が良いように思う