Geminiに音声インターフェースでアクセスできるようにしてみた

2025年2月12日 17:54

最終的にはラズパイ５で動かしますが、Mac上で流れの確認

GeminiのAPIキーが今は無償で取得できるのでそれを取得して、音声認識結果をGeminiのリクエストにして、回答結果を音声で読み上げる流れ

まだ流れの確認だけなので、チューニング（ユーザーエクスペリエンス的な）はこれからだし、不具合もあります

音声認識と音声合成はクラウド（Gemini）は使わずクライアント側で完結させるのが、プライバシー上は良さそうなのでGeminiのリクエストは通常のテキストベースと差はありません

本来やりたいことはDialogflowを使ってChatbotにすること、Dojoでも使えそうではないかと思う

ラズパイ５でも動かしてみた、体感速度的には問題ない

VNCの画面は、

あまりに長いレスポンスを読み上げるのは、プロットを追えなくなりそうなので適宜省略した方が良いように思う

いいなと思ったら応援しよう！