Instant Assistant - AIをもっと手軽にもっと使いやすく!

Gemini API Developer Competitionの応募作品です。(あ、字幕はONにしてください、説明書きが表示されます。)

過去に、私が言った「少し先の未来(そう遠くない未来)の形」を描いたものになります。

動画を見ると、前に言っていた高速なレスポンスを体感できると思います。
※ Gemini APIのやりとりだけであればメチャクチャはやいです。特に文字起こしの部分が純粋にほぼAPIだけの処理なので早いです

もし、私の仮説が正しい場合、まだ、機能は実装していませんが機械学習より前の既存のライブラリも統合されてくるのではないかと考えています。

例えば、pdfをテキストに変換するライブラリがあれば、今までプログラムで実行していた処理を音声アシスタントにドラックアンドドロップする形に変更することが起こってくる気がしています。とりあえず、何でも「ぽいぽい」と音声アシスタントにファイルをドロップする未来を描いています。(笑

既存のAIを活用する製品は調べていませんが、例えば、Microsoftであれば、Office製品があるわけですから、Cortanaがパワーアップして、テキストからWordに仕上げてくれたり、実はバイナリをデコードすることが出来てWordを要約することも可能になるなど、各社でないと出来ないこともアシスタントに組み込まれてくるのではないかと想像しています。何となくですが、AIによる有用性が認められば、各社がAPIを公開することにより横断的に製品の恩恵を受けられるのではないでしょうか

大層なことを言いましたが、これがヒットしなくても、最低限、自分が使えば製品はお役御免にはなりませんし、引き続き、自分のために自由にカスタムしていくこと、カスタムする機会が与えられるのはプログラムを学ぶメリットかと思っています。

今回、デスクトップアプリとして作りましたが、特にスマホの分野で、GoogleやMicorsoft、Apple、metaなどが音声アシスタントを発展させて、いい感じに楽しめる音声アシスタントまで昇華してリリースしてくれるのではないかと期待しています。きっと、もうすぐだと思います。

長文、失礼しました。

これからソースコードにある大量のコメント行とか削除して、投稿フォームから応募しようと思います。今日か明日?

もし、気に入ったらvoteをご検討ください
https://ai.google.dev/competition/projects/instant-assistant

Gemini API Developer Competition
Gemini API デベロッパー コンペティション 応募作品 #BuildwithGemini #Gemini #competition