見出し画像

頭で考えるだけでなく、実際に行動に移す人は何歩も先を歩んでいる(ChatGPTアプリ投稿を観た感想)

こんにちは。すうちです。

先日、AIの進化の過程で近いうちに実現しそうなことについて、個人的な意見を投稿しました。

その中で、以下のようなことを書きましたが、、、

また、既にChatGPTのテキスト入力で実現できていることもスマートスピーカなどに組み込めば、昔SFで見た世界のように本当に対話型で色んな相談もできる気がします。

技術的には、音声認識のテキスト変換は可能なので、そのテキストをChatGPTのAPIを介して入力した結果を音声で返せばプライベートなアシスタントぽさが更に増しませんか?

既に実現している方がいました。


ChatGPT x ラズパイ

魔改造ファービー

投稿者のジェシカさんはエンジニア(プログラマ)をされてる方で、学校の課題(とは何ぞや!?)提出のためアイデアを思いついて、実際作られたようです。

実装はマイク音声をテキスト変換してChatGPTに入力。回答テキストを音声に変換してUSBスピーカから出す。処理はラズパイ(Raspberry Pi)上で実現しているようです。将来的にオープンソース化も検討中とのこと。

音声テキスト変換はOpenAIの「Whisper」、テキスト音声変換は「Narakeet」を使っているとあります。

ちょっと調べた範囲では、Whisperはpipでインストールすれば使えるのは良いですが、トークンが必要で有料のようですね。

Narakeetはテキスト入力すると音声ファイルを出力してくる無料オンラインサイトです。これってAPIはないのかと思っていたら、以下にありました。


音声対話、小型ディスプレイ表示

ちなみに、他にもChatGPT x ラズパイと検索すると、実装方法やコードを公開されている方もいました。


投稿をみた感想

この辺「技術的にはできそうだな」と考えた方も多いと思いますが、少なくとも私の場合は、頭で考えただけで実際に行動するまでには至りませんでした。

個人的な事情を言い出すと、今時間がないとか他の優先度とか言い訳はいくらでもできますが…結果やってないことは変わりません。

投稿だけ見ると、一見難なくできているようにも見えますが、途中過程では語られてない問題もあったはずです。

例えば、マイクの入力調整(音量レベル)やノイズなどで音声が思ったようにテキスト変換できないとか。そもそもChatGPTにつなぐネットの通信が上手くいかないとか。回答テキストが誤って変換されるとか。。。様々なデバッグやテストを経て今に至ると想像します。

最近思うのは、頭で理解したつもりでいるのと、実際に手を動かして経験することは雲泥の差があるということです。

自分で実装して投稿されてる方達をみて、尊敬の念(ちょっとだけ羨ましさ)や好奇心を持って取り組む姿勢をいつまでも忘れずにいたい気持ちを抱きました。

また、単純に技術的に面白そうだなとか、自分もやってみたいと感じました。

個人的には、Open AIのChatGPTやWhisperは有料プランがいいのか?とか。軽いテストなら無料範囲でも行けるのか?とか気になることもありますが、ライブラリをインストールすれば、Pythonから手軽に使える点もいいですね。

。。。という、

今回は、ChatGPTに関する投稿の紹介と自身のメモのような感想noteでした。

最後まで読んで頂き、ありがとうございました。


いいなと思ったら応援しよう!