今週の旅bot達の様子。
ここ一週間の三姉妹の道程
mi
お疲れ様。竹島と硫黄島を回ってます。道の周りの草がすごいです。こういう場所だとstreet viewの有効コースがない場合が多いので、経由点を選ぶときはstreet viewのガイドを確認しつつになります。
mu
お疲れ様。岡山市に到着してから次にどこに行こうかと思ったのですが、miと同じく少し小さめの島巡りを入れて、小豆島方面に行くことにしました。miそのものはもう数年以上動かしており大きな幹線はすでに通っているので今回は小島巡りを入れていこうと思います。
(1年以上更新しませんがこういった感じ)
mei
お疲れ様。トレントンとプリンストンを経由して東に向かっているところです。プリンストンって名前はたまに聞くけどこういうところにあるのか。ここも文化施設が多そう。とりあえず大きな施設を見つつそのまま東に向かいます。
llm-jp-3を追加しました
llm-jp-3もなんとか追加してみました。
実際に使ったのは量子化版をollama起動の形です。
llm-jpは以前出していたllm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0で旅botに取り入れられるか検討したのですが、以前の版だと反応が微妙だったのとollamaなどの量子化ツールを取り入れてなかったこともあって使っていなかったものです。
llm-jp-3だと旅bot向けでも反応がよくなった感触です。箇条書きが少ない点などTanukiにも少し似ているかも。
リアルタイムTVCMフィルターのその後
あの後、動画キャプチャー処理を調整した結果、現在認識と赤外線操作も含めて1.5秒~2秒くらいで処理出来るようになりました。認識の仕方にもいくつか工夫+割り切りを加えて結果として
自分としては十分満足いくCMフィルタになった
という感じです。もちろん100%のフィルタリングは原理から考えても不可能なので割り切りの上です。
短所
ドラマ仕立てCMは最後のシーン以外ほぼ検出できない
バラエティー番組は消音が入りまくる
CM時間の入りたては2秒くらいはCM音声が聞こえてしまう
番組画面に入った直後は15秒くらいは消音してしまう
番組内でもいかにも派手なテロップや商品を扱ったようなシーンで誤消音は起きる
長所
前も書きましたが自分的にはTVはほぼBGM代わりで、がっつり見ることはほとんどなくなったので短所はほとんど問題にならないのです。その前提の上で大半のCM(体感的に85%くらい)の音声が消えるのはすごく快適です。
現在問題なのはフィルタ性能より、複数AV機器がつながっている関係で複数のリモコンを操作しなければならず番組切り替え操作が少し面倒、まだRaspi周りのアプリ起動や電源を自動化していないので、使い始めと使い終わりで少し設定作業が必要なところです。
でもそのあたりはぼちぼち手を入れていこうと思っています。
あとバラエティー番組はさすがに音が切れすぎるのでワン操作で機能オンオフは必要かなというところです。
ChatGPTはLLMによるTVCMフィルターを発想できるか
ところでこのCMフィルタの動機の一つ
「TVCMがうざったいんです。どうすればよいですか?」
をChatGPTに聞くとどうなるでしょうか。
LLMを使ってTVCMをフィルタすることが前例がないかどうかは知りませんが、少なくともググってその語や概念が出てくるようなメジャーな言葉ではありません。つまり語としてその概念をChatGPTが知っているはずはないです。
前回の記事を書くときに「ChatGPTに聞いたらどう反応するのだろうか」と思いつき、記事を出す前に質問したのです。
以下ChatGPT4oとの会話を長いですが興味深いので記述します(まるまる読み飛ばしてもOKです)。
最終的に今回のシステムと同様のものを作成することが可能ですという結論に行き着きました。
冒頭の問いかけは「×××に困っているんです」という目的が曖昧な問いかけなので返答もやや曖昧なのですが、問いかけを絞っていけばかなり詳細な結論に絞られていきます。
この結果に少し驚きました。ただ私はすでに現状のLLaVAを使ったTVCMフィルタを作った後なので、ChatGPTへの議論で、その結論に進むように問いかけを意図して選んでいます(「上記を組み合わせて、自動でCMを消音するシステムは作れませんか」など)。
ここで意図的に問いかけをしなければ、普通は初期の会話の結果で結論が完了しているでしょう。
これは「いままでにないものをLLMが作ることが出来る」ことを示しているのか、それとも「いままでにないものを今のLLMだけでは作ることが出来ない」ことを示しているのか。
最終結論は作成可能に行き着くのに、現状は議論を誘導しなければならない。この点は現状のLLMには解がない。でもどこかの段階で必要になる時が来ると思います。
ただ、今のほうがかわいげがあるかもしれないですね。
追記:
今、同様の質問をChatGPT-o1-previewにしてみました。長くなるのでテキスト添付にしますが上記の話しをシンプルな返答にして法律家との相談をすべきという内容が追加されたくらいで大枠は同じです。
法律の検討が必要というところまで出るあたりは、常にユーザの問いかけを考えるだけでなく、一旦問いかけから離れることをしているということなのかな。