うわっ…私の川柳検出、精度低すぎ…?
わずか数分の入力でも、全然結果が揃わなかった。
川柳検出
自分は、見たテレビ番組などに入っている川柳を検出している。
すなわち、テレビ番組などで流れた音声や文字列の中から、575になっている部分を抽出している。
なぜこんなことを始めたのかはよくわからないが、とにかく検出している。
しかし、自分は頭が悪いので、
川柳を見逃す・聞き逃す
せっかく検出した川柳を記録する前に忘れる
無い川柳をあったと錯覚してでっち上げる
などのミスが少なくないようである。
もう何年も川柳を検出しているのに、いまだにミスが少なくないようである。
0655・2355
0655・2355 は、NHKのEテレでやっている番組である。
基本的に、月曜日から金曜日まで毎日やっている。
0655 は朝の6時55分から、2355 は日付が変わる直前の23時55分からやっている。
今週は、これらの番組で自由研究の特集がされていた。
そのため、朝と夜に同じような内容が放送されていた。
わざわざ似た内容で少し変えるとは思えないので、多分全く同じ映像だろう。
もし川柳検出が完璧であれば、同じ映像を見たら、全く同じ検出結果になるはずである。
離れた日に見たら、検出ポリシーの変化などにより異なる結果になるかもしれないが、今回は同じ日なのでそれもないはずだ。
というわけで、実際の検出結果を確認してみよう。
実際の検出結果の比較
以下は、実際に今週の 0655・2355 で自分が検出した川柳のリストである。
なお、8月12日はパリオリンピック閉会式の影響か 0655 が無く、8月13日はなぜか 2355 がお休みで無かったので、比較ができない。
そのため、比較ができる3日分のデータを掲載する。
なお、今週の 0655・2355 では、自由研究の特集以外の部分もある。
そのような部分では、内容が同じだとは限らず、川柳検出の結果も異なるのが正しいことがある。
しかし、恣意性を避けるため、今回はそのような部分も区別せずに比較を行った。
それぞれの日において、比較結果を以下のように表現した。
同じ川柳を検出した:黒い字で表記し、実線で結ぶ
同様の川柳を検出したが、数文字の違いや表記揺れがある:青い字で表記し、点線で結ぶ
一方でのみ川柳を検出した:赤い字で表記する
8月14日 (水)
0655 と 2355 で共通して検出した川柳もそこそこあるが、0655 だけ・2355 だけで検出した川柳も少なくない。
すなわち、この日は 0655・2355 ともに川柳の見逃しがそこそこ発生しているらしいことがわかる。
また、認識が「最後も」と「最後の」で違っている川柳もある。
8月15日 (木)
この日は、0655 だけで検出した川柳もあるが、2355 だけで検出した川柳が多い。
すなわち、0655 で川柳の見逃しが多く発生しているようである。
表記揺れが出ている川柳については、0655 では文字列も参考に検出しているのに対し、2355 では音声のみで検出しているようである。
8月16日 (金)
これはひどい。
0655 と 2355 で共通して検出した川柳がゼロである。
唯一共通した位置で検出した川柳も、「あり」と「ある」の違いが出ている。
川柳の内容から、同じ内容をやっていたらしいことはわかる。
朝も夜も調子が悪かったようである。
まとめ
同じ内容を見ているはずなのに、自分の川柳の検出結果には違いが多く、信頼性が低いことがわかった。
個人的に勝手にやっているだけなので問題にはならないかもしれないが、仮にこれが仕事だったとしたら、自分が請け負うのは難しいかもしれない。
本気で川柳検出の精度を上げたい場合、リアルタイムで1回見るだけでなく、録画し、数回 (3~5回程度?) 見て川柳検出を行った結果をマージしたり、忘れたり認識が怪しかったりしたら巻き戻して確認したりといった工夫をすることで、精度を上げることができるかもしれない。
なお、「同じ映像を見ているはずなのに川柳検出結果に違いがある」ことにより「川柳検出の結果がブレており、信頼性が低い」ことはわかるが、今回紹介した川柳検出結果をマージするだけで正しい検出結果が得られるとは限らない。
2回見て2回とも見逃したり忘れたりしてしまった川柳もあるかもしれないし、勘違いして実際には無い川柳を記録してしまっているかもしれない。
今回紹介した川柳検出の対象となった自由研究のコンテンツは、今週だけでなく前から何度も放送されているので、それらとも検出結果を比較してみるのもいいかもしれない。
また、このような短い番組だけを対象にするのではなく、より長い番組とその再放送で川柳検出の結果を比較してみるのもいいかもしれない。
今回明示的に川柳の検出結果を比較してみて、またひとつ、自分の頭の悪さを思い知ることができた。