落語を聴いた、その記録を残したくて音声とかAIとか

shike(四家正紀)…話芸(落語・講談・浪曲)×IT・マーケティング

2024年8月19日 21:13

ブログ書く時間が取れなくて

いつの頃からか、落語を聴いたあと、毎度のようにブログを書いていた。

元より自分の備忘録ではあったのだが、けっこう多くの人に読んでいただいていた。

ある落語会に行った時に、今日はあなたのブログを読んで、ここに来ましたと言われたこともあった。

ただ、Google のアルゴリズムが変わったせいなのか、昔に比べてアクセス数はとてつもなく減少し、まあそれもしょうがないかなという風に思っている。

備忘録としての価値はある。たとえば先日亡くなられた桂米丸師匠の高座をいつどこで聴いたか。

なんてふうに、あとから振り返ることができる。

しかし、色々と忙しくて、また加齢が進んだおかげ手も頭も老化が進み、作業効率が下がってしまい、なかなかブログを書けなくなってしまった。なさけない。

喋るだけならなんとか?

何かうまいことできないものかと考えていたら、三遊亭わん丈さんがstand.fm というポッドキャストのような音声配信サービスの宣伝を兼ねて、番組配信をはじめた。

じゃあ、こちらもその宣伝に乗っかっろうということで、ブログの代わりに落語会の感想をstand.fm番組の形で発信することにした。
ちなみに第1回はわん丈さん出演のstand.fm のイベントを楽しんだ直後に、会場近くの路上で録音し、即、配信した。まるで声のツイートだ。

その後、ブログを書く暇が取れないなかで、とりあえず喋るだけだったらまあなんとか記録にはなるかな。という感じでちまちま配信を続け、番外編を除いても番組数はもうすぐ200回になる。

どこで喋るか

「喋るだけだったら、なんとかなる」と言ってしまったが、意外と難しいのは喋る場所だ。
まず自宅でやっていたらほぼ100% 家族に怒られる。うるさいと。また録音に邪魔な生活音も多い。さらに、猫が鳴く。

まず、一番適しているのは駐車中の自家用車の中だ。
なにしろ誰にも怒られない。ふだんは雑音も入りにくい。

たたやはり欠点はある。
まず夏は暑い。エンジン回せないのでエアコンが使えないからだ。
あと雨が降るとうるさい。車のボディの天井に雨が当たると結構な雑音になる。

で、最近は暑いので主に近所の公園で録音している。多少雑音・環境音は入るけど、まあそれぐらいはご愛嬌かなと。でも雨には弱い。

コロナ禍のオンライン会議で経験した人も多いと思うが、「喋っていい場所」って、なかなかないものだ。

ただstand.fm は簡単にBGM をつけられるのがいいところで、また録音の際にノイズキャンセリングがある程度効いているらしい。
そんなこんなで、多少のノイズが入っても、まあなんとか聴くことのできる配信にはなっているみたいだ。

できるかぎり落語会終了直後にさらっと録音して、関連データと写真を入れて配信する。
リスナーはごく限られているが、まあそれはいいやと。
stand.fm からYoutube Spotify Listenにも自動的に配信されているので、一体何人聴いているのか、あんまりわからない。

再び文字へ

こうやってブログの代わりにポッドキャストで落語を聞いた記録をつけていたわけだが、やっぱり文字にも残したいという気持ちがあった。
何しろ検索しやすいし一覧性あるし。ブログ好きだし。

ここで2つの選択肢があった。
一つはstand.fm の中にAI による文字起こしサービスを使うこと。
ただ、無料で使える尺が限られているのと、文字起こしを修正するのがちょっと手間がかかる。

もう一つはListenで、これはstand.fm のRSSを読み取って音声を2次配信してくれるサービスだが、AIにより音声から文字起こしをすることができる。
単純に文字を起こすだけだと、stand.fm でもListenでも、それほど性能に変わりはない気がする。
ただListenは一括置換による修正が可能で、しかも置換の際にワードを辞書として登録できる。

たとえば、僕の発音が悪いのか、録音の性能なのか、 AI の問題なのかははっきりしないが「3優手長吉」と文字起こしされたとする。
このままでは使えないので、「3優手」を「三遊亭」に一括置換で修正する。
このときにチェックボックスをチェックするだけで、以降「3優手」と認識されたテキストは自動的に「三遊亭」に置換するように、辞書登録される。

つまり、文字起こしを修正すればするほど辞書が充実して、文字起こしの精度が上がり、読める文章を起こせるようになっていく。あまり一般的でない用語や固有名詞が多い落語関連のテキストでも、けっこういい感じにテキスト化してくれるようになる。

さらにAIで記事にする

こうやって自分のポッドキャスト音声配信をAI文字起こしをすると、いろんなことが分かる。
まず、喋り言葉というのは、やっぱり結構無駄があって、僕の場合特にその傾向が強い。
「あー」「ほんとに」など間をつなぐようなキーワードが多い。音では気にならなくても、文章として読む上ではただ邪魔でしかない。

じゃあもうひと手間かけようか。
この文字起こしのテキストをコピーして、また別の AI に「冗長な部分を改めて、ブログを書いて欲しい」と依頼してみる。

そこそこにプロンプトを入れると、まあまあ読める文章に変えてくれる。
もちろん出来としては「なんとか読める」くらいなので、ある程度手を入れて、修正したり順番変えたりする。でも、1から書くよりはやはり楽だと思う。
時に、まずスタンド FM で音声コンテンツを作っておきに listen でこれを文字起こしする。時間がある時にレッスンで文字起こしをした。テキストを他の AI に突っ込んでブログ記事の下書きを書く振ろうとしてはここまでできた。試行錯誤をしているのはどの？ AI がテキストを書くのに一番適しているのか？
やはりClaudeが一番良さげではある。Copilotもまあ使えなくはない。この辺りはまだまだ研究の余地があるし、システムもまた進化するのだろう。

現在の作業フロー

ということで、最近、落語会に行ったあとは

stand.fm で感想を録音・配信
Listenで文字起こし→手動で修正
XやFacebookでListenの「音声プラス文字起こし」を拡散
Listenの文字起こしをAIに突っ込んでブログ下書き作成
ブログで改めて公開、XやFacebookで拡散

こんなことをやっている。
もっともListenの文字起こしだけはなんとかこなしているが、ブログについては、いまのところまだ5月分も書けていない。徐々に片付けたいが、どうなるか。

ポッドキャストは勢い優先

こんなことをやってるうちに、わかったことがある。
ポッドキャスト番組のために喋ったものをテキスト化して読んでみると、自分があんまり深く考えずに喋っていることがわかるのだ。
ブログを書くときは、もう少し頭の中で考えて、いろいろ調べたことを追加したりしていた。
だから時間かかっちゃうんだけど。

僕の場合、いくら整えても、自分が喋ったポッドキャスト文字起こしはブログの記事としては情報に厚みがない。ペラペラな感じ。自分の文章とは思えないこともある。なので情報を足したくなる。

まあでも、そもそも時間が取れないのだから仕方ない。
大事なことは記録を残しておくこと。いま僕が聴いた落語の話を記録しておいて、5年後10年後に、自分や他の誰かの役立つことがあり得るのだ。ログってのは大切だ。
なんとかできる限り手間をかけずに、最新技術の手を借りながら自分が聴いた落語の記録を残すために、これからも工夫していくつもりでいる。

ちなみにこの文章はスマホGoogle音声入力でnoteに直接書いてみた。
思いつきを喋るだけであっという間に2000字を超える分のテキストを作成できた。
最初からnoteに載せることを前提に音声入力しているので、ポッドキャストの文字起こしより、まともな文になっている気がする。
ただ読み返すと、やはり情報は足らないので、あとから手動であれこれ足してみた。

いいなと思ったら応援しよう！

サポート?奇特な方ですね。そうですね。落語会開催・落語鑑賞・有料コンテンツ鑑賞などに使わせていただきます。くれぐれもご無理なきよう。