見出し画像

我が議事録に一片の隙無し!文字起こしAIで聞き逃しゼロ。GladiaとGeminiどちらが「文字起こし」で優秀か試してやろう。

やり投げ

どーもこんにちわ。
先日、娘の保育園で『1日保育士体験』というのをやってきました。
その保育園では、「オリンピックウィーク」と言う事で、様々な競技をまねるという遊びをやっており、私体験した日は「やり投げ」でした。
筒状の軽い棒を投げて、その飛距離を競うのですが、子どもたちが投げ終わった後、「先生投げて~」ってことで、ヒロ先生も投げました!
子どもたちと比べるまでもない距離。みんなから「さすが先生!」と言われました。結果はわかっていても気分はいいもんですなぁ。
なんて思っていましたら、一番最後に担任の女性の先生がえいっと可愛く投げたのですが、「ブンッ」と風を切ってぐんぐん飛んでいき、ダントツの優勝してました!埼玉の北口榛花かよ。飛んで埼玉!!て言うてる場合か。

優勝をさらわれて意気消沈している帰りの道…
「気にしないの!」と娘が声をかけてくれました。
スラムダンクのゴリばりにかっこいいぜ娘。

←娘 私→

AI自動文字起こし

さて今回のAIシリーズは『音声認識AI自動文字起こし』です。
意外と触れて無かったんですけど、絶対に便利。

例えば、打ち合わせで重要なことをメモったつもりでも、書き忘れてしまうことってありますよね。
録音したとしても、重要な部分がどのあたりかわからない!そんな経験はありませんか?みなさん。
そんな事を悩んでいるあなたにおすすめするのが、この『AI自動文字起こし』
なんかジャパネットの冒頭みたいになってしまいましたが。
今回は「Gladia」とちょっとだけ「Gemini」を試してみました。

なぜ数多あるツールの中からこの2つ選択したかと言えば、
タダだからね!やっぱりタダだからねッ!
タダで使えるものを使わせてもらえ!これが我が家の家訓だからね!

Gladia

Gladiaの文字起こしの技術には、OpenAIの文字起こしAI「Whisper」が活用されています。つまり精度は折り紙付きってわけですね。
では早速「Gladia」サインインだよ!

インッ!


まずはメニューバーの「Playgrand」で開始です。

Gladiaにデータをアップロードする方法は以下の3つになります。

  1. Paste video link

  2. Upload a file

  3. Live Transcription

Paste video link 

これは、インターネット上にある動画のURLを入力することで、その動画の会話を文字に起こすことができるやーつです。これもGladiaの特長ですね。
YoutubeやFacebookなどの動画の内容を文字起こしできるので、ウェビナーやニュースの動画の内容の文字起こしをして要約をさせることもできます。

その辺のYoutube動画を要約させるのは、少し気が引けるので、とりあえずエンプレイの紹介動画で検証してみます。

と思っていたのですが…見てみると

おいおい、コイツ一言もしゃべっていやがらねぇ…

仕方ないので、今回は「100ボケ100ツッコミチャレンジ」を文字起こしします(なんで!?)
このお笑い企画がめちゃめちゃ好きという理由がほぼほぼの理由です。
あとは激しい言葉のラリーの中でも、文字起こしが可能なのか気になるので
、つべこべ言わずやってみます。

↑ご覧いただけました?
このトータルテンボスのやつは、秀逸ですよね!
ついつい普通に1本見てしまいました。
…おっと目的を見失ってましたね。

ではまずこのURLをPaste video linkにペタっと貼り付けます。

ここにURLをペタ

そうすると設定が出て来るので
Audio Language」Manualで「Japaniese」を選択
日本語で認識をしてくれます。

「Diarization」は、発言した話者に割り当てる設定です。
一応こちらもチェック。

できたら「Tranceclibe(文字起こし)」スタート!
読み込んでいきますよ。

こちらを5分ほど読み込んでいきます
はい、こちらが5分読み込んだものです

ちょっと読みづらいところがありますが、良くできていると思います。
かかった時間は5分くらい。こんなもんで出来るんですね。すごい!

一応発言した話者に割り当てる設定はしたのですが、
複数人が、かぶった会話や唐突なツッコミやボケをしていたので、割り当てはうまくいきませんでした。ボケた2秒後ぐらいにツッコんでくれよ(おもんないお笑い!)
対談の動画なんかは、もっとうまく文字起こしができましたよ!

読み進めていくと、唐突な長文「うんうんうん…」なんじゃこりゃ!

やだ怖い…

Gladiaは文字起こしした文章をクリックすると、そこから読み上げてくれる便利機能があります。
早速「うんうん…」部分を聞いてみると
そこでは「ズンズン♪」とバックで音楽がかかっていました。犯人はお前か。
バックで音楽が流れていると、そこの場面の文字起こしがしにくいようですね。

ちなみに他の言語に多言語に翻訳できる機能もありましたので、これも使ってみましょう。
※設定でTranslate transcriptionに☑

お笑いつながりで、スタンドアップコメディアンのトークを文字起こしして、更に日本語に翻訳してみましょう。

Japanese Comedian Meshidaさんの動画です。

一言一句間違ってないね。知らんけど。

英語でしっかり文字起こししてくれています。たぶん笑。
この辺の精度はさすがです。
右に日本語変換にチェックする部分がありました。
これを翻訳してみると下の感じ。

ひどい日本語

あんまり日本語翻訳の精度は良くなかったですね。
翻訳はコピペしてChatGPTに任せた方が良いいと思います。

これなら理解できる。面白いジョークだぜ!ハッハー!

Upload a file

こちらは音声や動画データ、例えばMP3、MP4などを直接アップロードする方法です。
だいたいの文字起こしツールのスタンダードな方法といえますね。

社内でのエンジニアとの打ち合わせをこっそり録音していたので、その時のデータ(mp3)でやってみましょう(おい!)

検閲された文章

まぁ盗聴なので音が悪かった割に(いや、盗聴かい!!)
いい感じで文字起こししていたかなと思いました。

1時間ぐらいの録音データもちゃんとも読み込んでくれるので、有用だなと思います。

Live Transcription

これはリアルタイムの音源を書き起こしします。
会議やインタビュー中などで使えば、その場で会話を文字に起こせますよ。
こちらからは以上です。※すみません、この機能まだ試してません。

Gemini

Geminiでも、少しばかり試してみました。
GladiaのようにURLからの文字起こしは無理ですが、音声データをアップロードして文字起こしします。
ただしGoogle Driveに入れる必要がありますよ。これちょっとめんどい。ダイレクトにやりたい。

右のAlow Drive accessでアップロード

そしてプロンプトで「一語一句文字起こし」とお願いすればOKです。

精度面では、どちらが上かと言われると、悩むのですが、若干精度はGeminiの方が上かな、という印象はありましたかね。

理由としては
・漢字の変換の誤字が少ない
・「えー」とか「あー」とか、聞こえたものすべて文字起こししてくれる

とこの2点でしょうか。
例えば「この秒数からこの秒数の間の会話を文字起こしして」とかプロンプト入れると、それもやってくれるのもさすがGeminiって感じですね!

ただし、よく止まりもするんですよね。
散々時間がかかった挙句フリーズとかされると、ピチャーイ!って言っちゃいますね(言いません)

一応「続きをやって」とお願いすればやってはくれますが、長尺だとすぐに止まってしまうのが、玉に瑕です。

そういう意味では、使い勝手はGladiaかなって感じかもしれません。
まぁ便利に感じるツボは人ぞれぞれかもしれませんので、試してみてもらいうのが一番です。

まとめ

文字起こしやってみての感想は、しっかりビジネスでも重宝しそう。

ただ音声データを文字起こしだけでは、パッと見の内容の把握は難しいです。打ち合わせ中にメモったものの方が、見やすいし要点を掴んでいることは確実です。
しかし、それはそれとして、文字お越ししたものをコピペして
ChatGPTやGeminiで要約させると、書き間違いもそれなりに意味を解釈して、うまく要約してくれます。
それと自分でメモったものとを比べながら、答え合わせをすると、その打ち合わせの精度は格段に上がると思いました。
難しい単語やわからない単語が出て来るような打ち合わせには、きっと重宝すると思いますよ。みなさんもレッツ文字起こし!




この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?