【文字起こしAIツール】Gladiaを使ってみた
文字起こしAIツールGladiaを使ってみたので、使い方や感想などまとめていきます。
文字起こしツールもさまざまなものがありますが、
このGladiaは
でした。
そう、音声AIツール界の吉野家の牛丼といっても過言でありません。
具体的にどういうことかというと
うまい:文字起こしの精度が高い!
安い:無料プランでも十分!
早い:40分の音声ファイルだと3〜5分で完了!
ということです。
Gladiaのアカウント登録をしよう
まずは、以下をクリックして
Gladiaのサイトにアクセスしましょう
右上のSign upをクリックします
Googleアカウントか、ご自身のEmailでアカウントを作成することができます。管理も面倒なので、Googleアカウントが良いですね。
Create Accountをクリックして、アカウント登録を完成させます。
無料プランについて
無料プランでも1ヶ月10時間の利用が可能になっています。
1ヶ月10時間なので、1ヶ月経てばリセットされます。
そして、どれだけ利用したか、その時間についても、ちゃんと表示されるようになっています。
Gladiaを使ってみよう
アカウントを作成すると、以下のPlaygroundという画面に飛びます。
ここでは文字起こしの対象として
❶YouTubeのようなVideo Link
❷ご自身が持っている音声ファイル
❸リアルタイムで話す音声
の3つから選べます
音声ファイル・動画を用意しよう
ビジネスの現場では、上記❷の音声ファイルを使うことが多いと思います。
ここでは、音声ファイルがないので、YouTube動画を使っていきます。
会議等での文字起こしを想定し、複数の人が話している動画を選びます。
こちらのPIVOT公式チャンネルのYouTube動画を文字起こししたいと思います。
エコノミストの永濱利廣氏
EXITのりんたろー氏
PIVOTプロデューサーの国山ハセン氏
3名のトーク番組です。
コピペしたらNextをクリックします。
次のような画面が現れます。
基本的にデフォルトの設定でOKです。
ちなみに、会議録など、複数の人が話す音声ファイル・動画では、真ん中にあるDiarization (Optional)はオンにしましょう
これをオンにすることで、音声内の複数の話者を自動検出し、書き起こされた各テキストを発言した話者に割り当てられます。
準備が完了したら右上のtranscribeをクリックします。
音声の文字起こしが開始します。
動画の中身にもよりますが、40分ぐらいの動画だと、3分〜5分で文字起こしが完了します。
文字起こしの結果
どうでしょうか?
3人の話者を、speaker0、speaker1、speaker2で使い分けていますね。
ちなみに、文字起こした文章を選択しクリックすると、該当部分の音声が流れるようになっています。
視覚だけでなく、耳でもちゃんと確認できるようになっているということですね!
さいごに
みなさん、1時間の会話で約25,000トークンもの情報が生成されていることをご存知でしょうか?
音声AIツールは、こうした普段のコミュニケーションに埋め込まれた膨大なデータの活用を可能にする技術として注目されています。
しかしながら、多くの企業では、こうしたデータが十分に活用されていないのが現状です。
ここでご紹介したGladiaはAPIも提供されています。
ぜひ、APIを含めて音声AIツールを積極的に活用し、様々な分野での業務効率化や価値創造を実現してきましょう。