Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】
はじめに
会議やセミナーの録音データを文字起こしする場合にAIを使用するのが普及してきました。
Noteにもいろいろと方法をご紹介してきました。
今回は、Google Geminiで、7時間という長時間のセミナーの文字起こしと、文章整形を行いました。
Geminiであれば、mp3ファイル形式などの音声データをアップロードし、適切なプロンプトを入力することで、文字起こしだけではなく、配布できるレベルまでの文章の体裁を整えるところまで行えます。
Geminiは、以下のGoogle AI Studioから無料で利用できます。
LINE Clova Noteが有料化した現在、無料で大量の音声文字起こしできるGoogle Geminiは貴重です。
Geminiの特長
Geminiという大規模言語モデルシリーズは、元々GoogleのAI研究チームが開発したBERTというTransformerのうちのエンコーダ部分を切り出して作られたモデルから発展したものです。
Transformerは、入力シーケンスを理解するエンコーダと、出力を生成するデコーダから構成されていますが、BERTはエンコーダ部分だけを使用しています。
これが何を意味しているかというと、文章の要約や翻訳など、入力されたテキストの文脈や全体像を理解することに長けているモデルです。
そのBERTから発展した(と思われる。非公表)モデルであるGeminiも、当然その長所を受け継いでいるため、200万トークンという超長文(ロングコンテキスト)を扱うことができます。
と、長くなりましたが、要は、Geminiは長いトークンや入力の処理は得意ですよ、ということです。
Geminiでの文字起こし
モデル選び
まず、文字起こしにあたっての大規模言語モデルを選びます。画面の右サイドのドロップダウンリストから選びます。
おすすめは、現段階で一番賢いと言われる「Gemini 1.5 Pro 002」です。賢い分、出力はゆっくりです。
音声ファイルのアップロード
続きまして、音声ファイルのアップロードです。
今回は、ZOOMミーティングの収録から、音声部分を抜き出したmp.3ファイルから、文字起こしを行います。
以下のように、音声ファイルをドラッグ&ドロップでアップロードします。
以前は、音声ファイルを一旦Googleドライブに入れてから、音声文字起こしを行うという面倒な手続きが必要でした。
しかし、最近この手続きがなくなり、ChatGPTのように、直接この画面に音声ファイルを放り込むだけで、文字起こしをできるようになり、圧倒的に利便性が上がりました。
GoogleDriveがすぐに満杯になるのを心配する必要もなくなりました。
文字起こしプロンプトの入力
次に、音声ファイルから文字起こしを行うために、Geminiにプロンプトを入力します。
今回は、文字起こしに特化して、以下のようなプロンプトとしました。
このファイルは{大規模言語モデルのプロンプトエンジニアリング}に関するセミナーを収録した録音データです。全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。
すると、以下のように文字起こしがはじまります。
これを7時間分行います。
出力は一度では終わりませんので、出力が止まったら、「続けてください」などと続行の指示を出して、最後まで出力します。
この出力テキストをコピーして、テキストファイルなどに保存すれば、文字起こしの完成です。
文章としての体裁を整える方法
ただ、通常は、これだけでは物足りないというか、利用できるには至りません。
「えー」とかとか、「まぁ」とか「で、」とかのオノマトペが入っているからです。
さらには、そもそもが喋り言葉であるため、報告書であったり、何かに使用するための文章としては不完全です。
この点を修正しなければなりません。
これを人力で直すと、多分1日では終わらないでしょう。
それを大規模言語モデルは自動的にやってくれるわけです。
Geminiに入力するための文章の体裁を整えるプロンプト
会議の文字起こしの場合は、以前書きました以下の記事のプロンプトがご参考になるかと思います。
今回のような、1人が喋っているセミナーの文字起こしの場合は、もっとシンプルなプロンプトで足ります。以下はプロンプトの例です。
以下は{プロンプトエンジニアリング入門}というセミナー音声の文字起こし文です。内容を一切省略せずに、口語体から文章体にしてください。
「口語体から文章体に」という点がプロンプトのキーポイントです。
参考までに例を載せておきます。口語体と文章体では文章の印象が随分違います。
【文字起こしそのまま:口語体】
【文章としての体裁を整えたもの:文章体】
さらにこの後に、目指す文章の形式に合わせて、プロンプトを作成して変更していけば良いわけです。例:報告書、議事録、解説文、など
録音データから、一気に報告書にすることも、プロンプトを書けばできますが、大規模言語モデルは、一度に複数のタスクを与えて良いパフォーマンスを出すような仕組みになっていません。
個別のタスクに細かく切り分けて、タスクごとにプロンプトを作成して、段階的にコンテンツを仕上げていく方が、良い結果を得られます。
アップデート版(2024.10.29)
その後、口語体の長文を文章体に変換するための、さらに良い【決定版】プロンプトができましたので、ご紹介させてください。
まとめ
ビデオ録画や音声の録音から文字起こしして記録を作成する作業は、誰にとってもその役割が回ってくる可能性があります。
仕事だけではなく、コミュニティーの会合でもそのような仕事はあるはずです。
そんな時にサクッと無料で30分程度で文章を作成できるようにすれば、ものすごく便利ですし、喜ばれると思います。
こんな身近なところからAIを活用していくのは、周囲の理解も得やすく、良いのではないでしょうか?
とにかく、この大ボリュームの情報処理を難なくこなすGeminiはすごいです。
さすがに、7時間分のデータは、1日分の利用制限の上限にひっかかりまして、無料利用枠の範囲では終わりませんでした。
ですので、別のGoogleアカウントに切り替えて続行しました。
ということで、長文データ処理にはGeminiのご利用をオススメします。
【重版出来】AIアプリをプログラミング不要で開発する書籍
ChatGPTでAIアプリを作って仕事で使いたい方と世界に公開したい方へ!