Google Geminiで7時間分の音声を一気に文字起こし。しかも無料！【プロンプト付】

本郷喜千

2024年10月23日 21:12

はじめに

会議やセミナーの録音データを文字起こしする場合にAIを使用するのが普及してきました。
Noteにもいろいろと方法をご紹介してきました。

今回は、Google Geminiで、7時間という長時間のセミナーの文字起こしと、文章整形を行いました。

Geminiであれば、mp3ファイル形式などの音声データをアップロードし、適切なプロンプトを入力することで、文字起こしだけではなく、配布できるレベルまでの文章の体裁を整えるところまで行えます。

Geminiは、以下のGoogle AI Studioから無料で利用できます。

LINE Clova Noteが有料化した現在、無料で大量の音声文字起こしできるGoogle Geminiは貴重です。

Geminiの特長

Geminiという大規模言語モデルシリーズは、元々GoogleのAI研究チームが開発したBERTというTransformerのうちのエンコーダ部分を切り出して作られたモデルから発展したものです。
Transformerは、入力シーケンスを理解するエンコーダと、出力を生成するデコーダから構成されていますが、BERTはエンコーダ部分だけを使用しています。
これが何を意味しているかというと、文章の要約や翻訳など、入力されたテキストの文脈や全体像を理解することに長けているモデルです。
そのBERTから発展した（と思われる。非公表）モデルであるGeminiも、当然その長所を受け継いでいるため、200万トークンという超長文（ロングコンテキスト）を扱うことができます。

と、長くなりましたが、要は、Geminiは長いトークンや入力の処理は得意ですよ、ということです。

Geminiでの文字起こし

モデル選び

まず、文字起こしにあたっての大規模言語モデルを選びます。画面の右サイドのドロップダウンリストから選びます。

おすすめは、現段階で一番賢いと言われる「Gemini 1.5 Pro 002」です。賢い分、出力はゆっくりです。

音声ファイルのアップロード

続きまして、音声ファイルのアップロードです。

今回は、ZOOMミーティングの収録から、音声部分を抜き出したmp.3ファイルから、文字起こしを行います。

以下のように、音声ファイルをドラッグ&ドロップでアップロードします。

以前は、音声ファイルを一旦Googleドライブに入れてから、音声文字起こしを行うという面倒な手続きが必要でした。
しかし、最近この手続きがなくなり、ChatGPTのように、直接この画面に音声ファイルを放り込むだけで、文字起こしをできるようになり、圧倒的に利便性が上がりました。
GoogleDriveがすぐに満杯になるのを心配する必要もなくなりました。

文字起こしプロンプトの入力

次に、音声ファイルから文字起こしを行うために、Geminiにプロンプトを入力します。

今回は、文字起こしに特化して、以下のようなプロンプトとしました。

このファイルは{大規模言語モデルのプロンプトエンジニアリング}に関するセミナーを収録した録音データです。全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。

すると、以下のように文字起こしがはじまります。

これを7時間分行います。
出力は一度では終わりませんので、出力が止まったら、「続けてください」などと続行の指示を出して、最後まで出力します。

この出力テキストをコピーして、テキストファイルなどに保存すれば、文字起こしの完成です。

文章としての体裁を整える方法

ただ、通常は、これだけでは物足りないというか、利用できるには至りません。
「えー」とかとか、「まぁ」とか「で、」とかのオノマトペが入っているからです。
さらには、そもそもが喋り言葉であるため、報告書であったり、何かに使用するための文章としては不完全です。
この点を修正しなければなりません。
これを人力で直すと、多分1日では終わらないでしょう。
それを大規模言語モデルは自動的にやってくれるわけです。

Geminiに入力するための文章の体裁を整えるプロンプト

会議の文字起こしの場合は、以前書きました以下の記事のプロンプトがご参考になるかと思います。

今回のような、1人が喋っているセミナーの文字起こしの場合は、もっとシンプルなプロンプトで足ります。以下はプロンプトの例です。

以下は{プロンプトエンジニアリング入門}というセミナー音声の文字起こし文です。内容を一切省略せずに、口語体から文章体にしてください。

「口語体から文章体に」という点がプロンプトのキーポイントです。

参考までに例を載せておきます。口語体と文章体では文章の印象が随分違います。

【文字起こしそのまま：口語体】

では始めさせていただきます。はい。では、画面、画面共有させていただいて見えてますでしょうか？はいはい、見えてますか？はい、それでは、えー始めさせていただきます。 ChatGPTプロンプトエンジニアリング入門講座、インディバ株式会社の本郷です。よろしくお願いいたします。今日は6時半か、ま、もうちょっと過ぎまでお時間いただいておりまして、長丁場になりますが、えー、楽しくやっていきたいと思っております。あ、今Google画面なってますか？あれ？ちょっと待ってください。が共有がちょっとうまく行ってないみたいなので。えーと、すみませんね、ちょっと、最初のところは重要なので。オッケーですか？ちょっとずらしますね。ああ、これは連続ではずれないかな？はい、分かりました。はい、ではChatGPTの画面にスライドする時は、またちょっとすいません、ちょっと操作だけ練習させてください。

【文章としての体裁を整えたもの：文章体】

では、始めさせていただきます。画面共有させていただき、見えておりますでしょうか？はい、見えておりますか？はい。それでは、始めさせていただきます。ChatGPTプロンプトエンジニアリング入門講座、インディバ株式会社の本郷です。よろしくお願いいたします。

本日は6時半、もしくはそれより少し過ぎるまでお時間をいただいており、長丁場になりますが、楽しく進めていきたいと思います。現在、Googleの画面になっておりますでしょうか？少々お待ちください。共有がうまくいっていないようです。すみません、最初の部分は重要なので、少々お待ちください。よろしいでしょうか？少し位置をずらします。これは連続ではずれないでしょうか？はい、分かりました。では、ChatGPTの画面にスライドする際は、また操作の練習をさせてください。

さらにこの後に、目指す文章の形式に合わせて、プロンプトを作成して変更していけば良いわけです。例：報告書、議事録、解説文、など

録音データから、一気に報告書にすることも、プロンプトを書けばできますが、大規模言語モデルは、一度に複数のタスクを与えて良いパフォーマンスを出すような仕組みになっていません。

個別のタスクに細かく切り分けて、タスクごとにプロンプトを作成して、段階的にコンテンツを仕上げていく方が、良い結果を得られます。

アップデート版（2024.10.29）

その後、口語体の長文を文章体に変換するための、さらに良い【決定版】プロンプトができましたので、ご紹介させてください。

まとめ

ビデオ録画や音声の録音から文字起こしして記録を作成する作業は、誰にとってもその役割が回ってくる可能性があります。
仕事だけではなく、コミュニティーの会合でもそのような仕事はあるはずです。
そんな時にサクッと無料で30分程度で文章を作成できるようにすれば、ものすごく便利ですし、喜ばれると思います。

こんな身近なところからAIを活用していくのは、周囲の理解も得やすく、良いのではないでしょうか？

とにかく、この大ボリュームの情報処理を難なくこなすGeminiはすごいです。
さすがに、7時間分のデータは、1日分の利用制限の上限にひっかかりまして、無料利用枠の範囲では終わりませんでした。
ですので、別のGoogleアカウントに切り替えて続行しました。

ということで、長文データ処理にはGeminiのご利用をオススメします。

【重版出来】AIアプリをプログラミング不要で開発する書籍

ChatGPTでAIアプリを作って仕事で使いたい方と世界に公開したい方へ!