文字起こしが楽になる！誰でもできるAmazon Transcribeの有効活用法

2020年5月24日 11:34

こんにちは。岩手県で七時雨山荘という宿屋をやりながら、
エンジニアもやっている立花と申します。

突然ですが、議事録だったり、インタビュー後の文字起こしに時間がかかっていて、もっと簡単にできたらいいのに。。って思っている人いないでしょうか？私もそう思っている一人でした。

そんなことを思っていた時に、前々から気になっていた
「Amazon Transcribe」というサービスを使ってみることにしました。

はじめに

今回使用するAmazon Transcribeというサービス。

直訳するとそのまんまアマゾンの文字起こしサービスです。
このAmazon Transcribeは昨年の11月くらいに日本語の文字起こしに対応して、それ以降、他の方も記事にされていているのですが、とりあえず触ってみた系の記事が多く、最終的に文字起こしが短縮された感じのところまで記事にされているのを見かけられなかったことと、
私が触ってみて
「こうすれば割と使えるんじゃないのかな」
って方法を見つけたので
誰かの作業時間が減れば嬉しいなと思いnoteに書くことにしました。
ちなみにこのツールの利用料ですが、使用開始１年間は、一ヶ月一時間までの文字起こしなら無料、それ以降は以下のような料金体系です。(2020年5月現在)
ざっくり一時間の文字起こしが150円くらいでできます。
私は爆安だと感じました。

結論

結論を先に書くと、まだまだ技術的に誤字だったりおかしい日本語になったりしますが、割と人間が見てもそれっぽい感じで文字起こしができているといった印象です。これから、この分野はもっと発展していくと思うのでそのうち「文字起こしまだ手作業でやってるの？」って時代がすぐ来そうだなと感じさせてくれるサービスです。

記事の前提として
あくまで2020年5月現在で私がやってみたやり方であることをご了承ください。
今回はエンジニア以外の方でもできる方法で記載しているので、
もっといいやり方もあると思います。
ご存知の方いたら教えてもらえると嬉しいです。

手順

手順は以下の順番で実施します。

①AWSのアカウント作成・ログイン
②文字起こししたいデータを10分単位に分割する
③分割したデータをAWS(S3)にあげる
④Amazon Transcribeを使用する
⑤文字起こしされた文章をメモ帳に貼り付ける

①AWSのアカウント作成・ログイン

まずは、AWSのアカウントを作りましょう。
普段買い物されているamazonアカウントとは別にアカウントを作る必要があります。
アカウント作成の方法は、amzonが公式に出している手順がわかりやすいのでこちら↓をご覧ください。

②文字起こししたいデータを10分単位に分割する

理由は、後で説明しますが、文字起こししたいデータを10分単位くらいで分割してください。
分割するツールはいろいろありますが、僕はオンラインでさくっと分割できる以下のサイトで分割しました。
(これは他にもいいやり方たくさんあると思うのでお好きな手順で実施してください)

③分割したデータをAWS(S3)にあげる

分割したデータをAWSのS3にあげていきます。
S3はざっくり言うと、AWSでのファイル置き場です。
あまり難しく考えず気楽に使ってください。

AWSにログインしたら、AWSマネジメントコンソールという画面が出てきます。
画面の真ん中くらいにある「サービスを検索する」というところで「s3」と入力してください。

AWSコンソール

そうすると一番上にS3という文字が出てくるのでそれをクリックします。

S3の画面に変わりました。
ここでファイル置き場となるバケットを作っていきましょう。
画面真ん中にあるバケット作成をクリックしてください。

s3バケット

バケットを作成という画面に変わったら、バケット名を入力していきます。
後で分かりやすければなんでも良いので自分でわかる名前にしてください。
注意としては、これはURLに表示される名前にも使われるので、他の人とかぶる名前はつけることができません。

リージョンというのは、AWSのサーバが世界中にあるので、どこに自分のデータを置くのか選べる仕組みです。
とりあえず今後サービス開発とかをするのでなければ、初期設定で表示されているリージョンのままで大丈夫です。(サービス開発される人は、東京リージョンというのもあるのでお好きなものを選んでください)
あとで文字起こしする際に、リージョンを揃えておいた方がよいので、どのリージョンで作ったかを覚えておいてください。
バケット名を入力し、リージョンを選んだら、画面右下に出てくる
「バケットを作成」をクリックします。

スクリーンショット 2020-05-23 21.54.22

バケットができました。
ファイルを置くために、作成したバケット名(文字が青くなっていると思います)をクリックします。

バケット作成完成

次にファイルをアップロードしていきます。
左上のアップロード画面をクリックしてください。

S3フォルダ置き場画面

クリックすると、この画面になるので真ん中にあるファイルを追加か、
ファイルをドラッグアンドドロップしてください。
その後は、特に何も考えず右下にある次へボタンをクリックしていけば、
ファイルをアップロードすることができます。

アップロード

アップロードできました。S3での作業はこれで完了です。
左上のAWSアイコンをクリックしてください。

アップロード後

④Amazon Transcribeを使って文字起こし

AWSマネジメントコンソール画面に戻ったら、S3を使用した時と同じように
Amazon Transcribeと入力し、選択してください。
ちなみに一度使ったサービスや、よく使うサービスは、最近アクセスしたサービスというところに表示されるので次からはいちいち入力しなくてもよくなります。

awsマネジメントコンソール

ジョブ登録

Amazon Transcribeに画面が変わったら、左上のTranscription jobsをクリックしてください。上の画像のような画面になると思います。
また、値段は通常よりかかるようですが、Amazon Transcribe Medicalという医療用語に特化した文字起こしをしてくれるサービスもあるようです。

画面真ん中にあるCreate Jobをクリックします。

文字起こしトップ

画面が変わったら、文字起こしをするためのjob名を入力します。
ここで、一番最初に10分単位で音声データを分割した人は、あとでわからなくなるように音声データの順番で数字を降っておくと後で間違わなくて済みます。
そして真ん中にあるLangageは、日本語の文字起こしをしたい場合は必ず、
Japanese,JP(ja-JP)を選択してください。

文字起こし名前決め

先ほどS3にアップロードした取り込みたい音声データを選択します。
一度に一個づつ取り込むようにしてください。この時にリージョンがそろっていないと取り込めないので注意が必要です。
右にあるBrowse S3をクリックします。

インプットデータ

画面が変わったら先ほど作成したバケット名をクリックします。
文字が青くなっているところです。

s３バケット選択

クリックするとアップロードしたファイルが一覧で並んでいるので、
文字起こししたいデータを順番に１個選択します。（文字起こししたいデータを選び切るまでこの作業を繰り返します）
データ名の左にチェックボタンのようなものがあるのでそれをクリックし、右下のChooseボタンをクリックします。

s３ファイル選択

インプットデータが上の作業で選択されているデータになっていることを確認できたら、右下にあるNextボタンをクリックします。

アウトプット選択

画面が変わったら、Audio Settingsの項目で、Audio identificationの左にある
スイッチボタンをクリックします。クリックすると、Audio identification typeという選択項目が出てくるので、Speaker identificationを必ず選択してください。(重要)その下にあるMaximum number of speakersというのは、
発言している人間の最大数を入力するところなので、会議などの音声データを文字起こしする場合など、発言している人間の最大数(会議参加人数やイベント参加人数)を入力してください。

詳細設定

選択したら、右下のCreateボタンをクリックしてください。

実行ボタン

文字起こしが実行されます。同時実行することができるので、分割した音声データ分、④Amazon Transcribeを使用する→ジョブ登録の作業を繰り返してください。ジョブ名は後で訳がわからなくならないように、順番に連番をふっていってください。
一時間くらいのデータ(10分×6)であれば20分もあれば終わると思います。

ジョブ画面

処理が完了すると、右端のステータスがCompleteに変わります。
変わったことを確認したら、左端、Nameの青くなっている名前をクリックします。

完了画面

画面が変わったら、真ん中くらいにあるTranscription previewというところに、音声データが文字起こしされていると思います。
僕の滑舌が悪くて、七時雨山荘のと言っているのに、七時雨山荘村となっていたり、AWSと言っているところがダブルスとなっていますが、
感覚7割〜8割くらいぱっと見意味がわかる内容になっているかと思います。
下に実際に僕が話しているデータを貼っておきます。聞いてもらい比べてもらえると結構精度良く文字起こしされているなということが分かルカと思います。
（こんなぼそぼそ喋っていてよくこれだけ文字起こしされているなと最初驚きました。笑出来る限り普段通りでちゃんと認識されるか確認したかったのでわざといつも通り喋りました。）
ちなみに、このプレビューで文字にカーソルを合わせると何分にその言葉を喋ったかまで出ます。

テキスト版

ここで、なぜ、最初に音声データを１０分感覚に分割してくれと言ったかを説明します。
このプレビュー画面は、出せる文字がざっくり調べてみたところ、10分〜15分くらいの発言量までだったんです。それ以上になると、JSONファイルというエンジニアしかつかったことないんじゃないかっていうかつ人間には分かりづらい形式でのファイルしかダウンロードできないので、それならばプレビューに出せる量のデータ量二分割してプレビュー画面をコピペしてもらった方がトータルの作業量が減らせるなと思いそのような手順で書いています。

ちなみに今回記事にするにあたり、お見せできる画面上に出せる音声データとして僕が一人で喋っているデータを取り込んでいるのですが、
一人で喋っているデータであれば、「Text」の内容をコピペで良いです。
ただ実際は複数人が喋っている音声データを文字起こしするってパターンも結構多いと思います。そういう場合は、

人判別版

Audio identificationという項目をクリックすると、人を判別して話している内容を文字起こしすることができます。個人的に今回触っていてこれに一番感動しました。(画面上のはデモなので、一人しか喋っていないですが、複数人の場合ちゃんと認識されます)
Amazon Transcribeのことを書いている他の記事でも、Audio identificationについて触れている日本語の記事は見かけなかったので、ぜひこの機会に覚えてもらえればと思います。

⑤文字起こしされた文章をメモ帳に貼り付ける

最後は、データの順にプレビューの内容をコピペして貼り付けて完了。
と言いたいところですが、そのままコピペすると、半角スペースが入っていてみづらいと思うので、半角スペースを削除します。
パソコンで最初から入っているメモ帳などに貼り付けても良いですが、
置換機能があるメモ帳(エディタ)をダウンロードすると早く作業できます。
僕は、起動が早くて見やすいため、sublimetxt3という無料ツールを使用しています。

WindowsでもMacでも使えるのでもしよかったらダウンロードしてみてください。最初はメニューが日本語ではないのですが、「sublimetxt 日本語」ってぐぐると日本語メニューにする方法がたくさん出てきます。

脱線しましたが、
Audio identificationの内容をコピペし、半角スペースとSpeaker0:という文言を除いたところ以下のようになりました。

初めまして七時雨山村立花と申します
今音声の文字起こしのテストをこれからしていこうと思っております
でですね内容としてはあのーまあダブルスを使用して
ま簡単に文字起こしができるっていうことをまお見せしようと思っているん!ですけども
たとえダブルスっていうのはなかなかあの皆さんあの御存じない方がいらっしゃると思いますので
アマゾンが出している
クラウド上でま色々サービス開発をすることができるプラットフォームのものなんですけどもま
そう聞くとなんか難しそうだなって思う人がたくさんいると思うんですけれども実はそんな事はなくて結構簡単にあのー
誰でも
あのー
慣れてしまえば
触ることができるサービスだと僕は思っておりますのでまあの
ハードが高いと思わずにまずはいろいろチャレンジしてもらえると嬉しいかなと

大枠理解できる内容ではないでしょうか。あとは、おかしい文言だったりを直したりすれば文字起こし完了です。

最後に

今回は、Amazonのサービスを使用して文字起こししましたが、
Amazon以外にも、GoogleやIBMのWatson、またZoomでもリアルタイム文字起こしなどができるようになってきています。
今までの会議では、議事録を作成する係がいたり、インタビューした後に録音したデータを聴きながら人間が文字起こししたりしているケースが多いと思います。
正直今回紹介したサービスもまだ完全に人間の手がかからずに文字起こしができるわけではないですが、今回紹介したやり方をすれば今のままでも割と使えるサービスではないかなと感じています。

今後は、もっと精度はよくなると思いますし、他のサービスももっと便利になるはずです。
議事録作成作業や、文字起こし作業って地味で疲れる作業なので、
今後文字起こしのテクノロジーが進めば、会議だけに集中できたり、インタビューを記事にするのがもっと早くなったりできるようになりそうです。

七時雨山荘のご紹介

私は、宿屋もやっていると冒頭に書かせていただきましたので、最後に宿の紹介をさせてください。
私がやっている七時雨山荘という宿は、半径7km民家のない山と自然に囲まれた満点の星空が見れる一軒宿です。
最近ワーケーションという言葉もよく聞くようになりました。
集中して仕事をしたい方、自然の中で創作活動されたい方、チームビルディングをするために合宿したい方、ぜひご活用いただけると嬉しいです。
作業に疲れたら、サウナに入ったり、里山を散歩したり、芝生で寝っ転がることもできます。もしよろしけばホームページもご覧になってください。