Otter。aiを１か月間使い続けて気づいたこと

2020年8月2日 17:04

こんにちは、Choimirai School のサンミンです。

0 はじめに

7月から使い始めた Otter.ai。この1か月間使い続けて気づいたことが多かったです。

TL;DR：文字起こしをしてくれる優秀なAIアシスタントを育てている感じ

Otter.aiを使い始めて、非常に優秀なAIアシスタントを育てるメリットを日々実感しています。今回の note ではAIアシスタントを育てることが何か？とそのメリットについてシェアします。

. @otter_ai を20日間使い続けて気づいたことは、自分が人工知能のアシスタントを育てているということ。

"Tools are only as good as your ability to work with them."

Otterも結局はツールでそれを使う人の能力に見合う結果しか出せない。AIアシスタントを育てる能力は今後貴重なスキルとなる🤖。 https://t.co/JcfvF4IXDF
— Sangmin @ChoimiraiSchool (@gijigae) July 27, 2020

1 何を教えているのか

話の内容をよりわかりやすくするため、AIアシスタントに学習させる内容をTOEICの音源に絞って話を進めます。

TOEIC公開テストに登場するナレーターは４つの国を代表しています。

TOEICリスニング、国別発音🗣️

🇺🇸 A: 米国
🇬🇧 B: イギリス
🇨🇦 C: カナダ
🇦🇺 D: オーストラリアhttps://t.co/X3549TM9BZ pic.twitter.com/E2FyXE1mtc
— Sangmin @ChoimiraiSchool (@gijigae) April 1, 2019

ただ、国ごとに複数の声優さんがいますので多い時は、一つのテストに８人の声優さんが登場する場合もあります。

2 音源のインポート

Otter.ai で文字起こしをするには２つの方法があります。

① 会話や会議・授業、ポットキャストを聞きながらリアルタイムで文字起こしをする方法
② オーディオファイルをインポートして処理させる方法

今回の対象がTOEICの音源ですので、文字起こしは既出問題集の音源をインポートして処理させます。

45分の音源であれば、25分前後で文字起こしが終わります。

3 Otter.aiを学習させる方法

Otter.aiの学習は３つのステップで行います。

▼①ファイルのインポート

音源をインポートしますと文字起こしの処理が始まります。

▼②ボイスラベルの識別

文字起こしが終わりますと次は、それぞれの音声が誰の声かを識別してくれます。この段階ですと、画面には「Speaker matching in progress ...」と表示されます。

▼③ボイスラベルの設定

過去に登録した話者の「音紋」情報からある程度、話者を識別してくれます。

しかし、何らかの理由で識別できてない声も多々あります。声が特定できてないテキストは「人」のアイコンをクリックしますと話者を新しく登録するか登録済みの話者に紐づけることができます。

こうして紐づけることで、文字起こしの精度はさらに改善されます。これらの技術によって今後「音紋」は指紋と同じく人を特定するなど重要な役割を果たすと思っています。

. @otter_ai ではそれぞれの人々の声が持つ「音紋」を活用して話者を見分けている。音紋を認識することで会話を誰と誰がやっているか、区別できる。あとからその人が誰かを教えてあげれば、音紋をベースに残りの会話についても、自動的に誰がしゃべったか、名前がボイスラベルとして反映される仕組み。 pic.twitter.com/VWeUWOjpZB
— Sangmin @ChoimiraiSchool (@gijigae) July 29, 2020

4 Otter.aiを学習させる時の注意点

気づいた注意点は、

①ボイスラベルはFull Nameで設定すること

最初は苗字だけでラベルを付けたのですが、後から重複する苗字があったので、フールネームに変えた経験があります。

②ドラマなどの音源にボイスラベルをつける時は役名ではなく本人の名前で

同じ俳優さんが他のドラマに出ている場合も多く、役名で登録しますと同じ音紋が複数の名前に紐づけられます。

③長いポットキャストをインポート・文字起こしする際は、最初の5分くらいでボイスラベルをまず作ること

こうすることで、文字起こしの精度が上がって、後からの手間を省けます。

④ボイスラベルは慎重にすること

同じ声を複数の人に紐づけると文字起こしの精度が下がる印象です。

⑤他に何かあれば随時追加させていただきます

他に注意点があれば、コメントで教えてください。

5 Otter.aiを学習させるメリット

話者と音紋を紐づけることで、同じ人が複数のポットキャストに登場していることが分かったり、登録されてない音紋の声があることにも気付きます。

声によるセレンディピティを体験するメリットは意外と大きい

例えば、TOEIC既出問題集のTEST 09の音源をインポートした時、識別できてない声が多かったです。TEST 01から08を準備するまでは、テストごとの声優さんは５人。ところが、TEST 09を聴いてみると全部で９人。

Otter.aiがなかったら気づかなかったと思います。

6 まとめ

GPT-3の能力を見てもわかると思いますが、人工知能（AI）は今後急速に発展して行きます。しかし、人工知能も結局はツールでそれを使う人の能力に見合う結果しか出せません。

Tools are only as good as your ability to work with them.

AIアシスタントを育てる能力は今後貴重なスキルとなります。Otter.ai はそのスキルを鍛えるのにとても手軽なツールですのでぜひ活用していただければ嬉しいです。