VOICEPEAKを使って CircleCI のチュートリアルビデオを作成してみた

2022年5月4日 01:33

はじめに

本記事は GW Advent Calendar 2022 - DevRel Meetup in Tokyo の8日目です。昨日は西から来た馬づらの男さんのワタシの好きなDevRel Radio でした。明日は Taiji Eddie Hagino さんの DevRel関連職の所属部門についての考察です。

CircleCIというソフトウェア開発者向けのCI/CDサービスを提供している会社で Principal Developer Advocate をしております舟木将彦と申します。

Developer AdvocateとしてCircleCIをご利用いただいている、あるいはこれからご利用いただこうとしているソフトウェア技術者のみなさんと関係(DevRelのうちのRel - relation のほう)を深めるための活動をしています。

さまざまな活動のうち、ミートアップなどのイベントについては、すでに「CircleCIで2年ぶりのオフラインミートアップ開催(の裏側)」としてまとめましたが、それ以外にも、ブログを執筆したり、チュートリアルビデオを作成して YouTube にアップロードしたりしています。

チュートリアルビデオが抱える課題

そのチュートリアルビデオですが、ご視聴いただくソフトウェア技術者の側から見ても、作り手であるDeveloper Advocateの側から見ても、いくつか課題を抱えているように思われます。

ご視聴いただくソフトウェア技術者の側から見た課題

精緻なアンケートや聞き取り調査を行ったわけではありませんが、「チュートリアルビデオ」が、ターゲットとしているソフトウェア技術者の側から見て、実は大してありがたくないのでは？という気がしています。

会社では(業務にかかわる内容であっても) YouTubeビデオは見れない。技術的にブロックされていてアクセスできない場合もあれば、会社の雰囲気的にビデオ見ていると遊んでいると思われる場合もある。
本であればパラパラめくって読む価値があるか、あたりをつけられるが、ビデオだと最初の１分見たからと言って、自分にとって必要かどうか、視聴時間に見合う価値(情報)が得られるか、わからない。
本を読むより、情報収集効率が低い領域・分野がある。
技術用語、とりわけ外来語だと、耳なじみのない言葉だと、音で聞いても頭に入ってこない。
録音・録画技術が低くて見にくい、聞き取りにくい。
話がつまらない、ヘタクソ(笑)

といったあたりが想定されます。4に関しては、私もCI/CDなりDevOps、CircleCIが初めての人に対しては、見れば簡単にわかるような技術用語でも、耳で聞いて入ってこない場合が少なくないと感じており、去年あたりからAdobe Premiere Proに音声認識による自動字幕機能が搭載されたこともあり、搭載以降に作成したビデオについては、字幕を付加するようにしています(正直、認識精度は活舌よく話していればそこそこ高いものの、技術用語に関しては精度が低い、ユーザ辞書で強化できないという課題を感じています)。

ビデオを作成する側から見た課題

反対にビデオを作成する側から見ると、(n=1, つまり私は)こういった点が課題かと考えています。

手間をかけて作っても、それほど見られていない。ソフトウェア技術者がGoogleなりYouTubeを起動して、検索語を入れて、ビデオを見ることで情報を得るという一連の動きが、必ずしも「ジャーニー」として一般化できる状況にはなっていない。
内容が(ソフトウェアやサービスの)バージョンアップ等で改修が必要な時に、実際には全部撮り直しか、放置の二択になってしまう(「本ビデオの内容は、撮影当時の機能や画面に基づいています」と言い訳)。
動画編集ソフトに習熟する必要がある(これは業務以外に子育てビデオの編集等、使いまわしがききますが)。
しゃべりに習熟する必要がある(噛むたびに撮り直していては、ビデオの実時間×数十倍の時間がかかってしまう)。
ブログは深夜、家族が寝静まってからでも書けるが、録音は(恵まれた住環境でなければ)自宅だろうと、会社だろうと、場所も時間も選ぶ。
自分の声が好きじゃない。聞きたくない(笑)

といったあたりが想定されます。そういった課題を解決するために、デモやチュートリアルビデオの作成支援ツールというのはニーズがあり、プロダクトもいくつか出ています。特に「録音できる場所がない」「自分の声が嫌い」に関しては、音声合成技術(TTS: Text To Speech, Voice Synthesis)を使って解決しようとされていたのですが、肝心の音声合成エンジンのクオリティが低いという問題がありました(ありがちなのが、Microsoft SpeechAPIのエンジンを使ったもので、権利関係、ライセンス関係はクリアなものの、音声クオリティが低い)。

「物わかりのいい、ロボットボイスでも文句を言わない、心優しい人」にはそれでもいいのかもしれませんが、普通の人は声を聴いた瞬間、「こりゃないな」ということで最後どころか、途中までも見ていただけないという事態に陥りかねません。

世の中には、クオリティの高い音声合成エンジンがあるにはあるのですが、往々にして商用利用のハードルが高く(＝実際に使うとなるとお金が「ものすごく」高く)、公開が必要なチュートリアルビデオは、ゆっくり実況のクオリティに甘んじるしかなくなってしまう状況でした。

商用利用可能な音声合成エンジン VOICEPEAK 降臨！

そんな状況に2022年、風穴があきました。商用利用可能な入力文字読み上げソフト VOICEPEAK のリリースです！

従来、商用利用が可能と呼ばれていた音声合成エンジンでも、社内向けの(=一般公開されない)ビデオ等での使用までがライセンスの許諾範囲で、YouTube等にアップロードして、誰もが見られるビデオでの使用は範囲に含まれないというケースが見られたり、一般公開時には高いライセンスフィーが必要となるケースが一般的でした(筆者も開発、リリースに至る時間や工数を考えれば、一エンジニアとしては理解できるものの、ビデオの作り手としては何とかならないかな、というのが正直なところでした)。

それが、VOICEPEAK では、29,800円払えば(2022年4月30日までのダウンロード版であれば15,800円払えば)、男声x3人、女声x2人、女の子x1人、合計6人の声が、公開ビデオの音声としても利用可能という範囲での「商用利用可能」なエンジンとして利用可能になったのです。しかも、肉声感の高い、クオリティの高い音声で。

実際にチュートリアルビデオを２本、作ってみた

これなら、もくもく夜なべでも音声が入ったチュートリアルビデオが作成できる！ということで、２本ほど作成してみました。

ある意味、テクニカルな内容を VOICEPEAK に話させたらどうなるか？のサンプルとして、ご覧いただき、音声をお聞きいただけたらと思います。

VOICEPEAK ここがイイ

女声、男声を使って２本のビデオを作成しました。１本目と２本目で感想に変化があったことも事実なので、今後、違った感想、意見を持つに至る可能性もありますが、今日時点の私の思いのスナップショットとして、ここに残しておきましょう。

噛まないことによる時間短縮効果、話さないことによる時間や場所の制限からの解放
発話用のスクリプトを字幕に援用可能
もともと肉声感が強い(平板ではない)が、感情(幸せ、楽しみ、怒り、悲しみ)を程よく(控えめに)加えることで、眠くなりにくい、単調ではない発話が可能

が指摘できます。特に詳しい内容の説明はいらない、読んでいただいたままです。

VOICEPEAK ここがヨクナイ

ヨクナイというのは、全否定しているわけではなく、こういうところが使いにくい(けど、将来的には解決しているかもしれない)といった程度のニュアンスです。

技術用語は弱い。英単語交じりの文章中における英単語の読みのような、業界アルアル状況もあれば、一般的な世の中とIT業界でイントネーションが違うような状況もあります。
辞書登録しても反映されないケースがある。日本語文章の分かち書きルール(トークン化ルール)との絡みで、ユーザ登録単語の優先度を上げても、その登録内容が採用されないケースがある。
その結果、正しく読んでもらうために、発音を書き下ろした文章を入力とすると、発話は正しくなるが、その文章は字幕用にはそのまま使えない。
辞書登録内容のエキスポート／インポートができない(からほかの人と共有できない)。
女性2では感情を指定することで表現が豊かになる一方、男性2では感情を指定すると、声質的に別人といってもいいくらいに変わってしまう。

が指摘できます。

こんな単語を登録した

２本のビデオの作成過程では、こんな単語をユーザー辞書に追加登録しました。

CircleCI, macOS, Executor, 上(じょう), リポジトリ, GitHub, Fork, circleci, demo, macos, mayoct, git clone, Xcode, . (てん), display, build, jobs, requires, xcodebuild, ARTIFACTS, app, Silicon, ユニバーサルアプリ, mfunaki, Happy Building, コロナ禍, YOLOv5, YOLO, v5, Ultralytics, Python, PyTorch, cuDNN, 上で, executor, machine, cloud, nvidia, コマンド, clone_, yolov5, maskdataset, Roboflow, Mask, Wearing, mask, detection, detect, result, マスク, 着用, 未着用, wo (ウィズアウト), mask2, runner, sls (エスエルエス), Windows 10 (テン), 21H2, WSL上, CUDA, Ubuntu, 20.04, Windows10, テン, boolean, true, false, 呼び出し時

こんな単語は書き下した(字幕との共用不可)

２本のビデオの作成過程では、ユーザー辞書に登録した「読み」が採用されなかったために、これらの単語は「読み」を文章中に直接書くことで、正しい発話を得ました。したがって、その文章をそのまま字幕には使えない、ということになります。

YOLO v ファイブ(字幕中では YOLOv5、以下同様)
タスクマネージャーじょう (タスクマネージャー上)

実際に字幕を付与するのは、こんな感じです。なお、ここではAdobe Premiere Proではなく、CyberLink PowerDirector 365を使用しています。

さいごに

さて、いちDeveloper Advocate としては、チュートリアルビデオに自分の顔を出し、自分の声で語りかけることで、自分のブランド、ひいては製品やサービスのブランドの向上をはかるのだ、と思わないわけでもないのですが、今後、オフラインで開発者の皆さまにお会いした際に、失敗や言い間違いも含めた、また、リアルタイムでのフィードバックを基にした話題を深めるといった方向での、自分の「人間力」を発揮するという方向性に向ける方が正しいのではないか、とも思います。

継続的インテグレーションの会社に勤める身としては、私(舟木)の存在やバージョンアップや機能進化といった「変化」に対するロバスト性を高める(私がいなくても、チュートリアルビデオは製品やサービスに合わせて、進化し続けられる)ことも可能になるでしょう。

また、ローカライゼーションという観点でも、商用利用可能な、肉声感の高い韓国語音声合成エンジンや中国語音声合成エンジンがあれば、すぐにチュートリアルビデオの韓国語版、中国語版をリリースしたいと考えています(私自身は中国語も韓国語も話しますが、ネイティブレベルではさすがにないので)。

いいなと思ったら応援しよう！

この記事が参加している募集

#やってみた

41,855件