見出し画像

ディープフェイク:Jay−Z×シェイクスピア

週1回くらい更新しようと思っていたのですが、最初からつまずきました。梅雨に負けないようにドラフトにたまっているメモを公開していきます。そんなわけで、やや古いのですが4月に気になってたニュース。

2020年4月にJay−ZがDeepfake(ディープフェイク)によるJay−Z風の音声コンテンツをYoutubeから全て削除するよう動き出した。Jay-Zの代理店Roc Nationは「AIを利用して違法に”なりすまし”をしている」と主張。コンテンツを配信するVoice Synthesisは4万サブスクライバー(2020年6月現在約6万人)を持つ人気コンテンツとして注目を集めている。
Jay Z tries to use copyright strikes to remove deepfaked audio of himself from YouTube

ディープフェイク(ディープラーニング×フェイク:疑似合成系コンテンツ)は画像からはじまり、動画へも浸透。最近は音声系ディープフェイクコンテンツが増加していきている。上記の記事はディープフェイクによって作られたコンテンツから、オリジナルをどう守るのか?という点で興味深い。

まず、どのようなディープフェイクコンテンツがJay-Z様の怒りの対象となったのか。

ディープラーニングを用いてJayZにシェイクスピアをラップ調で朗読させるくらいにディープフェイクの実力はある。そして非常に良くできている。元ネタを知らない人に、Jay-Zがラップ調でシェイクスピアの「生きるべきか、死ぬべきか」をノリノリで朗読してくれるよ!」リンクを送れば、それなりに信じる人が出てきてしまうクオリティだ。

今回の争点として興味深いのは、青空文庫のように著作権フリーの文章コンテンツに対して、TTS(Texit to Speach:文字からスピーチ)を完全に機械がやってのけているという点だ。今まで問題となったディープフェイクのコンテンツの多くは既存コンテンツに他の要素を当て込む(ポルノ画像又は動画の顔を著名人に変える等)ことが多かった。TTSによって作られた疑似合成音声はJay-Zの音声データを使い学習したモデルを使ってはいるが、アウトプット自体は誰のものなのか?という結論を出すのは難しいと考えている。暫く着地することはないと考えているため、継続して今後チェックしていきたい。

オリジナルとディープフェイク
ネタとして扱って良い範囲とそれらを逸脱した範囲の線引も非常に難しい。例えば、GiphyにあるJay-ZのGIF。

画像1

LineのスタンプのようにメッセージングアプリでGIFは多用される。Giphyは限りなくグレーだったコンテンツを、ライセンサーと包括契約することで利用できるようにしている。そのため、FBメッセンジャー等のキーボードからGIFを簡単に送れるようになった。上図のGIFはComplex Networksのオフィシャルコンテンツとして誰でもメッセンジャーで利用できるようになっている。(ちなみに、GiphyにはDisneyコンテンツもある。新作リリースのときなどに新しいGIFを投下しメッセンジャーで多く使われるようにプロモートし、新作の露出をメッセージングプラットフォーム上で最大化させる施策に取り組んでいる)

既存コンテンツを切り貼りして加工したコンテンツは”ミーム”として流行りとなるが、時として悪意を持った使い方(加工)をすると刑罰の対象になる。ただし、どこからが悪意を持った使い方なのか?の線引は難しい。

明確に禁止された事例として、2019年10月頃からカルフォルニアでは選挙前60日間は政治系ディープフェイクコンテンツの配信は禁止となった。また、中国では2019年11月からディープフェイク配信にあたり明確に偽物であると分かるように記載しなければならないとする規定を交付した。

ディープフェイクによるポルノコンテンツ制作は、イギリスではディープフェイク製作者を”嫌がらせ”として起訴が可能。アメリカでは個別の対応として処理している傾向がある。

真贋判定はいたちごっこ
まず、素直に技術の進歩すごい!Tacotron 2というGoogle AIのオープンソース凄まじい。今までは学習データにコツ(言語的特徴や音響的特徴)が必要だったものを、音声データのみを学習データとすることで、自然なTTSができるようになった。学習用の音声データから、単語の発音も癖だけではなく、音量、速度、イントネーションなど、人間の音声のさまざまな微妙な要素を学習している。

技術の発達は良いニュース。それ故、ディープフェイクコンテンツの真贋判定は日々難しくなってきている。ディープフェイクコンテンツの真贋判定に情熱を注ぐDeepTraceは主に動画を対象にディープフェイクコンテンツか否かを判定することができる。主にメディア向けにサービス提供を行っている。DeepTraceのようなソリューションも日々あの手この手でディープフェイクを検知できるように研鑽する必要がある。

真贋判定が画像でも難しいという簡単な例として、暇な方は下記リンク先でページを永遠とリロードしてみてほしい。耳と目元にたまにメガネのフレームのようなゆらぎがでることがある。それらが学習した画像の名残です。毛先とシワに若干違和感があるときもあります。しかし、よく見ないと分かりません。

TTSとはやや毛色は異なるが、他人の声でスピーチできるようにもなる。Respeacherはリアルタイムで音声を変えることができる。サンプルでは途中から声がオバマ元大統領になっている。パーティーグッツ等で使うと面白そうだ。あくまでこれも悪意をもった使い方をしないことが重要になると考えている。

これから
フェイクニュース等テキストベースの情報が今まで問題視されることが多かったが、気軽に投稿できるメディアの台頭により、権威性のない場所でオフィシャルに配信されていない動画や音声コンテンツの真贋を問うことも難しくなる。また、権威性のあるメディアで取り上げられたからといって必ずとも正しい情報と言えないことは難しいが。そのためDeepTraceのようなサービスが必要になると考えている。暫くはいたちごっこ状態が進むと予想しているが、良き方向に技術を使っていただけるように願う。

最後に、「ディープフェイクの著作権は誰もの?」の答えは都度判断になると考えている。学習に使ったデータは誰ものか?合成したオリジナルデータは誰のものか?実は元データを全て疑似化してアウトプット作成したため、定義上は著作権フリー?ディープフェイク作成につかった仕組みは誰のもの?良い事例、悪い事例沢山出てくると思うので、この辺りは今後もチェックしていきたい。

参照:
The VERCH : Jay Z tries to use copyright strikes to remove deepfaked audio of himself from YouTube
The VERCH : California has banned political deepfakes during election season
Voice Synthesis : Youtube Channel
36KR : AIによるディープフェイク技術に規制 中国の新規定が2020年施行
The VERCH : China makes it a criminal offense to publish deepfakes or fake news without disclosure
The Guardian : Call for upskirting bill to include 'deepfake' pornography ban

この記事が気に入ったらサポートをしてみませんか?