Note-20: Soraもすごいけど、AvisSpeechって音声合成のゲームチェンジャーじゃない！？

2024年12月27日 19:24

こんにちは。こんばんわ。
今年もあと少し。年末をいかがお過ごしでしょうか。

AIやってびっくり系のレポートでございます。

衝撃的な発表から1年ほど経過して、全人類が忘れかけていたそんな先日、やっとOpenAIさんがSoraを一般公開しました。パチパチパチパチ････

しかしながら、いま現在、各社の動画生成AIがめちゃめちゃ性能UPしすぎてるので、あー、そういえばあったねーという感じではあります。逆にいま公開しないと鳴り物入りのまま不発に終わり、出す出す詐欺の名がOpenAI社の歴史に刻まれたことでしょう。湯水のようにじゃぶじゃぶと開発費を使ったはずですしねえ、出さないわけにはいきませんよねえ。

1. さて、Soraとやらの実力を見せてもらおうか！

使えるなら、試してみよう、ホトトギス。です。

Sora

https://openai.com/sora/

ChatGPT Plus のサブスク入ってる人なら全員使えます。
月200ドルのProプランはSoraポイントがたくさん使えます。
僕は通常プランなので利用ポイントが少なかったです。
低解像度480pixelの10秒動画を20本くらいガチャしてたらLIMITに到達してしまって、来月ポイントがリセットされるまで、お預けとなりました。

はい。
で、（リリース直後の）性能はどうなのか。
事前のサンプル動画みたいに、なんかすごい動画が作れるのでしょうか？
以下、実作の感想です。

結論：
確かにすごいと思いました。今のところ他社の動画モデルはスライドとか口パクくらいまでは作れますが、自然に走ったり繊細な表情を作ったりは難しい気がします。また、実写生成画像のリアルさ再現性と連続性は素晴らしいです。生成された女性の、頬のアバタも最後まで維持されてたり、ネガティブプロンプトなしで、しっかり1フレームごとの整合性が維持されます。原理はさっぱりわかりませんが、これまでの静止画を動画化する方向性とは、動画オブジェクトのパラメータの取り方が違うのでしょう。

以下、２つの生成動画サンプルをご覧ください。

こちらが（僕の？）プロンプト限界の出力結果でございます。

【動画】1個目：喧嘩する二人

　↓　トレンディドラマのワンシーンを狙いました。
この二人、どことなく新木優子と高良健吾に似てませんか。
男が青いマニキュアしてたりしてホストさんですかね。
新木優子、悪い男に捕まっちゃたよなあ。
といった背景ストーリーはまったくありません。

プロンプト：
（英語のほうが正確みたいですが日本語でも処理できます）
強い雨が降り続く華やかな夜の東京の繁華街。泣きながら走っていく日本人の20代美女と、彼女を追いかけてきた20代の日本人青年。やっと彼女に追いついた男が、彼女の腕を掴んで彼女を静止する。ところが彼女は、振り向きざまに、怒りの表情で男の頬を平手打ちし、大声で何かを訴える。男は彼女を抱き寄せる。彼女は男から逃れようとするが、男が耳元でなにかを囁くと、彼女は静かになり、男の胸に顔を埋めて泣き続ける。男は彼女を腕に抱きしめたまま、寂しげな表情で遠くを見る。

感想：
Sora自体にも、シーンごとにプロンプトを分割指示する機能があったのですが、ポイントを使い果たしてから気づいたため、試せず。

↑も、2秒くらいのシーンのプロンプトを5個つなげて10秒になるくらいに、わりときっちりオーダーしたつもりでしたが、なかなか思い通りには動いてくれません。ある部分はマルっとサクッとスルーされます。

でも、他社の動画生成と比べて、しっかりした動き（静止画が移動するのでなくて人物のオブジェクトが走ったり怒ったりする動作）が表現されました。このレベルでのシーンメイクや人物の「アクション」は、StableDeffusionなどの動画生成プラグインなどでは難しそうですね。
最近はSoraを超えた！と言われる動画生成ツールが結構あるみたいですけど、そんなたくさん課金できないから様子見です。他ツールでもこれくらいのアクションはできるのだろうか。

ただ、何回やっても「平手打ち」してくれませんでした。
暴力モデレーションにひっかかったのか？はなぞです。

上記の様に細かく指示した場合、出力の成功確率は体感的には10％くらいでしょうか。ガチャは要素ありますが、予想以上にこちらのイメージを理解できているように感じました。
（冷静に考えればこれってものすごいことなのですが、次々とすんごいAIが出てくるから、びっくり神経が若干麻痺してます）

【動画】2個目：古城のドラキュラ伯爵

いやいやいや、てか、この人は誰！？

ホラー映画のクライマックス突入シーンを狙いましたが（笑）、
誰やねん、あんたは。

ただ、人物造形や表情の動きはすごいです！映像の質にびっくり。
いずれ、コンテのシーケンスごとにちゃんと生成できるようになったとき、再びハリウッドは大ストライキに突入することでしょう。

プロンプト：
幻想的な月夜にそびえるヨーロッパの古城の中を歩いていく。伝統的な玄関扉の前で立っている「40代の貴族風の紳士（最大限にリアルで高精細な「ドラキュラ伯爵」の人物イメージ）」の全身姿が現れる。月影のコントラストの中で、こちらに向かって怪しく微笑んでいる。
さらに、紳士の近くへと歩み寄る。緩やかな風が吹き、紳士の頭髪や衣装がかすかに揺れている。そして、紳士の前で立ち止まって真正面に向き合ったとき、紳士の顔が満面の笑みの表情に変わる。開いた口元から「大きな2本の牙」が露出し、瞳が「血のような赤色」に変化し、紳士が恐ろしい「ドラキュラ伯爵」であることが分かる。

感想：
プロンプトとはまったくの別物ですが、まあまあ辻褄の合った出力がこちらです。てか、主観映像だからドラキュラしか映らないはずなのに、いろんな登場人物が出てきて、え？この人物はなんの役？と困惑。それが感想です。監督に無断で出演者を増やしちゃう助監督、という印象でしょうか。

こちらも、「口から長い牙をのぞかせた恐ろしいドラキュラ」が笑う、
シーンは、なぜかモデレーションに引っかかってしまい、どう書いてもできませんでした。どこがあかんの？？？
牙を抜かれたドラキュラ伯爵なんて攻撃力ゼロでしょ。しかも、ただの変態にしか見えんのですわ。

それにしても、モデレーションは結構だけど、出力が表示されないのにポイントは消費されました。まあ、機械がやることなので仕方ないとは思うけど、商品はお渡しできませんが、遊んだ分のお金はいただきますよ。
ってのは、どうなん？

以上。Soraの性能感想でした。
※牙なしドラキュラ風変態男になっちゃうのは、僕のプロンプト技術が低いためでしょう。

2. まじか！文意から感情表現を抽出・生成する音声合成ツール：Avis Speech

Aivis Speech という最新「テキストtoスピーチ」の音声合成ツールが、
すごい！菅すぎる！
僕は、一生、VOICEVOX一筋だ！と思ってたけど大間違いだった。

↓　で合成サンプル音源を聞けます。

OpenAIの例のAdvanced SpeechとかGeminiの会話も、テキストから感情抽出した上で、最適なトーンで反応する処理を施してるようですが、そういったAI処理を組み込んだ音声合成モデルがこれです。（たぶん）

【音声のみ】Style-Bert-VITS2：
　　　　合成音声の会話をつくってみました。

台本：
A「ねえねえ、その、今回の社会の宿題って、めっちゃ難しくない？」
B「あー、あれね。『都市伝説の歴史について調べよ』っていうやつ？」
A「そうそう！都市伝説って、口裂け女とか、トイレの花子さんとかでしょ？歴史とか、全然わかんないんだけど…」
B「確かに…。でも、なんか面白そうじゃん！一緒に調べてみよっか！」
A「えー、でも、どこから調べればいいんだ？」
B「そうだね…。とりあえず、図書館とか行ってみよっか！」
A「うん！図書館で、古い本でも探してみよう！」

すごいところ：
※細かい仕様は調べてませんので多々推測です。

日本語テキストの文意から感情を抽出して、生成する音声にAIが自動的にセリフ感情に沿って抑揚をつけてくれます！

音声合成のモデルは「Style-Bert-VITS2」というやつです。知らなかった。
すでにいずれもYMM4で利用できました。対応が早すぎ！

こちらは、ローカルモデル（オープン）なので、PythonとGitが必要です。
が、ダウンロードが終わると自動でブラウザにローカルサーバーが立ち上がるので、コード書く必要はありませんでした。インスト後は、アプリファイルをダブルクリックすれば、同じようにwebで起動します。

そして、これらが、本当に、どこが、すごいかというと、誰でも音声モデルをファインチューンしたり自作したりできるツール、を提供している点です。
作成したモデルを上記いずれかの形式で、追加モデルとして公開したり、密かに利用したりできるわけです。
このオープンエコシステムは、今やファインチューンのベースと言っても良いLlamaシリーズやStableDiffusionなど画像生成系のモデルと同じく、これから多種多様な音声モデルが山ほど作られていきます。

現状の多くの音声合成ツールの「音声モデル（ずんだもん等の声の部分）」は、ある程度、数が限られているので、開発メーカー側の頑張りを待っているしかありませんでした。ところが、こちらでは、誰でも音声モデルが作れますので、仮に、おいこらもうモデルを増やすな！作るな！と規制したとしても、誰かが勝手に作り続けます。よって、ずんだもんみたいに大人気になる素晴らしい音声モデルがバンバン誕生してくるはずです！

そういう意味で、音声合成モデル業界（？）のビッグバンやー！と言っても過言ではない！のではないでしょうか。たぶん。

詳しい使い方やサンプルなどは、上記URLを辿ってご確認くださいませ。
以上、AI驚きシェアでした。