やっほー (/・ω・)/
AI まわりもう連日いろんなもので出すぎてキャッチアップが大変でござるござる ( ・ω・)
悲しいけど、これって、能動的に理解を務めていかなければならぬ世知辛い世の中なのよねぇ(*´▽`*)
前置きはこれくらいにして、最近 Meta さんが Voicebox ってのを発表してござった
VOICEVOX という似た名前のサービスがあるようですが別物らしいでござる ( ・ω・)
まだ GitHub とかで自分で試したりできなさそうなので、とりあえずこやつの正体を確かめていくでござるよー(/・ω・)/
デモ音声とかはここで聴けるよー
Voicebox
SOTA !! ( ゚д゚)
(響きが好きなだけ)
では、俺のターンっ!!
ChatGPT でシュッと説明!!
流石 LLM 界のマエストロやでぇ( ゚д゚)
もうちょいしっかり目によろ~
いと、わかりやすし。ありがたやありがたや (*´▽`*)
追記(フローマッチングモデルについても書いてた方がよさそうと思ったの)
------------------
Q:フローマッチングとはどういった技術なのでしょうか?
Q:このモデルは事前学習によって得られた基準に対して、提供された入力が外れているかを判断し、それをわかりやすい状態へと変換(新しいサンプルを生成)できるということでしょうか?
Q:つまり、Voicebox の文脈においては、このモデルを使用することによって、提供された音声データの抑揚やノイズといった事前学習した音声からすると外れ値に当たる内容を検知することができ、それを修正したサンプル(音声)を生成するために使われているということでしょうか?
------------------
とりあえずシュッと理解したい人はここまででいっす(/・ω・)/
あとはファクトチェック的に DeepL 先生よろ~
翻訳パート
ほむほむ( ・ω・)
悪用される可能性があるため、現時点ではVoiceboxのモデルやコードを一般に公開することはしていません。
なるほどでござる ( ・ω・)
ふむふむ ( ・ω・)
日本語では学習してないでござるな ( ・ω・)
すごくなーい?( ゚д゚)
日本語仲間に入れてほしいでござる ( ・ω・)
ノイズ除去とか大変だからありがたいでござるな ( ・ω・)
ふーむ。じつに面白い(〇-〇ヽ)クイッ
ここからは論文読んじゃうぞ☆
https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/
とりあえず概要をシュッと翻訳
ほ~~~~ん ( ・ω・) (わかっていない)
まぁここからは ChatGPT 先生に教えを乞うでござるよ。
基本的に愉快に紹介していくだけで完全な情報ではないので詳しくは論文を読んでね☆
Introduction
よっ、ヒーロー!!
Related Work
まさにアイアンマンのような存在ですな(/・ω・)/
Method
マジシャンと占い師のマリアージュ
Metrics
ほむほむ ( ・ω・)
Experiment
空前絶後のスーパーヒーロー( ・ω・)
Ethical Statement
大いなる力には責任が伴う、、、!!
Conclusion and Discussion
アーミーナイフて久しぶりに聞いたなw
最後にシュッとまとめ!!
というわけでシュッと見たのでおしまい。