見出し画像

今年やりたいこと

あけました。2025年です。
昨年音響にまつわる話を軽くしてきましたが、音響音響する専門的な話を噛み砕いて記事にしているつもりです。わかりにくい単語も出てきますのでもしわからない場合にはコメントをいただけますと返しやすいです。
さて、昨年はVR音響やリアルでの音響などさまざまな活動をしてきました。
今年はそれをより専門家させて取り組んでいきたいので目標を羅列してみようかと思います。


音響でできること

音といえどもされど音です。音は音楽という楽しい世界から始まり、兵器にも活用されるとても怖いものでもあります。例えば楽器で演奏される音楽はとても快適に、そして癒されたりもします。また、ライブを聴きに行けば心おどるような気分になることもありますね。たいして魚群探知機のソナーや、ジャミングなどの音もあり音の世界は非常に広いことがわかります。
言語も声を出しますね。もっといえば人の声も音の一種といえます。音から離れて生きるというのは非常に難しいことです。
私の専門分野はこの音響全てになるのでさまざまな音を使って表現のお手伝いをします。とはいえ技術として提供できる幅はまだまだ広いのでそれを今年は解決していきたいと思います。

3D音響の確立

これは昨年から取り組んでいるテーマになります。とかげさんの記事を参考にさせていただきながらVRChat上で立体音響を詰めていました。実際にはワールドの形に合わせたリアルな音響を作ることに注力しました。私自身にワールド製作の技術はありませんので、製作者さまと一緒に活動することがほとんどです。ライブイベントでスピーカーの配置をして、実際にそこで鳴るであろう音を再現する作業です。2chステレオで再現していましたが結構攻める余地があって立体音響の基礎を作れたのではないでしょうか。これは複雑なプログラムを利用するわけではなく、単純なパラメータを操作することでリアルなサウンドを作り続けました。実際にIRを測定したり、ノイズを鳴らしたりしながら”ここではこんな音がありそう”から物理的にありそうな空間を仮想現実上で再現するものです。例えば定位の問題だったり位相の問題、さらにはC値などの物理問題を持ち込んでみました。結果としてライブサウンドが実際のライブと遜色ない音響を提供することができました。
今年は3ch以上の音に着目して立体音響の挑戦をしていきたいと考えています。仰角方向への定位は非常に難しいのでまずは水平方向で音源の定位実験をしていきたいです。DolbyAtomosのような音場を提供できるとなお良いのですがこれにはプレイヤー側の開発も必要になってくるので少し時間はかかりそうです。まずは通常のDolbyHDのような平面のサラウンドを提供します。映像を含めながら空間提供ができればと考えていますのでできましたら改めて紹介したいと思います。

Dolbyってなんだろ

ドルビーサウンドなんていう名前をよく聞きますね。とりあえずいい音なんだろうという想像だけは浮かぶと思います。エンコードを提供する企業であってドルビーの技術を用いてさまざまなコンテンツが提供されています。1960年にレイ・ドルビー氏によって設立されAACなどのデジタルコンテンツフォーマットを研究しています。たとえば最近で言うとDolbyAtomosなんていう技術がありますがこれは単純な立体音響のフォーマットではなくて、そのコンテンツを制作する側にもメリットがあります。部屋の形に依存せず定位方向を定めておくことで再生される音場では…ここでは映画館を指しますが、映画館にはたくさんのスピーカーがありますね。これをどのスピーカーから出すのか決められていたのが5.1chサラウンドの世界になるのですが、スピーカーの位置に依存するのではなく絶対的な定位を求めたのがこの技術になります。映画館ではプロセッサという機械を用いることで一つ一つの音源の定位を計算しています。自宅でDolbyAtomosを再生する時にとにかくスピーカーの位置にうるさいのは品質を均一にするためだと思ってください。なので少しくらいずれても大丈夫なように設計されている場合がほとんどですがずれてしまえば制作者が意図した音は再現されないと言うことになります。

IRってなんだろ

Impulse Responseと調べればある程度の情報が出てくるのではないでしょうか。これが何を指すのかは少し調べてみてください。結構難しい理論ですが私は個人的にかなりお世話になる信号となります。

配信チャンネルのミキシング

さて、ここからは技術的な問題です。昨年問題になったのがライブ演奏において、フィードバックがなかなか流せないことやPAで入っているにも関わらずミキシングの作業が行えなかったことが問題として浮き彫りになりました。YAMAHAで提供されているSyncroomを用いたライブを使っていましたがミキシングができるのはルーム内にいる人だけで、配信されてきた音源を操作することができなかったのでまずそれぞれの音源を分解してミキシングできる仕組みづくりをしなくてはなりません。CubaseやNuendoを用いたシステムがこれに対応しそうなのでまずは使ってミックスへの挑戦をしてみようかと思います。当然のことながら遅延問題や音質の劣化問題など出てきてしまいますが、Syncroomの仕組みを理解しつつ低遅延(100ms以内)を目標にして配信の可能性を模索します。まずはNuendoを買わなければ。。。

Syncroom?

シンクについては以前の記事で説明していますが、最新版になって遅延問題と音質問題がかなり解消されていてセッションを楽しむところから音楽を楽しむところに至ったのではないかと思います。それぞれの演奏をサーバーにたてられた部屋で同期するアプリで転送技術やプロトコルに関してはブラックボックス化されています。かなりの非可逆圧縮なのにかなりの音質で再現することができるのできっとプロトコルに鍵があるのだろうと思ってます。例えば電話機は相手の声が聞こえるのではなくて近い音に変換されて相手に届いているのは有名ですね。これによってデータ量を抑えることで遅延が起こらない電話というシステムが開発されました。NTTでは研究を重ねて段々と音質が良くなってきていてLTE通信においてはトラフィック部分に改善を重ねて周波数帯域を広く転送することが可能になりました。このコーデックやプロトコルなんて分野現代の通信では非常に重要になってくるので少し勉強してみるのもいいかもしれませんね。

Cubase?Nuendo?

どちらもDAWの一種になります。録音の時によく使いますがコンテンツ作成やマスタリングなどさまざまな用途に対応しています。無料DAWと有料DAWの違いはより高性能なプラグインが利用できるかどうかだろうと思います。Reaperでも十分な録音ができるのでCubaseまで必要ないかもしれません。でもプラグインを使った時の使いやすさでいえばCubaseの圧勝です。Nuendoはと言うと映像が使えると言うのが大きいです。もちろん高ビットレートだったり、先進的なデジタル符号化技術が盛り込まれているので多少の違いはあります。Protoolsが業界標準になっているのでこれに対抗した製品と思っていただいて大丈夫です。プラグインの種類はたくさんあるのですがVSTを使いたい場合にはCubaseになるので注意しましょう。

マイキングの簡素化

仮想現実上でライブを行う時にマイキングを自分でできないのがネックになりました。自分の耳を頼りにマイクの特性を踏まえながら演者の方にマイクの角度を変えてもらったり、手を叩いてもらってどんな空間にいるのかを把握することしかできません。演奏している場所の写真を見ればこれも簡単なのかもしれませんが、顔出ししないことがメリットなのであえて音だけで確認作業を行うという無茶な作業ですが功を奏して綺麗に音がまとまった感じがありました。もちろん完璧なものは作り出せないのでこれは演者の方の持っているマイク特性をしっかり知って最大限いい音を配信できるようにするのでそれなりのマイクの知識量を必要とします。そのためにダイナミックマイクを買ってみたり、コンデンサーマイクで実際に歌ってみたりして特性を把握するなどを行なっていましたが自分の耳だけを頼りにしていては仮想現実空間でのライブ活動が広がっていかないので定量化できる指標が必要になってきます。Udonのシステムを用いて何か表示できればいいのですが私自身がPython使いということもありC言語をほとんど理解していないので無茶な挑戦かもしれませんが、マイキングが簡単に行えるようにパラメータの検討を行っていきたいと思います。

マイク問題って実際??

良いマイクってなんなんでしょう?アーティストさんであればより目指した音がなるとかハウリングしないとか。そういったものがいいマイクとされると思います。対してエンジニアリングではとにかく忠実に信号を入力できるマイクを良いマイクと言います。
つまり目指しているものが違うんですね。ということはアーティストさんとエンジニアが目指しているマイクは違うことになってしまいます。とはいえアーティストの方にとっては歌い心地が一番ですよね?なのでエンジニアはアーティストの方が目指す音を最大限発揮できるようにマイクの調整を行います。録音であればエンジニアがマスタリングを行うのでエンジニア指定のマイクを使うことが多いのですが自宅で整える環境には限界があるので手持ちの機材で最高の音を目指していきます。一番多いのは角度の調整ですが配信する際には簡単な歌い方の指導など作業は多岐にわたります。時には目の前に布を吊るしましょうなんて提案をすることもありますね。結構根深い問題だったりします。

RVCの遅延問題

とりわけ一昨年話題になっていた問題で現在ではタップ数を減らすことによって解決していますが、タップ数が少ないとどうしても再現性が低いのでGPGPUを用いることでより低遅延なRVCを提供できないかと考えています。RVCではCPUを用いることで入力信号を正確に計算して変換を行い学習した音声モデルで再現を行います。しかし、これはロバストでも変換が行えると考えていて、さらにはAI処理をかけることである程度次に出てくる音声入力を予測することができます。入力信号にたいして毎回RVCモデルを参照して演算を行うシステムを用いているようなので音声マッピングを行うことである程度計算負荷を軽減することができないか。と言うのが課題になります。昨年取り組むつもりでしたがなかなか学習時間が取れなかったので取り組みたい一つでもあります。計算負荷は相変わらず高いのでまずはコストを下げることから始めて、ゆくゆくはGPGPUを用いた並列演算を利用した低遅延なシステムが作れることが目標になります。これは計算機のクロックに依存するので場合によってはFPGAの設計の必要性が出てきそうなのでかなり難しい問題だと認識しています。とはいえども、簡易的にマッピングすることでかなり計算を単純化できそうなのでコスト的な問題がほとんどになります。これである程度低遅延かつタップ数を稼げるのではないでしょうか。

RVCってそもそも?

Real Voice Changerを指します。通常のボイスチェンジャーとは違い自分の声を変換して出力するわけではありません。目標とする声をAIに学習させて、自分の声の音程を入力すると学習した声に当てはめた場合にはどういう声になるのかをAIに処理させます。AI処理の過程で予測処理をかけるので曖昧な信号を作り出すためコストが高くなりがちです。結局タップ数が少ないのであればどんなに精度が良くてもガビガビになってしまうので意味ないですよね。とはいえハードウェアボイチェンは高価なので少し躊躇ってしまうのも頷けます。

現実空間と仮想現実空間のゆらぎ

仮想現実世界の音場を現実空間に落とし込めないかと考えてます。水平方向に定位が出ることは実験結果から出ているのでこれを平面情報からどれだけ引き出せるかが重要になってくると考えています。現状仮想現実空間上でのやり取りを現実空間でやり取りする手立てがありません。広義にとらえれば当然ゲームをしているのは現実なのだから仮想現実とのやり取りをしているともいえますが、VRゴーグルを用いない場合に立体音響が成立するのかどうかは自身の中では求まっていないので仮想現実世界から現実世界に提供できるかどうかが鍵になってきます。一対一のコミュニケーションではこれが成立するのかもしれませんが対複数相手に成立するのか。また、現実世界とのコミュニケーションのあり方についても検討していきたいと思います。Vketである程度の知見を深めることができたので、今後マイクなし(アンビエントのみ)でのコミュニケーションが取れるのかを検討していきたいです。もしかしたらとあるマイクが使えるかもしれませんね。現実と非現実へのゆらぎをつくれたら良いなと思っています。

リアル音響の空間畳み込み

リアルにある音場の空間畳み込みをかけれるのか。今まではリアルを模擬した音響を提供してきたので今度は実際にある音場を再現できるのかどうかを検討したいと思います。そのトリガーになるものはいくつもありますが、これがどこまで再現できるのかは解き明かされてません。これが行えれば音響系のクリエイターが参加する機会が増えるのではないかという思いもあります。最近Wavesのプラグインを購入しましたが実際の現場のIRを持ち込むことでさまざまな音を検討することができるんじゃないだろうかと言う思いがあります。もちろんリアルタイム処理をするには現代の計算機では難しいのでコンテンツとしての提供ということになりそうですが、実際に畳み込みが行えて比較検討が行えれば音がもっと楽しい方向に向くのではないかとか、同じワールドで複数のサンプルを再生して音的に”明日行けるところ”を探してみるのもいいのかもしれません。とはいえ室内音響になるのでどこまでIRが手に入るのかわかりませんがとりあえず今あるIRを使って再現してみようかと思います。

ここでおしまい

ちょっと技術的に話せないことも増えてきそうなので有料記事も書いてみようかななんて思います。特に後半に関しては研究している方々もおられるのでセンシティブな領域につっこんで行くことになるのでなかなか書けないでいました。今年はその辺も含めてさまざまな見解を説明できたら良いですね。

いいなと思ったら応援しよう!

桜音 さなれ
応援いただけると記事の励みになります! noteのコンテンツのために使わせてもらいます!