Neural Captureを他社が真似出来ない理由

青木征洋 / Godspeed

2021年6月10日 19:11

本記事ではアンプシミュレータの質という軸で比較した時にNeural DSPに比肩できるデベロッパーが存在しない理由について技術面から説明します。

商品としての魅力には技術的な側面のほかに入出力の仕様やサイズ、重量、UI/UXのデザイン、エフェクトの品質等が絡みますので、あくまでアンプシミュレータ部分の限定的な話としてお読み下さい。

むしろそっちの話が知りたい方はこちらの記事へ。

先に結論から

どうしても小難しい内容になってしまうので先に結論だけをシンプルに並べると

・アナログ回路の開発経験はモデリングに活かせる
・モデリングの過程で得た技術がAIの質に大きく影響する
・アナログもモデリングもAIもやっているのはNeural DSPだけ（2021年時点）

これがNeural Captureを他社が真似できない理由です。

質の高いアナログ回路をデザインできる

Neural DSPの創設者はDarkglassの創設者であり、アナログのペダルやアンプを作るノウハウを持っていることは想像に難くありません。実際の素子を組み合わせて回路をデザインした時の挙動の曖昧さとそれを音楽的に活かす術を知っているということです。

アナログ素子の特性は非線形の塊です。抵抗もコンデンサもコイルもトランジスタもあらゆる電圧、周波数の入力に対して理想の動きはしてくれませんがまだこれらは可愛い方で、真空管という非線形デバイスの親玉のような存在のせいでアンプの挙動を計算機で再現することの難易度は極めて高くなっています。

こうしたままならないデバイスの挙動を工学的且つ音楽的に感覚として理解していることは恐らくアンプシミュレーションにおいても非常に重要ですが、アナログ回路と計算機上のプログラムを両方製品として作っているデベロッパーは中々見かけません。

質の高いモデリングが出来る

アンプという系、入出力の変化をプログラムで記述し特定のアンプの挙動に似せることをシミュレーター界ではモデリングと言います。このアンプモデルの内部には数多の関数群（どんな入力に対しどんな出力を返すか記述したもの）が存在しています。これらの関数群の組み合わせや変数の値を、例えばBASSやMID、TREBLE、GAINのような人間にわかりやすいインターフェースで複合的に制御できるようにしたものがアンプモデルです。

アンプモデルの質を高めるには質の高い関数群を揃えることが極めて重要です。関数群の質が低ければそれらをどう組み合わせたとしても所謂「良い音」が出るモデルに仕上がりません。そして、開発者がこれらの関数群を人力で組み合わせて実機に似せるためには非常に良い耳と根気が必要です。Neural DSPはこれまでのプラグイン群を見て分かる通り、質の高い関数群を組み合わせて質の高いアンプモデルを生み出すことに成功しています。実在のペダルやアンプを再現するだけでなく、関数群をクリエイティブに組み合わせてParallaxのようなユニークなエフェクトも生み出しています。

Deep Learningの技術者がいる

Neural DSPに直接"Is your neural network deep?"と訊いたわけではありませんがサイトの説明文の書き方的にほどよく小規模のdeep neural networkを扱っているだろうという推測のもと書いていきます。

※（2023/04/20追記）後日社長のDouglasから直接Deep Learningに関する説明を聞けたのでDeep Learningで確定です。

Deep LearningはAIの歴史を大幅に塗り替えた革新的な技術ですが、アンプシミュレーションにDeep Learningを応用しているのは今のところNeural DSPしかありません。

※（2023/04/20追記）2022年9月にIK MULTIMEDIAがTONEXを発表したのでNeural DSPだけではなくなりました

ただし、Deep Learningを使えば誰でも素晴らしいサウンドを生み出せるわけではありません。決して無から有を生み出すテクノロジーでは（今の所）無いのです。

Quad Cortexの中のAIはテスト信号を送ってアンプ、キャビネット、マイクを経て返ってきた信号を解析し、その中から人間では見つけることの出来ない特徴を見つけ出し、それを既存の関数群の組み合わせで再現します。

人間であれば関数群の働きに対してはせいぜいEQやGAIN、ボリュームなどの限られたパラメータでしかアクセス出来ませんが、Deepであればもっと複雑な、夥しい組み合わせの中からキャプチャ対象の挙動を模倣することの出来るパターンを学習し提示してくれます。

深層学習に既存の関数群を用いるということは即ち、Deepが弾き出す答えの質は関数群の質に強く依存するということです。アナログ回路のノウハウを活かし質の高い関数群を作り人力でアンプをモデリングすることが出来るNeural DSPだからこそ、Neural Captureの音がこのクオリティになるのです。これがNeural DSPに誰も太刀打ちが出来ない理由です。

アナログ回路だけ作れてもシミュレーションは出来ないし、モデリングの技術だけを追求しても機械学習には学習の深さで到底敵わず、かと言ってDeep Learningだけが出来てもそれを音に活かすことが出来ないため、3要素をコンプリートしているNeural DSPが今後しばらく頂点に君臨し続けることは最早確定していると言っても過言ではありません。

可能性があるとしたらUniversal Audioでしょう。もしUniversal AudioがギターアンプシミュレーションのためのAI開発に本腰を入れることがあれば…想像するだけでワクワクしますね。

※（2023/04/20追記）同様に3要素をコンプリートしているIK MULTIMEDIAがより安価なTONEX Pedalというソリューションを2023年3月に発売しました。

それにしてもプロトタイプ段階のNeural Captureでは深層学習に9分ほど、GPUでのテストでは数時間かかっていたと聞いているので、これをデータセットの作成（テストシグナルの録音）まで含めて4分程度にまで縮めたニューラルネットワークの小規模化、学習の最適化は素晴らしいなと思います。恐らくデータ的にパーフェクトな一致を目指すところから始めて、徐々に耳で聴いて問題の無い最小限の規模にまで落とし込んでいったんだろうなと想像します。

※（2023/04/20追記）ちなみにTONEXではデータセットの作成だけ5分弱、高性能なGPUを搭載したWinマシンで学習させても15~20分程度はかかると言われています。

おねがい

何か僕が勘違いしてることがあったら優しくこっそり教えて下さい。