Quantum-inspired activation functions in the convolutional neural network
自分との向き合い方
その1. 幽体離脱します。
概要
Quantum-inspired activation functions in the convolutional neural network
written by Shaozhi Li, M Sabbir Salek, Yao Wang, Mashrur Chowdhury
published on Mon, 8 Apr 2024
[Abstract]
Driven by the significant advantages offered by quantum computing, research in quantum machine learning has increased in recent years. While quantum speed-up has been demonstrated in some applications of quantum machine learning, a comprehensive understanding of its underlying mechanisms for improved performance remains elusive. Our study fills this gap by examining the expressibility of quantum circuits integrated within a convolutional neural network (CNN). Through numerical training on the MNIST dataset, our hybrid quantum-classical CNN model exhibited superior feature selection capabilities and significantly reduced the required training steps compared to the classical CNN. To understand the root of this enhanced performance, we conducted an analytical investigation of the functional expressibility of quantum circuits and derived a quantum activation function. We demonstrated that this quantum activation is more efficient in selecting important features and discarding unimportant information of input images. These findings not only deepen our comprehension of quantum-enhanced machine-learning models but also advance the classical machine-learning technique by introducing the quantum-inspired activation function.
[Abstract(翻訳)]
量子コンピューティングがもたらす大きな利点により、量子機械学習の研究は近年増加している。一部の量子機械学習の応用においては、"Quantum Speedup"が実証されている一方、性能向上のためのその根本的なメカニズムの包括的な理解はまだ得られていない。私たちの研究は、畳み込みニューラルネットワーク(CNN)に統合された量子回路の表現力を調査することで、このギャップを埋める。MNISTデータセットを用いた学習において、我々のハイブリッド量子-古典CNNモデルは、従来のCNNと比べて優れた特徴量選択能力を示し、必要な学習ステップ数を大幅に減少させた。この性能向上の根本要因を理解するために、量子回路の関数表現力を分析し、量子活性化関数を導出した。この量子活性化関数は、入力画像の重要な特徴量をより効率的に選択し、重要でない情報を排除できることを示した。これらの発見は、量子によって強化された機械学習モデルの理解を深めるだけでなく、量子にインスパイアされた活性化関数を導入することで、古典的な機械学習技術の進歩にも貢献する。
コンテンツ
量子機械学習の表現力解析
近年の量子機械学習では、量子モデルまたは量子回路を用いて重要な特徴量を抽出する。
データを高次元のヒルベルト空間にエンコードし、非線形な量子カーネル関数を構築している。
これらの量子カーネルは、量子測定を利用する「明示的モデル」と、量子状態の内積に基づく「暗黙的モデル」に分類されている。
しかし、量子機械学習モデルの優れた性能の背後にあるメカニズムについての包括的な理解はまだ明確ではなく、量子回路のアーキテクチャとその表現力の間の関係を解析的に導き出すのは難しい。
特に量子ビットや量子ゲートの数が増えるとその困難さが増してしまう。
本研究は、畳み込みニューラルネットワーク(CNN)に組み込まれた5つの浅い量子回路を分析し、量子-古典ハイブリッドCNNと古典的なCNNの性能を比較することで、量子回路の関数表現力を解明し、機械学習性能に与える影響を明らかにしようとアプローチを行った。
量子回路
量子-古典ハイブリッド機械学習の性能を明らかにするために、5つの量子回路を用いた。
これらの5つの量子回路は、ヒルベルト空間内の表現と関数表現力において異なる結果をもたらす。
これらの関係性について探求するために、CNNのアーキテクチャにこれらの量子モデルを統合した。
量子-古典ハイブリッドCNN
ここで扱う量子-古典ハイブリッドCNNは、下図のように「量子フィルター付き畳み込み層」、「プーリング層」、「平滑化層」、「全結合層」、そして「ソフトマックス層」の構成である。
量子フィルターの部分では、各量子回路に対し、入力画像のパッチ(部分画像)を量子状態にエンコードするため、最初の回転演算子($${R_y}$$ 演算子)における回転角を入力パッチの各ピクセル値を用いて設定する。
具体的には、画像のパッチ内の $${N_x \times N_y}$$ 個の各ピクセル値 $${x_{i, j}}$$ に対して回転角を $${\theta_{i \times N_y + j} = x_{i, j} \times \pi}$$ とする。
$${V}$$ の部分にはCNOTゲートまたは $${I}$$ ゲートがかけられ、 $${W}$$ の部分にはCNOTゲートが必ずかけられている。
$${V}$$ と $${W}$$ に挟まれた部分の回転演算子にはパラメトリック変数が適用され、損失関数を最小化するために最適化される。
量子回路の出力は、 $${Z^{\otimes N}}$$ の期待値として表現され($${N}$$ は量子ビット数を表す)、この期待値がCNNの最初の中間層に対応し、各ニューロンはこの量子回路の出力を表す。
MNISTデータセットを用いて、16個の特徴量でバッチサイズを64として57,600個の学習用データで学習し、10,000個のテストデータで検証した。
以下のことがわかった。
ハイブリッドCNNモデルのうち、量子回路1および量子回路3を使用したモデルでは、損失関数の減少と精度の残差の減少が非常に速い
量子回路2および量子回路4を使用したモデルでは、古典的なCNNモデルよりも学習速度がやや速い
一方で、量子回路5を使用したハイブリッドCNNでは、古典的なCNNモデルよりも損失関数と精度の残差の減少速度が遅い
量子回路1, 3を使用したハイブリッドCNNの優れた性能は、エンコードされた角度を再回転させることで、特徴選択の精度が向上したことに起因している。
ただし、量子回路によって生成される複雑な関数が常に優れた性能を保証するわけではなく、モデルによってはシンプルな回路設計の方が効率的な場合もある。
量子回路1と命題1について
出力 $${\langle \Psi | Z^{\otimes N} | \Psi \rangle}$$ を得るために、次の命題を使う。
ここで、 $${| \Psi \rangle}$$ は量子回路の最終的な量子状態を表す。
命題1
$${N}$$ 個の量子ビットがそれぞれ初期状態 $${|\psi_i \rangle = q_i |0\rangle + p_i |1\rangle}$$ で表される量子回路を考える。
最終的な量子回路の出力 $${\langle \Psi^N_1 | Z^{\otimes N} | \Psi^N_1 \rangle}$$ は次のように示せる。
$${\langle \Psi^N_1 | Z^{\otimes N} | \Psi^N_1 \rangle = \left( |p_1|^2 - |q_1|^2 \right) \langle \Psi^N_3 | Z^{\otimes N-2} | \Psi^N_3 \rangle}$$
ここで、
$${|\psi_n^m\rangle = \otimes_{i = n}^{i = i + 2, i < m} CX(i, i + 1) \otimes_{j = n + 1}^{j = j + 2, j < m} CX(j, j + 1) \otimes_{i = n}^{m} |\psi_i \rangle}$$
であるとする。
命題1の導出
隣接する2つの量子ビットに対してCNOTゲートを適用した後の量子状態は、
$${|\Psi^2_1\rangle = q_1 q_2 |00\rangle + q_1 p_2 |01\rangle + p_1 q_2 |11\rangle + p_1 p_2 |10\rangle}$$
となる。
これを拡張し、量子回路全体に対して、隣接するビット間でCNOTゲートが適用された後、量子状態は、
$${|\Psi^N_1\rangle = \left( q_1 q_2 |00\rangle + q_1 p_2 |01\rangle X_3 + p_1 q_2 |11\rangle X_3 + p_1 p_2 |10\rangle \right) \otimes |\Psi^N_3\rangle}$$
となる。
$${\langle \Psi^N_3 | X_3 Z^{\otimes N - 2} X_3 | \Psi^N_3 \rangle = - \langle \Psi^N_3 | Z^{\otimes N - 2} | \Psi^N_3 \rangle}$$ であることを利用して、命題
$${\langle \Psi^N_1 | Z^{\otimes N} | \Psi^N_1 \rangle = \left( |p_1|^2 - |q_1|^2 \right) \langle \Psi^N_3 | Z^{\otimes N-2} | \Psi^N_3 \rangle}$$
が示せる。
この再帰的な手順を繰り返すことで、最終的に量子回路1の出力を計算することができる。
具体的には、奇数個の量子ビットの場合と偶数個の量子ビットの場合で出力が異なり、それぞれ以下のように表される。
奇数個の量子ビットの場合
$${f_{QC1}(\theta, \phi) = - \prod_{i \in \text{odd}} \cos(\alpha_i)}$$偶数個の量子ビットの場合
$${f_{QC1}(\theta, \phi) = - \cos(\alpha_N) \prod_{i \in \text{odd}} \cos(\alpha_i)}$$
ここで、 $${\alpha_i = \theta_i + \phi_i}$$ である。
量子回路3と命題2について
量子回路3では、最終的なCNOTゲートを適用する前の量子状態 $${| \Psi^N \rangle}$$ が重要である。
この量子状態は、量子回路内で隣接する量子ビット間にCNOTゲートを適用した後にどのように変化するかを記述している。
この分析に次の命題2を使う。
命題2
$${N}$$ 個の量子ビットがそれぞれ初期状態 $${|\psi_i \rangle = q_i |0\rangle + p_i |1\rangle}$$ で表される量子回路の、隣接する量子ビットにCNOTゲートを適用すると、
$${|\Psi^N\rangle = \left( p_N |g^{N-2}\rangle \otimes |0\rangle_{N-1} + q_N |t^{N-2}\rangle \otimes |1\rangle_{N-1} \right) \otimes |0\rangle_N + \left( q_N |g^{N-2}\rangle \otimes |0\rangle_{N-1} + p_N |t^{N-2}\rangle \otimes |1\rangle_{N-1} \right) \otimes |1\rangle_N}$$
ここで、
$${|g^{N-2}\rangle = p_{N-2} |g^{N-4}\rangle \otimes |0\rangle_{N-3} + q_{N-2} |t^{N-4}\rangle \otimes |1\rangle_{N-3}}$$
$${|t^{N-2}\rangle = q_{N-2} |g^{N-4}\rangle \otimes |0\rangle_{N-3} + p_{N-2} |t^{N-4}\rangle \otimes |1\rangle_{N-3}}$$
と表せるとする。
命題2の補足
求めたい期待値 $${\langle \Psi | Z^{\otimes N} | \Psi \rangle}$$ は、
$${\langle \Psi | Z^{\otimes N} | \Psi \rangle = \langle g^{N-2} | Z^{\otimes N-2} | g^{N-2} \rangle - \langle t^{N-2} | Z^{\otimes N-2} | t^{N-2} \rangle}$$
と表され、これを計算するために次の再帰関係を用いる。
$${\langle g^{N-2} | Z^{\otimes N-2} | g^{N-2} \rangle + \langle t^{N-2} | Z^{\otimes N-2} | t^{N-2} \rangle = \langle g^{N-4} | Z^{\otimes N-4} | g^{N-4} \rangle - \langle t^{N-4} | Z^{\otimes N-4} | t^{N-4} \rangle}$$
$${\langle g^{N-2} | Z^{\otimes N-2} | g^{N-2} \rangle - \langle t^{N-2} | Z^{\otimes N-2} | t^{N-2} \rangle = \cos(\alpha_{N-2}) \left( \langle g^{N-4} | Z^{\otimes N-4} | g^{N-4} \rangle + \langle t^{N-4} | Z^{\otimes N-4} | t^{N-4} \rangle \right)}$$
この再帰式を用いて、量子回路3の最終的な出力が計算される。
$${f_{QC3}(\theta, \phi) = \prod_{i=\text{odd}} \cos(\alpha_i)}$$
ここで、 $${\alpha_i = \theta_i + \phi_i}$$ である。
その他の量子回路と命題3について
量子回路1, 3では、活性化関数を連続したコサイン積で特徴付けることができた。
他の量子回路でも同様にこの特徴があり、これに基づいて量子回路2, 4, 5の出力も同様の数学的形式で表現できることを命題3を通じて示す。
命題3
量子回路の基底インデックス $${m}$$ に対する出力波動関数 $${| \Psi \rangle}$$ の成分は、
$${[| \Psi \rangle]_m = \sum_{i,j,k} W_{m,i} R_{i,j} V_{j,k} R_{k,0} \lvert 0 \rangle}$$
と表せる。
ここで、 $${W_{m,i}}$$ と $${V_{j,k}}$$ は量子回路内のCNOTゲートに対応する行列要素であり、それぞれが0または1の値を取る。
$${R_{i,j}}$$ は回転演算子($${R_y}$$ 演算子)に対応する行列要素を表しており、これはコサイン関数の積として表される。
命題3の補足
以上から出力波動関数の各成分は、コサイン関数の積かゼロのどちらかとして表現される。
この性質は、さらなる回転演算子やRy回転層が追加された場合でも維持され、最終的に $${\langle \Psi | Z^{\otimes N} | \Psi \rangle}$$ は、これらのコサイン関数の積の和として表される。
これにより、量子回路のシミュレーションの複雑さを軽減し、代わりに解析的に表現できるという利点が明らかになった。
5つの異なる活性化関数を用いたCNNモデルの比較
ここまでの結果から、次の5つの活性化関数を比較する。
AF 1: 古典的なTanh関数
AF 2: サイト(量子ビットの位置)依存性を追加したTanh関数
AF 3: 量子回路1から導出された活性化関数
AF 4: 量子回路3から導出された活性化関数
AF 5: サイト全体にわたるコサイン関数の積で表される活性化関数
学習時の損失関数の変化を見ると、AF 1とAF 2を使用した古典的なCNNモデルは、類似した性能を示し、サイト依存性が大きな影響を与えないことがわかる。
一方で、AF 3, AF 4, AF 5を使用した量子インスパイアードなCNNでは、損失関数の減少が非常に速く、学習速度が向上していることが確認された。
この高速な学習は、量子インスパイアードな活性化関数が持つ高次の非線形性によるものとされている。
学習およびテストの精度を見ると、AF 3, AF 4, AF 5を使用したモデルは、テストデータセットでわずかに精度が低下しており、高次の非線形性がもたらす微妙な課題であると考えられる。
特にAF 3を使用したCNNモデルでは、訓練時の精度が99%に達する一方で、テスト時の精度は88%に留まり、過適合の問題が顕著に現れている。
量子インスパイアードな活性化関数は、特にエッジ情報(画像の境界)を強調する能力に優れていることが観察された。
AF 1を使用したCNNモデルでは、エッジ情報だけでなく、画像内の詳細なパターンまで包括的に捉えている。
一方、AF 3およびAF 4を使用したモデルでは、主にエッジ情報に焦点を当てており、エッジを正確に識別することが可能である。
このように、量子インスパイアードな活性化関数は、入力画像の重要な特徴を効率的に選択することに優れている。
結論と議論
この研究では、量子回路がヒルベルト空間内でどのように特徴を選択するかを説明し、5つの浅い量子回路を畳み込みニューラルネットワーク(CNN)に統合することでその動作を分析した。
MNISTおよびFashion MNISTデータセットでの訓練を通じて、ハイブリッド量子-古典CNNモデルが、入力画像の重要な特徴をより効率的に選択し、古典的なCNNよりも損失関数の収束が早いことを確認した。
この優れた性能の根本的な理由を理解するために、量子回路の関数表現を詳しく調べ、量子回路がコサインの積として記述される多項式関数を生成することを明らかにした。
さらに、量子インスパイアードな活性化関数が、古典的なシグモイドやTanh関数では実現できない、重要な情報を保持し不要な情報を排除する能力を持つことを示した。
この量子インスパイアードな活性化関数は、TensorFlowやPyTorchなどの一般的な機械学習ソフトウェアに容易に実装可能であり、計算コストも従来の機械学習モデルと同等である。
この戦略により、量子の優位性を活用し、自動運転車、サイバーセキュリティ、医療、金融など多岐にわたる分野で応用できる可能性が示唆された。
感想
面白かったです。
なるほど、量子回路の出力する量子状態の期待値を数学的に示して、それをベースに古典同様の活性化関数を定義すると。
これって今回CNNでやって、画像の境界特徴量を強調できるってことがわかりましたけど、例えば時系列系のLSTMとかでやってみるとどんなことが考察できるかワクワクしますね。
またね、元の論文には結論の後にKLダイバージェンスとはとか、CNNとはとかのAppendixがあるんですが、その中にちゃんと実験コードの所在まで記載されてるんですよ。
非常に丁寧な論文だと思いました。
終わりの1曲
この記事が気に入ったらサポートをしてみませんか?