見出し画像

An Introduction to Quantum Reinforcement Learning (QRL)

世の中で役に立たないもの

「三角関数なんて社会に出ていつ使うん?」なんて、もうネットの使い古されたオモチャフレーズですけども、それに対して誰もあんまり言わなくてびっくりですよね、「それを役に立たせるのがお前の仕事だ」と。
それに向いてないと感じるのであれば別にやらなくても良いんです。

ただね、どんな分野にも、あなたが知らないだけで「不思議だな」とか「興味深いな」と思う人がいて、その人たちはそれで世の中を発展させるためにどうすれば良いのかを考えているんです。
世の中で役に立たないと思うのは、それは単にあなたの考えがそこまでしか及んでいないだけなんです。
「役立たせるためには何をしようか」を考えられるようになってからが次のステージなんです。

んで量子コンピュータはホントに役に立つんかいな ハァ━(-д-;)━ァ...


概要

An Introduction to Quantum Reinforcement Learning (QRL)
written by Samuel Yen-Chi Chen
published on Mon, 9 Sep 2024

[Abstract]
Recent advancements in quantum computing (QC) and machine learning (ML) have sparked considerable interest in the integration of these two cutting-edge fields. Among the various ML techniques, reinforcement learning (RL) stands out for its ability to address complex sequential decision-making problems. RL has already demonstrated substantial success in the classical ML community. Now, the emerging field of Quantum Reinforcement Learning (QRL) seeks to enhance RL algorithms by incorporating principles from quantum computing. This paper offers an introduction to this exciting area for the broader AI and ML community.

[Abstract(翻訳)]
量子コンピューティングと機械学習における近年の進展は、これら2つの最先端分野の統合への大きな関心を引き起こしている。様々な機械学習技術の中でも、強化学習は複雑な逐次決定問題を取り扱う能力に優れていることで際立っている。強化学習は、古典的な機械学習コミュニティの中で既に大きな成功を収めている。振興分野である量子強化学習は、量子コンピューティングの原理を強化学習アルゴリズムに取り入れることで、性能を向上させることを目指している。本論文は、AI及び機械学習コミュニティ全体に向けて、この興味深い分野を導入する。

コンテンツ

量子機械学習とそれを支えるVQA

量子コンピュータは、ハードウェアのリソースが限られている今でも、量子優位性を見出すために多大な努力が注ぎ込まれている。
1つの目立った領域として、量子機械学習の分野があり、量子の優位性を存分に活用しつつ、量子の苦手とする部分は古典で補ういわば量子-古典ハイブリッドアルゴリズムが用いられている。
そして、現在の量子機械学習のアプローチの基盤となっているのがVQAである。
この論文では、量子機械学習が成功を収めてきたいくつもの機械学習分野のうち、強化学習にフォーカスしたものを紹介する。

PQC

PQCは、学習可能なパラメータを内部に持つ量子回路である。
PQCには、「符号化回路」、「変分回路」、「測定」の3つの要素が含まれている。

PQC

符号化回路では、初期の量子状態 $${|0\rangle^{\otimes n}}$$ を $${|\Psi\rangle = U(\mathbf{x})|0\rangle^{\otimes n}}$$ に変換する。
測定の過程では、VQCで得られた全ての、または一部の量子ビットからデータを抽出し、古典的なビット列に変換する。
$${Z}$$ 基底での測定による期待値の評価を考える。

一般的に、VQCを数学的に表現すると、

$${\overrightarrow{f(\mathbf{x}; \Theta)} = \left( \langle \hat{Z_1} \rangle, \cdots, \langle \hat{Z_n} \rangle \right)}$$

ここで、

$${\langle \hat{Z_k} \rangle = \langle 0 | U^\dagger(\mathbf{x}) W^\dagger(\Theta) \hat{Z_k} W(\Theta) U(\mathbf{x}) | 0 \rangle}$$

である。
量子-古典ハイブリットアルゴリズムにおいてVQCは、深層ニューラルネットワークやテンソルネットワークなどのような古典アルゴリズムや、他の追加のVQCと統合される。
モデル全体で、勾配ベースまたは勾配フリーの手法でエンドツーエンドに最適化される。

強化学習

強化学習は機械学習の一種で、環境とエージェントの相互作用の繰り返しによって意思決定の学習を行うものである。
方策 $${\pi}$$ や価値関数 $${V}$$ の学習にQNNを使うことが、一般的にQRLのアイデアとなる。

QRL

量子深層Q学習

Q学習はオフ方策型でモデルフリーの基礎的な強化学習アルゴリズムであり、最適行動価値関数を学習する。
ベルマン方程式を使ったQ学習での更新式は次のようになる。

$${Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_t + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t) \right]}$$

しかし、従来のQ学習では状態や行動の数が増えるとメモリ使用量が非常に大きくなり、特に連続的な状態空間ではQ値を効率的に管理できなくなる。
この問題に対処すべく、ニューラルネットワークを使用してQ値を近似する「DQN」が開発された。

初期のPQCベースのQRLでは、VQCは離散的な観測量を持つ環境を近似するために設計されている。
これは古典的な深層Q学習のアイデアに基づき、ターゲットネットワークや経験再生といった技術がこの量子DQNの中に含まれている。
基本的に2つの量子回路内パラメータのセットがあり、量子エージェントはRMSPropなどの勾配降下法で最適化される。

量子DQN

量子方策勾配法

Q学習などの価値関数を学習することに依存する「価値ベース」の強化学習アルゴリズムとは反対に、方策勾配法は方策そのものを最適化する。
方策勾配法の方策 $${\pi(a | s;\theta)}$$ は $${\theta}$$ によってパラメータ化されており、PQCを使って実装ができる。
方策 $${\pi}$$ をActor、価値関数 $${V}$$ をCriticとしたActor-Criticアルゴリズムを考える。
Actor-CriticアルゴリズムもPQCで実装ができるため、A3Cフレームワークを量子用のセッティングに適用させる。

進化アルゴリズムとQRL

QRLにおいて、量子コンピュータや量子シミュレーションソフトウェアにおける入力次元の処理に関する問題は、環境に対する量子エージェントの行動を大きく制限する。
これに対処するため、MPSと呼ばれるテンソルネットワークとPQCのハイブリッド構造が提案されている。

また、勾配ベースのアルゴリズムでは局所最適解に落ちるといった問題もあり、スパースなRL環境ではエピソードを多くしても報酬が得られないことも考えられる。
従来のRLでは、進化アルゴリズムを使うことで改善が確認されてきているので、これを量子-古典ハイブリッドアルゴリズムに応用する。

MPSを使った量子-古典ハイブリッドアルゴリズムのRL

リザバーコンピューティングとQRL

今までのQRLでは再帰的な(時系列的な)構造を考慮したものでは無かった。
しかし、再帰的な接続は時間経過でメモリーを保持するタイプの機械学習では重要な要素である。
そこで、古典的なLSTMのニューラルネットワークの部分をPQCに置き換えたQLSTMを導入する。
これを価値関数や方策に使ったQRLエージェントのパフォーマンスは、従来のものを超えることが期待される。

一方で、古典的なLSTM・QLSTM共に、BPTTの計算リソースが非常に大きくなってしまうという問題がある。
ここで、RNNの隠れ層はランダムに初期化して、出力層のみ重みを更新する学習を行うリザバーコンピューティングという技術を利用する。
これにより、QLSTMの学習コストを大幅に下げたまま精度を担保することができる。

ファストウェイトプログラマーとQRL

量子RNNの代替案として、QFWPというものがある。
元々のFWPは、2つの異なる「スロープログラマー」と「ファストプログラマー」というニューラルネットワークが用意され、スロープログラマーが各時間経過で観測したデータに基づいてファストプログラマーの重みを更新するというものである。
このような更新により、ファストプログラマーが新しいデータストリームにおける重要な情報に迅速に注意を向けることができ、過去の観測を取り入れてフィードフォワード型のニューラルネットワークでも逐次予測や制御を行えるようになる。

QFWPでは、スロープログラマーは古典的なニューラルネットワークで構成され、PQCで実装されたファストプログラマーの重みを更新する。
古典ネットワークの出力は、PQCの層数や量子ビット数に応じたベクトルを生成し、その外積を計算してPQCの新しいパラメータを得る。
これはRNNのような高い計算負荷を必要とせずに逐次学習を行える。

QFWP

量子アーキテクチャ探索とQRL

QRLの量子回路のアーキテクチャの設計は非常に重要な問題であり、特定のタスクに対して高性能な量子回路を見つける方法をQASという。
QASの応用例として進化アルゴリズムを用いたものがあり、候補となるPQCブロックのセットが定義され、制約の下で最適な回路構成を探索するという方法を取っている。
このアプローチは有効であることが示されている一方で、探索空間が広がるとスケーラビリティの問題が生じる可能性がある。
これを解決するために微分可能なQAS(DiffQAS)が提案されている。
これは、古典的な深層学習におけるNASに着想を得ており、量子回路のアーキテクチャを表す確率分布がパラメータ化され、ミニバッチごとにPQCをサンプリングし、その重み付けされた損失を計算する。
従来の勾配ベースの方法を使用してアーキテクチャのパラメータとPQCパラメータを同時に更新し、最適な回路構成を見つけることができるとされる。
さらに、DiffQASを非同期QRLに拡張することも可能で、これにより複数の並行したインスタンスがそれぞれのアーキテクチャのパラメータとPQCパラメータを最適化し、勾配を共有することで、効率的な学習が実現できる。

DiffQAS

QRLの応用と課題

QRLは、マルチエージェントシステムや無線通信、自律制御システムなど、さまざまな分野に応用が可能である。
QRLのアプローチは、複数のエージェントが協力して問題を解決する場面や、個々のエージェントが自律的に行動し、最適な結果を目指すシステムで特に効果的であると言える。
また、QRLを使用して特定の量子状態を生成するための量子回路アーキテクチャを発見する研究が進められている。

QRLにおける大きな課題の1つは、現在のNISQ時代における量子リソースの制約である。
ノイズが多く完全には安定していないため、学習や推論のプロセスにおいて限られた量子リソースしか使用できず複雑化させてしまう。
この問題を解決するための提案として、QNNを使用して古典的なニューラルネットワークの重みを生成する方法が挙げられている。

感想

QLSTMをリザバー化させたものをQRLのニューラルネットワーク部分にぶち込むってアベンジャーズアッセンブル並みに興奮しますよね。
ゼロから作るDeep Learningシリーズの4つ目を最近読んだばかりなのですが、この論文を読むに当たってめちゃくちゃ分かりやすかったですね。
方策勾配法のところなんて、REINFORCEってなんやとか、ベースラインってなんやとか、Actor-Criticアルゴリズムってなんやとか、上記参考書を読むか読まないかで全然変わってきますよね。

終わりの1曲

Tinashe - Party Favors

この記事が気に入ったらサポートをしてみませんか?