ルービックキューブを解くロボットハンド- OpenAI
ルービックキューブを解く確率は、最大難易度のスクランブルでは20%、平均難易度では60%だった。ルービックキューブを解く過程で、ロボットハンドはシミュレーションでは見たことのない状況にも対応できた。
強化学習と自動ドメインランダム化(ADR)
強化学習は、報酬やペナルティに基づいて行動を学習する機械学習の一種である。OpenAIは、強化学習のコードをOpenAI Five(Dota 2で人間のプロチームに勝ったAI)から流用した。ルービックキューブの解法は、Kociemba's algorithmという既存のアルゴリズムを利用した。ロボットハンドは、Kociemba's algorithmが生成するサブゴール(回転や反転)を実行することで、ルービックキューブを解くことを目指した。
自動ドメインランダム化(ADR)は、シミュレーションで学習したモデルが現実に移植できるようにするための手法である。ADRはシミュレーションの環境や物理パラメータをランダムに変化させることで、現実の多様性や不確実性に対応できるようにし、シミュレーションで学習したロボットが現実で失敗しないようにするだけでなく、現実で成功する確率も高める。
強化学習と自動ドメインランダム化(ADR)の詳細
強化学習は、エージェントが環境と相互作用しながら、報酬を最大化するような方策を学習する機械学習の一種である。
OpenAIは、強化学習のアルゴリズムとして、Proximal Policy Optimization(PPO)と呼ばれるものを用いた。PPOは、方策勾配法の一種であり、方策の更新幅を制限することで、安定した学習を実現する。
自動ドメインランダム化(ADR)は、シミュレーションの環境や物理パラメータをランダムに変化させることで、現実の多様性や不確実性に対応できるようにする手法である。ADRは、エージェントがシミュレーション内で困難なタスクを解決できるようになったら、ランダム化の範囲を拡大するという方法で、自動的に環境の分布を生成する。ADRは、シミュレーションと現実の間のギャップ(シミュレーション・トゥ・リアル・ギャップ)を埋めることができる。
ロボットプラットフォーム
ロボットプラットフォームは、Shadow Dexterous Handという人間の手に似たロボットアームと、Xiaomi社のGiiker Cubeというスマートなルービックキューブから構成される。
Shadow Dexterous Handは、24個の関節と129個のセンサーを持ち、人間の手の動きや感覚を再現できる。Giiker Cubeは、Bluetoothモジュールやセンサーが内蔵されており、ルービックキューブの状態をリアルタイムで追跡できる。OpenAIは、Giiker Cubeの部品の一部をカスタム部品に置き換えて、角度分解能を約5度に向上させた。
ロボットハンドとルービックキューブの間には、物理エンジンMuJoCoとリモートレンダリングバックエンドUnity3Dを用いたシミュレーションが介在する。シミュレーションは、ロボットハンドの動きやルービックキューブの状態を視覚的に推定するための合成画像を生成する。
ロボットハンドの購入方法
OpenAIが使用したロボットハンドは、Shadow Dexterous Handという製品で、イギリスのShadow Robot Companyが開発・販売している。
Shadow Dexterous Handは、人間の手の動きを忠実に再現することができる最先端のロボットハンドで、研究や開発に利用されている。Shadow Dexterous Handは、日本では日本バイナリー株式会社が代理店として販売している。
Shadow Dexterous Handの価格は、日本バイナリー株式会社のサイトによると約2,000万円から3,000万円程度。Shadow Dexterous Handは、右手タイプと左手タイプがあり、両手構成も可能。Shadow Dexterous Handには、Liteシリーズという小型・軽量・低コストのバージョンもある。
参考文献
#OpenAI ,#Robotics,#Amazon,#ルービックキューブ,
この記事が気に入ったらサポートをしてみませんか?