見出し画像

レポート『日刊工業新聞社主催Japan Robot Week 2024の講演会 : AI × Robotics で変わるロボット開発』

 ロボットとAIの組み合わせで、技術進展が目覚ましいと感じたことから、投稿させていただきます。この分野でも、最終的にはNVIDIAの搭乗となります。加えて、この分野での日本の立ち遅れが、非常に危惧されました。
内容は、日刊工業新聞社 『Japan Robot Week』で開催された講演「AI × Robotics で変わるロボット開発」で、​株式会社FaBo(会津若松市:https://www.fabo.io/)の社長 佐々木氏のお話をうけてのレポートとなります。
同社では、AI搭載の自動走行キットやAIスピーカープラットフォームの開発、AI x Robotics、AI x IoTに関連する研究も行っている様です。また、今年、2024年4月にアメリカラスベガスで開催されたGoogle Cloud NEXT'24のRide with Geminiで、AIロボットカーをお披露目した様です。このデモは、Google Geminiデモアプリと、FaboのAI搭載ラジコンカーが連携し 搭載カメラ情報からアプリを用い、Geminiを介して指示された施設の建物(図書館、病院など)が描かれた絵の前に駐車するというもので、以下で議論される言語AI(LLN:大規模言語モデル)と画像AI(CNN:畳み込みニューラルネットワーク)の連携のデモに成功したと言う内容です。準備からデモ展示までの様子が以下にリンクされていますので、ご興味ありましたらご覧ください。

 画像AIと言語AIの組み合わせで自動運転を行う手順は、車載カメラで道路状況や周囲の環境をリアルタイムで撮影し、取得した画像データをCNNに入力し、特徴抽出を行います。これにより、周囲の物体認識や道路の検出が行われます。今回のケースでは、限られた範囲での自動走行ですので、走行範囲の画像データを記録し、その画像からCNNで抽出された特徴を基に、車両の制御に必要なパラメータ(モータの電圧やステアリングの操舵角度)を予測する回帰モデルを構築します。回帰モデルにより生成された制御プログラムにより、車両の動きをリアルタイムで制御可能となると言うものです。今回の注目ポイントは、自動運転制御では、運転目的地を言語AI(LLM)の連携により、指定するというトライアルと理解しました。今回のモデルでは、指定された限られた領域での学習と自動運転のトライアルで、これを未知の領域まで広げるためには、高速な小型GPUリソースと強化学習進化が必要であるとされていました。
 本講演では、このラジコンカーの自動運転トライアルから、同じフレームワークが、ロボット制御へ適用検討が進んでいて、視覚情報と自然言語処理を組み合わせて、より高度なロボットの動作を実現するための技術が構築されつつあるという点が、私にとって新しい情報でした。また、このモデルでは、更に、強化学習を用いることで、ロボットが環境との相互作用を通じて、最適な行動を学習出来るとしています。つまり、ロボットの活動領域は、ある程度限られることから、このモデルが適用可能であるという、私の理解です。
 実際の取り組みでは、ロボットに装着されたカメラから取得した画像データをCNNで処理し、作業エリアの重要な特徴が抽出されます。これにより、ロボットは視覚情報を理解し、物体の認識や位置の特定が可能になります。自然言語による指示や質問をLLMにより理解し、それに基づいて適切なロボットの動作を生成する様です。例えば、「ネジを取って」という指示に対して、ロボットは、「ネジ」という物体を理解し、視野にあるネジをCNNで認識し、ネジを取るための動作を計画するというものです。ここからが、更に、重要なのですが、次の段階で、強化学習が導入され、ロボットが環境との相互作用を通じて、指示を実行するための最適な行動を学習するということになります。ロボット(制御プログラム)は、行動を取るたびに報酬を受け取り、その報酬を最大化するように行動を自動で調整して行くことになります。
 これらのトライアルで、初期の段階では、スタンフォード大学のTony Z. Zhao氏を中心とした研究チームによって開発されたALOHA(A Low-cost Open-source Hardware System for Bimanual Teleoperation)が、オープンソースであることから、両手を使ったロボット制御の分野で、トライアルに広く用いられて来たようです。ALOHAに関しては、ユーザーが、GitHubからソースコードや設計図をダウンロードして利用することが出来るようです。また、Trossen Robotics社がキットとして販売しており、必要なハードウェアやソフトウェアを一括で購入することも可能だそうです。
 次のレベルで登場したのが、Google RT-2だそうです。Google DeepMindが開発した「RT-2(Robotics Transformer 2)」は、ロボット制御のための最新のAIモデルだそうです。このモデルは、視覚と言語を行動に変換する能力を持ち、ロボットが複雑なタスクを実行できるように設計されているのだそうです。実際、RT-2は、インターネット上のテキストデータや画像データを使ってロボットを訓練する「ビジョンランゲージアクション(VLA)モデル」の一種だそうです。これにより、ロボットは見たことのない物体やシナリオに対しても、制御プログラムを生成することが可能な様です。驚いちゃいますね! この文章をうのみにすると正に人工知能的な香りがしてきます。
 以上までが、アームロボットに対する支援プラットフォームでしたが、NVIDIAは、「GROOT(Generalist Robot 00 Technology)」という、ヒューマノイドロボット向けの基礎AIモデルを2024年3月に提供を開始したそうです。このモデルは、ロボットが自然言語を理解し、人間の動作を観察して模倣する能力を持っているということです。まず、自然言語理解(NLU:ロボットが人間の言語を理解)し、カメラやLiDARなどのセンサーを介して環境からの情報を解析し、理解できるようです。言語指示を受けて、解析された環境下で、動作するロボットが、繰り返し新しい経験から学び、状況の変化に適応する能力を獲得していくというものだと理解しました。ヒューマノイドロボットと言うと、2018年に搭乗したASIMOが世界をリードしていましたが、近年では、日本の新規のヒューマノイドロボットを見たことも無く、「GROOT」を利用しているのは、アメリカ、中国、カナダ、ノルウェイであり、日本企業は無いようです。
 次に紹介されたのが、NVIDIA Omniverseでした。Omniverseは、3D設計、シミュレーション、AI駆動のアプリケーションを統合するためのプラットフォームだそうです。主に、製造業における生産ラインの検討で、デジタルツインを活用して生産ラインの最適化や製品開発の効率化や、自動車設計における自動運転車のセンサー効果の空間シミュレーションと検知能力の確認に利用されている様です。多くの3Dデータセットに対応し、リアルタイムモーションシミュレーション機能を活かして、AIを活用した予測分析やシミュレーションを行い、効率的な開発をサポートしている様です。この3D空間シミュレーションであるOmniverseを利用して、強化学習によるヒューマノイドロボットの制御プログラム構築を行っているということが報告されました。即ち、同じNVIDIAの先に記述したGROOTを用いたヒューマノイドロボットの制御プログラムを、Omniverseの3D仮想空間を活用して、コンピュータ内で強化学習を行うことで、より高度な動作を実現しようという仕組みの様です。Omniverseは、リアルタイムでのシミュレーションとビジュアライゼーションを提供するプラットフォームであり、ロボットのトレーニングに最適だと判断されている様です。即ち、Omniverseを使用して、ロボット動作空間における物体や障害物、地形など現実世界に近い高精度な3D仮想環境を構築し、ロボット動作のモデルを、このOmniverseの仮想空間に導入し、モデルに膨大なタスクを実行させ、強化学習が行われるというものです。この強化学習では、ロボットが行動を取るたびに報酬を受け取り、その報酬を最大化するように学習を習熟させるということです。学習が完了したモデルは、実際のロボットに適用し、現実世界での動作を確認することにより、リスクを最小化出来るということになります。

 なんということでしょう、ヒューマノイドロボットの動作に関する強化学習が、仮想空間で出来てしまうなんて・・・・これまで聞いたことがありませんでしたね。製造現場でのロボット導入と人間との共存は、人口減少の日本では至上課題ですが、まだまだ、試行段階です。何故かと言うと、自動機械=ロボットは、出力が大きく、労働安全規則で、安全的な隔離が必要であり、なかなか導入の障壁が高いままです。海外では、自立型のヒューマノイドロボット実現に向けて、環境を着々と構築しつつあるということです。日本では、漸く、先端半導体の生産に関して再構築のためのスタートを切った所ですが、その最も有力な利用先であるヒューマノイドロボット開発でも、大きく後れを取っているのでしょうか? 心配ばかりです。

 追記: 脱線ですが、NVIDIAは、これらのGROOTやOmniverseでどの位の収益が実現されているのか? もしくは、期待しているのかを知りたいところです。AIサーバー事業一本足打法を事業運営が心配ですから。



いいなと思ったら応援しよう!