見出し画像

【2024/03/18】 世界初のAIソフトウェアエンジニア「Kevin」はやはり一味違った...!ChatGPT搭載の人型汎用ロボットが登場など

LLMの更なる可能性を感じさせる話題が目白押しの一週間でした。先週発表されたインパクトの大きかったニュースや注目ツールを紹介していきます!


生成AI特化開発チームMavericksは、Xニュースレターにおいて、AI情報を日々発信しています。本記事の内容を有益だと思った方は、是非これらもチェックしてみてください!

1. 直近のビッグニュースTop 3

① 世界初のAIソフトウェアエンジニア「Kevin」が発表

ふわっとしたタスクであっても、自律的に判断を繰り返し、解決できるAIのことを自律型AIエージェントと呼びます。GPT-4登場直後の昨年4月にGodmodeをはじめとするAIエージェントが大きな話題を呼びましたが、タスクの分解こそできるものの、簡単なタスクですら完遂することはほぼ不可能でした。

そんな最中、設立5ヶ月のスタートアップCognition社が「世界初のAIソフトウェアエンジニア」と銘打って自律型AIエージェント「Kevin」を発表しました。Kevinは「この記事を参考に”Sara”というテキスト入りの画像を生成して」といったようにざっくりとタスクを割り当てるだけで、環境構築からスクリプト実行、デプロイに至るまで、プログラム実装に必要なことを全て行ってくれます。以下のデモ動画にて、タスクをしっかり完遂できていることも確認できます。

Kevinの特に優れている点は、あたかも本当にソフトウェアエンジニアと共同作業しているかのような体験を提供していることだと考えています。具体例を2つ挙げます。

  • Kevinがタスクを実行している間に、追加で修正の指示を出せる。さらには、認証等でユーザーの助けが必要な場合は、Kevinの方から自発的にユーザーに実行を依頼したりもしてくれる

  • ターミナル、webブラウザ、コードエディタを通して、Kevinの動作をリアルタイムに追ったり、その履歴を確認できたりする。

もちろん完璧ではなく、例えば、LLMとチェスをするゲームの作成をお願いしたところ実行が終わらなかった、といった例 (X) も報告されています。また実行が遅いのも欠点で、先ほどの、記事を参考にした画像生成では40分かかっています。人間のプログラマーが実装した方が早く完了できるでしょう。

それでも、精度やUXの点でこれまでの自律型AIエージェントとは比べものにならないほど優れていることは確かです。生成AIがプログラマーの仕事のどの部分をどれくらい奪うことになるのか、考えるには絶好の機会だと感じました。

以下の投稿にて、エンジニア目線で、Devinの機能や優れている点について詳しく解説しています。興味がある方は、是非ご覧ください!

② ChatGPT搭載の人型汎用ロボットFigure 01が発表

人型汎用AIロボットの開発を行うFigure AI社が、ChatGPTを搭載したロボット「Figure 01」を発表しました。同社は2019年に設立された新興企業で、先日OpenAI, NVIDIAから1000億円を調達したばかりです。
以下のデモ動画では、Figure 01が人間と対話しながらキッチンの片付けをする様子が紹介されています。現状の技術の組み合わせでここまでできるのか…と驚かされました。音声ONで是非ご覧ください!

デモ動画で、Figure 01は以下のようなタスクをこなしています。これらは全てAIモデルなしには実現不可能です。

  • 身の回りの状況を人間に言葉で伝える

  • 「何か食べるもの欲しいんだけど」という人間の要求に対し、リンゴを手渡す (曖昧な指示→具体的なアクション)

  • 「次に何をしたらいいと思う?」と聞かれて、「皿を水切りかごに戻すこと」と答えて、実行する (常識→次のアクション)

  • 最後にこれまで自分が行ってきたタスクを、記憶を元に振り返る

ChatGPTとロボットを組み合わせると聞くと、人間との対話に発想を飛ばしがちですが、それだけでなく、視覚情報・対話履歴・行動履歴をもとに次に何をすべきかプランニングするのにもChatGPTは活用できます。Figure AI研究員の解説 (X) によると、ChatGPTの出力をもとに、どの方策ニュ-ラルネットワークの重みを読み込むかを決定しているとのことです。
人型汎用AIロボットの開発でいえば、昨年末にTesla社が公開したOptimus Gen 2も大きく注目を集めました。後のセクションで、今話題を集めている人型ロボットをさらに3つ紹介します!

③ OpenAI CTOがSoraの詳細とリリース時期について回答

OpenAIが今年発表した動画生成AIのSoraは大きな注目を集めていますが、依然としてその詳細は謎に包まれています。そんな中、先週OpenAIのCTOであるMira氏がWSJからのインタビューに応じ、10分以上に渡ってSoraに関する様々な質問に回答しています。

非常に網羅的な内容となっており、Soraの詳細を知らない方にとっても、最新の動向を追っている方にとっても有益な情報が詰まった、必見の動画です。

このインタビュ-にてMira氏は、Soraの公開は数ヶ月後~年内であり、また、720p, 20秒の動画生成には数分程度かかると述べています。

生成時間に関して、例えばAI動画生成サービスとして有名なPikaでは、1280×720p, 3秒の動画生成に45秒〜1分かかります(生成開始前の待ち時間を除いた場合)。動画1秒あたりの生成時間はPikaと同等かそれ以下ということになり、これは大方の予想を遥かに下回りました。

Soraの発表後、Pika, RunwayといったAI動画生成サービスは、品質を高める方向ではなく、動画編集を容易にする方向で、幾つかの機能を発表しています。例えばPikaは、Lip Sync機能動画に効果音をつける機能を公開し、Runwayも、画像の動かしたい箇所をブラシでなぞって指定できる「Motion Brush」にセグメンテーション機能を追加しています。

制作活動と結びつきが強い画像生成分野においては、Midjourney, Stable Diffusion, DALLEなど複数のサービスが共存しています。動画生成分野でも、Sora一強になるとは考えづらいですが、それでもSoraの公開がゲームチェンジになることは間違いないでしょう。引き続き動向を注視していく必要があります。

2. SNSで話題のAIツールをピックアップ!

Deepgram

  • 0.25秒以下という驚異の低遅延を誇るText-to-Speech機能を先日発表した音声AIツール。どれだけ自然な会話が実現できるかは、デモ動画にて確認可能

  • APIの提供がメイン

  • Text-to-Speechは日本語対応していないが、Speech-to-Textは対応済であり、今後の多言語展開も期待できる

  • サインアップすると、$200のクレジットを得られる

CSM

  • 3Dモデルを作成・編集できるツール

  • 他のAIツールと比ベて機能が豊富。例えば、3Dモデルのテクスチャを貼り替える3D版アップスケール機能や、3D-to-Image機能などがある

  • さらには、3Dモデルを自動的にリギングした後にtext-to-animationで動かすこともできる。5分程度で完了

  • サインアップすれば、全機能を無料で体験することが可能

3. 今注目すべき3つの汎用人型ロボット

① Tesla Optimus - 実は世界最高水準には達していない

直近のAI汎用人型ロボットに関する発表で、最も話題になったのはイーロンマスク氏率いるTeslaの「Optimus Gen-2」でしょう。Teslaが人型ロボット開発を始めることを発表したのは2021年であり、競合他社と比べて遅いタイミングでの参入です。以下のデモ動画でOptimus Gen-1, 2の性能を確認できます。

しかし、後にあげる2つのロボットと比較すれば分かる通り、実は「Optimus Gen-2」は、汎用人型ロボットの中で、最高レベルに到達しているとは言い難いです。

それでも、開発開始から僅か2年でこのレベルに到達している点、また制御の大部分をAI技術によって行っている点でTeslaは高く評価されています。また、電気自動車開発を行う中で獲得したハードウェア技術やAIによるEnd-to-Endな制御技術は、大きな優位性であるとされています。

※ ちなみに、先日マスク氏が投稿した、人型ロボットがシャツをたたむ動画 (X) も大きな話題となりましたが、この動画では、オペレーターが着用したグローブの動きをロボットにトレースさせており、マスク氏もこれを認めていますForbesによれば、このトレース技術は1960年台からあった古典的なものです。

② Phoenix - 繊細な作業をこなせるロボット

Sanctuay AI社は、2018年に設立されたカナダの企業で、繊細な作業を行う能力を有した人型ロボットの開発を得意としています。こちらのデモ動画では、Sanctuay AI社が開発した人型ロボット「Phoenix」が「料理を盛り付ける」「ジェンガをプレイする」といった60のタスクをこなしています。

また先月末には、物体を色別に分類するという単純なタスクを、人間と同等の速度でできるようになったという発表もありました。確かに速度感こそ人間レベルですが、手荒で雑な印象も受けます。

③ Atlas - 高い運動能力を有したロボット

1992年設立の老舗企業Boston Dynamics社が開発している人型ロボット「Atlas」は、高い運動能力を有していることで知られます。以下のように華麗にパルクールを決めたり、動き回ったりする動画をご覧になったことがある方も多いのではないでしょうか。

Atlasは、AIによる制御を主とするTeslaのOptimusとは異なり、既存の制御技術をベースとしています。こちらの動画にてBoston Dynamics社が開発したロボットの進化の軌跡が描かれていますが、2017年にはバク宙に成功しており、かなり前の段階から高い身体能力を獲得していたことが分かります。

既存の制御技術にAIという武器が加わることで、人型ロボットがどのように進化を遂げていくのかはまだまだ未知数ですが、現状はブレイクスルーと言えるような革新が起きているとは言い難いです。引き続き注意深く動向を見守っていきたいところです。

運営元の紹介

生成AI特化開発チームMavericksは、Xニュースレターにおいて、AI情報を日々発信しています。
本記事は3/11に配信したニュースレターをもとに作成しています。以下より無料で購読できますので、是非ご覧ください!

また私たちは、5000以上のAIツールを掲載しているAIツールまとめサイト「sayhi2.ai」や、無料の高画質化ワークフローカクダイV1」といった生成AIプロダクトの開発も行っています。詳細については以下の投稿をご覧ください!