
グーグルの自己設計AIチップ! OpenAIのSORA-2?! 実世界でのAIロボティクス
7,325 文字
グーグルのディープマインドが、アルファチップいうAIチップの革命的な設計方法を発表しましんねん。これは、AIを使って各回路部品を最も効率的に配置するようにニューラルネットワークに報酬を与える方法なんです。グーグルのアルファ碁が囲碁のグランドマスターになったのと似てるんですわ。
この方法やと、人間の設計を超えて、より高速で効率的なチップをもっと早く作れるようになるんです。これが正のフィードバックループを引き起こすんですわ。
OpenAIは、AIビデオモデルのソラをリニューアルする計画を立ててるらしいです。情報によると、OpenAIは初期バージョンが映画製作者やテスターの期待に応えられなかったため、新しいバージョンに取り組んでるそうです。新バージョンでは、より高品質で長い動画を短時間で生成することに焦点を当てるらしいんです。
最後に、AIとロボティクスを組み合わせた技術が、現実世界でますます普及してきてるんです。すごい光のショーから古代の地上絵の発見、さらには警察の対峙状況での容疑者の制圧まで、実体化されたAIの可能性は無限大やねん。現在どのように使われてるか、そして将来の可能性について見ていきましょう。
実は、これは先週のOpenAIのニュースに隠れて、あまり注目されへんかった大きな話題やったんです。グーグルのディープマインドが「アルファチップがコンピューターチップ設計をどう変えたか」というブログ記事を投稿しましてん。
この記事では、2020年に作られた新しい強化学習の方法を使って、AIチップの設計をしてきたことが説明されてるんです。今ではこの方法をアルファチップって呼んでるんですわ。
記事にはこう書かれてます。「コンピューターチップは人工知能の目覚ましい進歩を支えてきました。そして今度は、アルファチップがAIを使ってチップ設計を加速し最適化することで、その恩返しをしているのです」
この方法は、グーグルの独自AIアクセラレーターであるテンソル・プロセッシング・ユニット(TPU)の最新3世代で、人間を超えるチップレイアウトを設計するのに使われてきたんです。
アルファチップは、実世界の工学問題を解決するために使われた最初の強化学習アプローチの1つやねん。人間が何週間も何ヶ月もかけて行う作業を、わずか数時間で人間を超えるか同等のチップレイアウトを生成できるんです。そのレイアウトは、データセンターからモバイルフォンまで、世界中のチップで使われてるんですわ。
そして、どうやって動くのかも少し説明されてます。碁や将棋、チェスをマスターしたアルファ碁やアルファゼロと同じように、アルファチップもチップのフロアプランニングをある種のゲームとして扱うように作られたんです。
空のグリッドから始まって、アルファチップは1つずつ回路部品を配置していきます。全ての部品を配置し終わったら、最終的なレイアウトの品質に基づいて報酬が与えられるんです。
新しいエッジベースのグラフニューラルネットワークを使うことで、アルファチップは相互接続されたチップ部品間の関係を学習し、チップ間で一般化できるようになりました。これにより、アルファチップは設計するレイアウトごとに改善していくんです。
先ほど少し触れたように、これはグーグルのアルファ碁が碁をプレイする方法とよく似てるんです。基本的に、最小の手数で勝つことにモデルに報酬を与えるんです。効率的になりながら、負けないようにする方法を学習するわけです。
そして、このモデルにシミュレーション内で何万回も何百万回も自分自身と対戦させるんです。プレイするゲームごとに少しずつ上手くなっていくんです。
この方法は、グーグルのアルファゼロが碁もチェスも将棋もマスターしたように、他のゲームにも応用できるんです。これらのモデルは今や人間の能力をはるかに超えて、各ゲームの世界最高のプレイヤーたちを打ち負かしてるんです。
グーグルは今、このアルファ学習法を実世界の問題に適用してるんです。ここに書かれてるように、アルファチップは2020年の発表以来、グーグルのTPUの全世代で人間を超えるチップレイアウトを生成してきました。
これらのチップは、グーグルのトランスフォーマーアーキテクチャに基づくAIモデルを大規模にスケールアップすることを可能にしてるんです。
つまり、グーグルの社内製AIチップであるTPUは、今や本質的にAIによって設計されてるんです。そして、そのチップがより高度なAIを動かし、そのAIがさらに高度なAIチップを設計して、さらに高度なAIを動かす...というわけです。
このポジティブフィードバックループは、はるかに優れたパフォーマンスと効率をもたらすんです。このグラフを見てもらえば分かるように、人間の専門家と比べて、アルファチップの平均配線長の削減率が示されてます。
アルファチップは他のチップの設計にも使われてるんです。例えば、最新のサムスンのスマートフォンに使われてるチップの一部なんかにもね。
でも、この話が重要なのは、このアルファ強化学習法が様々なシナリオに適用できるという証拠がさらに増えたからなんです。
グーグル・ディープマインドのアルファフォールドは、文字通りタンパク質折りたたみ問題を解決して、既知のタンパク質全ての構造を予測しましたからね。この驚くべき偉業の恩恵をまだ十分に受けてへんけど、それは間違いなく来るんです。
重要なのは、AIの開発自体を自動化する方法をすでに見つけ始めてて、それがはるかに速くて効率的やってことなんです。
これは、エクソパイの研究者レオポルド・アションベナーが有名な論文「状況認識」で語ってることそのものです。彼は2027年頃までに、完全に自動化されたAI研究、つまり本質的に自己改善するAIが実現すると予測してるんです。
そして、それが急速に人工超知能(ASI)へと向かう知能爆発を引き起こすんやと。
もし超知能が本当にもうすぐそこまで来てて、AIがほとんどの仕事を人間より上手くこなせるようになるんやったら、私たちは一体何をすればええんでしょうか。
まだ学生やったり、キャリアをスタートさせたばかりやったり、キャリアの真っ最中やったりする人にとって、こんな不確実な時代に将来に向けてどう準備すればええんか悩んでるかもしれませんね。
私自身も全ての答えを持ってるわけやありませんが、OpenAIのCEOであるサム・アルトマン、このパラダイムシフトを率いてる人物が最近のインタビューで興味深いアドバイスをしてくれました。
彼が言うには、最も明確で明らかな2つのことがあるそうです。
1つ目は、ツールの使い方を学ぶことです。彼が学生やった頃、コンピュータープログラミングはすでに人気がありましたが、今ほどではありませんでした。
当時の人々は、AIについて今言われてるのと同じようなことをプログラミングについて言ってたんです。「ああ、これは物事を大きく変えるやろう」とか「今ある多くの仕事がなくなるやろう」とかね。
彼にとって最も明らかやったのは、「そうなるんやったら、このツールをめっちゃ上手く使えるようになった方がええ」ということやったんです。
もしそれが大きな影響を与えるものやったら、ということですね。振り返ってみると、それは本当に良い決断やったんです。
コンピュータープログラミングの影響は巨大で、ポジティブなものやったんです。確かに、ある種の仕事はなくなりましたが、はるかに多くの新しいことを可能にして、多くの新しいことをする能力も与えてくれたんです。
だから、今も同じことが言えるんです。これらの新しいツールに本当に慣れ親しむ必要があるんです。将来の仕事がどんな形になるのか、正確には分からへんからです。
仕事はたくさんあるし、その多くが今の仕事とは少し違う形になるやろうということは確信してますが、やることがなくなるってことはなさそうです。
2つ目は、人間が本当に気にかけてることについて、深い真実の言葉を言えるということです。
人々が欲しがるものを作り出す方法、将来の人々が欲しがる体験や製品、サービスを作り出す方法を見つけること、人々の役に立つ方法を見つけること、それが本当に価値のあることのように思えるんです。
特定の知識の集合よりもね。
さて、みなさんはどう思いますか? このサム・アルトマンのアドバイスは良いと思いますか? それとも彼に同意できへんですか?
そして、これから来る未来に備えて、みなさんは今、生活の中でどんなことをしてますか? コメントで教えてください。
さて、私たちが向かってる興味深い時代の話をしましたが、みなさんもご存じのように、OpenAIはついに先週、ChatGPT Plusユーザー向けに高度な音声モードの提供を開始しました。
これで文字通り、私たちの電話と会話ができるようになったんです。私が見た中で最も興味深い使い方の1つは、この高度な音声モードを使って新しい言語を学ぶことです。ちょっと見てみましょう。
「スペイン語で何か言うので、私の後に続いて言ってください。発音が難しければ教えてください。では、始めましょう。オラ」
「ビ」
「単語は合ってますね。発音を少し調整しましょう。オの音をもう少し強調してみてください。私の後に続いて言ってください。オラ」
デュオリンゴという言語学習アプリも、リリーというAIチャットボットとリアルな会話ができる同様のAI機能をリリースしました。
AIの助けを借りれば言語学習がずっと簡単になるので、今が新しい言語を学び始めるいい時期かもしれませんね。でも同時に、言語がもはや障壁ではなくなる時代に入りつつあるんです。
メタの新しいメタ・コネクト・イベントで、彼らが取り組んでる多くの新しいAI機能が発表されました。その1つが新しいAI翻訳ツールです。
こう書かれてます。「リールの音声を自動的に翻訳するメタAI翻訳ツールをテスト中です。これにより、異なる言語を話す人でも、より多くの人があなたのコンテンツを楽しめるようになります。
自動吹き替えと口の動きの同期により、メタAIは話者の声を別の言語でシミュレーションし、その口の動きを合わせます。
InstagramとFacebookで小規模なテストを開始し、ラテンアメリカと米国の一部クリエイターの動画を英語とスペイン語に翻訳しています。今後、より多くのクリエイターと言語に拡大する予定です」
コンテンツクリエイターと視聴者の両方にとって、どれだけ多くの可能性が開けるか想像してみてください。様々な言語で大量のコンテンツがありますからね。
もし、そのコンテンツをリアルタイムで自動的に人々の好みの言語に翻訳して、抑揚やトーンも維持できるんやったら、これまでに見たことのない方法で世界をつなげることができるんです。
他のOpenAIのニュースでは、最近The Informationという記事がありました。OpenAIがソラの新バージョンに取り組んでるって書かれてるんです。
この記事の要点は、OpenAIが完成品ができる前にソラをデモンストレーションしてしまったということです。画面に映ってるデモを見てもらえば分かるように、すごく印象的に見えるし、今でもそうなんですが、モデルをテストした映画製作者やビデオ編集者たちはあまり感心しませんでした。
彼らの不満は、生成に時間がかかりすぎるってことでした。1分のクリップを生成するのに10分もかかることがあったんです。使えるものを得るまでに何百回も生成せなあかんかったらしいです。
これでは、モデルがほとんど使い物にならへんので、OpenAIはリリースしないことにしたんです。今は、より速くてより良いバージョンのソラに取り組んでるそうです。
そして、ブルーベリーっていう謎のモデルが、その一端を垣間見せてるんやないかって噂されてるんです。
これが公式のリーダーボードです。見てのとおり、この謎のブルーベリーモデル、ブルーベリー0とブルーベリー1が、フラックス1やイディオグラムなどの他のトップモデルを打ち負かしてるんです。
これはテキストから画像を生成するモデルのリーダーボードで、テキストから動画を生成するモデルのリーダーボードやないってことは覚えておいてください。でも、これでもOpenAIが新しいモデルをテストしてる可能性はありますね。
このブルーベリーモデルの公式デモは全然ないんです。リーダーボードでの性能以外は何も分からへんのです。
でも、グルーの画像生成がどれだけ優れてたか覚えてますか? 検閲されてへん超リアルな画像生成で話題になりましたよね。そこで使われてた基礎モデルがフラックス1やったんです。
このブルーベリーモデルは、リーダーボードを見る限り、それを上回る性能を持ってるんです。だから、これがOpenAIの新しいモデルのテストかもしれへんのです。
ブルーベリーって名前も、ストロベリーみたいに、彼らがモデルのコードネームに果物を使う傾向があるからですね。でも、全く別の会社の可能性もあります。
新しい情報が入ったら、必ず皆さんにお知らせしますね。
他のニュースでは、アリババがミモ(MiMo)テクノロジーを発表しました。これは、静止画像をシームレスに操作可能な仮想キャラクターに変換する技術です。正直、これまで見たどんなものよりずっと優れてます。
ラッパーのロディの伝説的なコンサート入場シーンに、いろんな人を重ねたミームを見たことあるかもしれませんね。これと同じ技術がミモでも使われてるんです。見て分かるように、かなり良くなってます。
モモ(MoMo)もあります。これは全然別物です。AI2が作った最先端のオープンソースマルチモーダルモデルのファミリーです。ちょっと見てみましょう。
「このオプションはビーガンですか?」
「いいえ、このオプションはビーガンではありません」
「人数を数えてください」
「人数を数えると、合計21人です」
「この表をJSONに変換してください」
「はい、表をJSONに変換しました」
「クレイグスリストで自転車を売りたいんです。説明文を書いてください」
「シュウィンの自転車売ります。青に白のアクセント。300ドルまたは最高値。買いたくなること間違いなし!」
このモデルの目的が分かりましたね。アップルがアップル・インテリジェンスでリリースしようとしてるものや、OpenAIが高度な音声機能で約束してたけどまだ実現してへんものと非常によく似てます。
一般的なベンチマークに基づくと、GPT-4oやクエンV2のようなフロンティアモデルと同等の性能を持ってるようです。
でも、これらのモデルが完全にオープンソースやってことを覚えておいてください。これはAIコミュニティにとって素晴らしいことです。
こういった技術をオープンソース化することで、人々がその上に新しいものを構築できるようになるし、OpenAIやグーグル、アンスロピックのような主要な非公開企業に、さらに革新を続けるモチベーションを与えるからです。
さて、AIとロボティクスの世界では、ボストン・ダイナミクスのロボット犬、スポットが今や自律的にドアを開けられるようになりました。
これは様々な状況で非常に役立つ可能性があります。例えば、最近警察が立てこもり事件でロボットを使って、誰も傷つけることなく容疑者を拘束することに成功した動画があるんです。容疑者は少し傷ついたかもしれませんが。ちょっと見てみましょう。
警察官たちがLECリージョナル爆弾処理班のロボットを展開しました。デ・ロサはロボットを押しのけようとします。撃ちさえしましたが、ロボットは止まりません。
最終的に、ロボットは部屋にガスを放出します。そうすると、デ・ラ・ロサが窓から這い出して、床に倒れるのが見えます。
ロボットは彼の上を走り抜け、SWATチームが拘束できるまで地面に押さえつけます。
警察や軍隊がこういうロボットを持ってて、自律的に部屋に入って掃討できたら、どれだけ役立つか想像できますよね。彼らの命を危険にさらすことなくね。
実際、こういう極度に危険な仕事なら、どんな仕事でも実体化されたAIの恩恵を受けられるんです。
これらのロボットがどんどん良くなっていくにつれて、おそらくこういったのが実世界でのAIの主要な使用例になっていくんでしょうね。
AIとロボティクスに関する他のニュースでは、考古学者たちがAIとドローンを使って未知の地上絵を発見したって記事もありました。
こう書かれてます。「AIと低空飛行ドローンを組み合わせて使うことで、地上絵の発見のスピードと割合が革命的に向上しました。今週発表された研究論文によると、AIシステムを使ってナスカ地域全体をカバーすることで、わずか6ヶ月で303の新しい具象的なナスカの地上絵を発見しました。
一方で、合計430の具象的なナスカの地上絵を発見するのに、これまでほぼ1世紀かかったんです」
これも、実体化されたAIが人々の仕事の仕方を大きく改善してる別の例です。予想以上に多くの産業に影響を与えることは明らかですね。
最後に、中国のある企業が最近、ドローンで形成された最大の画像の世界記録を更新しました。
このライトショーには約10,000機のドローンが使われてて、全て1台のコンピューターで制御されてるんです。
このドローンの群れは、エンターテイメントに使われる実体化されたAIの一例ですが、他に何に使える可能性があるか想像できますよね。
というわけで、AIロボットにはすでに多くの実世界での使用例があって、これからもっともっと良くなって、もっと役立つようになっていくんです。
さて、今日のAIニュースは以上です。視聴してくださってありがとうございます。
もし楽しんでいただけたなら、高評価をお願いします。そして、これからもこういったAIニュースを見逃したくないという方は、ぜひチャンネル登録をお願いします。