見出し画像

Googleの新しいロボット、AIによる動画から動画への変換、GPT o1、AIは人間よりも創造的

9,665 文字

AIは眠らへんし、今週もまたAIの世界では驚くべきことがようさん起こりました。
まず、chaiっちゅう新しいシステムが登場しました。これはタンパク質やDNA、その他の小さな分子を予測できるんです。これは薬の開発にめっちゃ役立ちます。
OpenAIは最新モデルの01をリリースしました。これは博士レベルの知能を持っとるんです。
ある研究では、AIが人間よりも創造的になる可能性があるっちゅうことがわかりました。
Googleのロボットは靴紐を結んだりするのが上手になりました。
ほな、詳しく見ていきましょか。
まず今週の主役は、もちろんOpenAIの最新モデル01です。これは噂のストロベリーやqarプロジェクトに基づいてるんですけど、高度な推論能力を持ってます。今までにないような複雑なタスクを推論できる新しいAIなんです。
例えば、緑色のバーがGPT-4です。これは既に世界最高のAIモデルなんですけど、オレンジと赤のバーが新しい01モデルです。GPT-4と比べてパフォーマンスがめっちゃすごいんです。
競争的な数学や競争的なコーディング、博士レベルの科学の質問で圧倒的に強いんです。これらの質問は、世界中でほんまに少数の人間しか解けへんし、正解できへんようなもんです。深い思考と推論が必要なんですけど、01はこれらを簡単にこなしてしまうんです。
01の詳しいレビュー動画はもう作っとるんで、どう動くのか、どう使えるのか、いろんなプロンプトでテストしたり、Claude 3.5と比較したりしてます。まだ見てへん人は、ぜひチェックしてみてください。
他のニュースでは、Runwayがめっちゃすごい機能をリリースしました。今は動画をアップロードして、それを別の動画に変換できるんです。これはマジですごいです。一つの動画を全く違うスタイルに変換できるんです。
これは単なるフィルターやないんです。AIが動画の内容を理解して、スタイルやエフェクトを変えながら、中身はそのまま保つんです。つまり、キャラクターや動き、シーンはそのままで、スタイルだけ変わるんです。
これが動画制作にとってどういう意味を持つか考えてみてください。まるで一つのチームの俳優やVFXチームをポケットに入れてるようなもんです。パンツ一丁で地下室にいる人でも、自分を撮影するだけでハリウッドレベルのシーンを作れるんです。
自分を撮影して、どんなキャラクターにもなれるし、どんなシーンも作れるんです。地下室で自分が演じるシーンを撮影するだけで。これはインディー映画製作を革命的に変えるかもしれません。
次に、Googleも今週めっちゃ面白いものをリリースしました。Audio Overviewsっちゅうんですけど、これはほんまに便利な機能です。
これはノートブックLMの一部なんですけど、PDFやGoogleドキュメント、ブログ記事、Googleスライドなどのテキストをポッドキャストエピソードに変換できるんです。
これは単なる一般的なロボット音声のAIやないんです。二つのAIエージェントの会話になってて、めっちゃリアルに聞こえるんです。
ちょっと使い方を見せて、どんなものが生成されるか実際に聞いてもらいましょう。
ノートブックLMに行くだけでいいんです。リンクは説明欄に載せときます。それで「作成」をクリックして、ドキュメントをアップロードするだけです。
ドキュメントやPDFをアップロードしたり、Googleドライブからアップロードしたり、ブログ記事のリンクを貼り付けたり、テキストを直接ここに貼り付けることもできます。
私は今からこのPDFをアップロードします。この論文についても後で話すつもりです。PDFをここにドラッグ&ドロップしただけです。
そしたら、このAI Overviewのセクションが出てきます。「生成」をクリックして、何が出てくるか見てみましょう。
生成されるのを待ってる間に、Googleの別のデモをお見せしましょう。彼らはこのブログ記事を使ってます。これがそのブログです。
このブログを使って、Audio Overviewを生成しました。どんな風に聞こえるか、再生してみましょう。
(デモ音声再生)
ちょっと止めますけど、まずこの二人がめっちゃリアルに聞こえることに注目してください。笑ったり、自然な口調で話したりしてます。これは本物のポッドキャストのホスト二人の会話みたいに聞こえます。
しかも、このブログ記事を会話形式で説明してるんです。
ちなみに、これは全部Gemini 1.5の高度なマルチモーダル能力のおかげです。これは古いバージョンのGeminiやないんです。これは最新バージョンで、ほんまにめっちゃパワフルです。
まだ見てへん人は、この動画をチェックしてください。
マルチモーダルっちゅうのは、テキスト、画像、音声など、何でも扱えるってことです。だから、テキスト文書を音声会話に変換するのがめっちゃ簡単なんです。
それに、ここにソースをアップロードすると、同時に50個の異なるソースを処理できます。各ソースは50万語まで扱えます。つまり、メモを生成する時に、合計2500万語を考慮できるんです。
これはGemini 1.5の巨大なトークンコンテキストウィンドウのおかげです。これは現存するAIモデルの中で一番大きいウィンドウなんです。
このツールを使えば、今は無料ですし、エンタープライズプランとか払ってへんのに、メモをドラッグ&ドロップするだけで、完全な音声ポッドキャストや会話を生成できるんです。
すぐに思いつく超便利な使い方があります。これは音声学習者、つまり聞くことで学ぶのが得意な人にとって、めっちゃいいツールです。
例えば、学生さんやったら、講義ノートをここに入れて、音声エピソードに変換して聞くことができます。これはゲームチェンジャーになるかもしれません。
さて、Audio Overviewの読み込みが終わりました。でも、まずこの論文について少し話してから、この論文についてのポッドキャストエピソードを再生して、どれだけ正確かを見てみましょう。
ほんじゃ、このテキスト to 音声ツールについて、どう思いますか?コメント欄で教えてください。これがポッドキャストやオーディオブックの未来を変えると思いますか?
他のニュースでは、フランスのAIスタートアップ、Mistralが面白いものをリリースしました。Pixol 12bっちゅうんです。
彼らは宣伝とかせえへんのです。いつもみたいに、Twitterでマグネットリンクをポストしただけです。
基本的に、Pixol 12bは彼らの初めてのマルチモーダルモデルです。つまり、画像とテキストの両方を扱えるんです。
しかも、Apache 2ライセンスの下で無料でダウンロードできます。
Pixol 12bって何やねんって?まず、120億のパラメーターを持つ、それなりの大きさのモデルです。
例えば、Microsoftの53 miniみたいな小さいモデル(38億パラメーター)ほど小さくはありませんが、これはスマートフォンでも動かせるぐらい小さいです。
でも、Llama's 70bみたいな中規模モデル(ローカルで動かすにはめっちゃハイエンドなGPUが必要)ほど大きくもありません。
これは120億パラメーターで、サイズは25.4GBしかないので、最高級のハードウェアは必要ありません。普通のNvidia GPUがあれば、ローカルで動かせます。
これはMistralの既存のテキストモデル、Nemo 12bをベースにしてますが、テキストだけやなくて、Pixol 12bは画像も処理できるようになりました。
Mistralはすべてをオープンソース化するのがめっちゃ得意で、Pixol 12bもHugging FaceやGitHub、あるいはツイートしたリンクからダウンロードできます。
これはめっちゃパワフルです。消費者向けのGPUで動く視覚とテキストのモデルを手に入れられるんです。
画像をアップロードして、その画像について質問できます。全部ローカルで、自分のコンピューターで、クラウドサーバーやAPI、インターネットに接続せずにできるんです。
ライセンスによると、誰でも自由に使ったり、ファインチューニングしたりできます。
Mistralは、Pixol 12bについて大きな計画を発表しました。すぐにチャットボットのLeHaと、PlatformっちゅうAPIプラットフォームに統合する予定です。発音合ってるか分からんけど。
とにかく、Mistralチームはこれをやり遂げて、オープンソースモデルをコミュニティと共有し続けてることに拍手を送りたいです。
さて、この研究はめっちゃ面白いです。
ソーシャルメディアで、AIには創造性がない、独創性がない、ゼロから新しいアイデアを作れへんって言うAI懐疑派をようさん見かけます。
でも、それは本当やないんです。いわゆる人間の創造性も、結局は人生で経験したことに基づいてるんです。
確かに新しいものや新しいアイデアを作り出せますけど、ある意味、これらは全て人生で経験したことの影響を受けてます。
何か新しいアイデアを作るには、まず何かのベースや刺激が必要です。世界について何も知らへんかったら、新しいアイデアなんて作れへんでしょ。
だから、我々の新しいアイデアや、いわゆる創造性は、全て人生と経験に基づいてるんです。
AIも同じです。確かにニューラルネットワークは基本的にパターン認識アルゴリズムですけど、人生のデータから学んでるんです。
インターネット上のすべてのデータを与えられて、それを通じて人生がどう動くかを学んでるんです。そしてそれを使って新しいアイデアを生み出してるんです。
実際、この研究で研究者たちはAIと創造性について面白い発見をしました。AIが生成したアイデアは、人間のアイデアよりも斬新だと見なされてるんです。
研究の方法はこうです。まず、100人以上のNLP(自然言語処理)研究者に参加してもらいました。
彼らに新しいアイデアを作ってもらって、それをAIが生成したアイデアと混ぜました。
そして、これらのNLP研究者に、人間が生成したアイデアとAIが生成したアイデアの両方をレビューしてもらって、どちらのアイデアがより創造的かを見てもらいました。
これはブラインドで行われました。つまり、研究者たちはどのアイデアがAIからで、どれが人間からかわからへん状態でした。
驚いたことに、評価結果を見ると、AIのアイデア(青色の部分)は、人間のアイデアよりもずっと高い斬新さのスコアを示しました。
このチャートを見るだけで、AIは創造的になれへんとか、人間よりも創造性が低いっちゅう意見は否定されてますね。
ここでは、AIのアイデアの方が高い斬新さのスコアを示してます。
これは別の例です。赤いアスタリスクは、人間のアイデアと比べて有意な差があることを示してます。
斬新さと興奮度の両方で、AIのアイデアは人間のアイデアよりも有意に高いスコアを示しました。
でも、実現可能性と効果の面では、有意な差はありませんでした。
一部のレビュアーは、AIのアイデアの方が実用的やないと感じました。これはモデルの自己評価能力が欠けてるからかもしれません。
もう一つの観察結果は、AIが生成したアイデアの多様性が限られてたってことです。
この研究が重要な理由は何でしょうか。AIが本当にイノベーションを起こせるのか、科学を進歩させられるのか、新しい発見ができるのか、っちゅう質問はよく議論されてます。
懐疑派の多くは、AIには独創性がないからこれらのことはできへんって言います。
でも実際、この研究はそれを否定してます。AIには創造性があって、人間のアイデアよりも優れた斬新なアイデアを生み出す力があるんです。
これは潜在的に新しい発見を達成するのに役立つ可能性があります。
さっき、この記事からポッドキャストを生成しましたね。記事の内容を説明したところで、このポッドキャストエピソードも聞いてみましょう。
ほな、今日のトピックに飛び込んでいきましょか。まるでSFみたいな話なんですけど、AIが自分で研究アイデアを生み出すっちゅうことについて見ていきます。
しかも、ただアイデアを出すだけやなくて、人間の専門家よりも上手にできる可能性があるんです。
そやね、もう推測の段階は過ぎてるんです。実際のデータ、ハードデータ、チャート、全部あります。本物の科学論文があって、この問題を本気でテストしたんです。
人間の創造性とAIが生成したアイデアを比較するって、特に科学的な文脈ではどうやってするんでしょうね。
この場合、研究者たちは研究の方向性を生成するように特別に設計されたAIエージェントを作ったんです。自然言語処理、つまりNLPに焦点を当てました。
NLPね、人間の言語を理解して生成するAIのことやね。
AIが生成した研究アイデアは何に焦点を当ててたんですか?AIにどんなことをブレインストーミングさせようとしたんですか?
NLPの中でも特に注目されてる7つの分野に焦点を当てました。AIのバイアスにどう対処するか、AIの安全性をどう改善するかなどです。実際のNLPの専門家にもアイデアをブレインストーミングしてもらいました。
おっと、何が起こったんでしょう。まぁ、続けましょう。
つまり、人間チーム対AIチームってことですね。面白い!でも、誰のアイデアがより良いかをどうやって測ったんですか?
これが本当に面白いところなんです。100人以上のNLPの専門家を審査員として招いたんですけど、ブラインド審査をしたんです。
専門家たちは、見てるアイデアが人間からのものなのか、AIからのものなのか、全く分からへん状態でした。完全な二重盲検試験です。バイアスを排除するのにめっちゃいい方法ですね。
AIが生成したアイデアは実際に斬新だったんですか?何か新しいものをもたらしたんですか?
純粋な斬新さという点では、AIは人間の専門家を完全に上回りました。かなり厳密な統計的検定をした後でも、有意に斬新だと評価されたんです。
へぇ、すごいですね。既存の研究を吐き出しただけやなくて、物事を見る全く新しい方法を提案したってことですね。
これは、AIが研究にアプローチする方法と人間がする方法の違いについて何を示唆してるんでしょうか?
これは、AIの方が既存の分野の前提やパラダイムに縛られにくいってことを示唆してるかもしれません。
人間には思いつかへんような、全く新しい研究の道筋を開く可能性があるんです。
なるほど、例を挙げてもらえますか?
ほな、ここで一旦止めましょう。
このポッドキャストエピソードが、この記事をめっちゃ正確にまとめてるのがわかりますね。
退屈な講義を聞いてるんやなくて、二人のポッドキャストホストがカジュアルに会話してるみたいで、実際にめっちゃ良い学習方法になってます。
この動画のスポンサーであるUpixに感謝します。彼らのバージョン2が出たんですけど、これは私が使った中で最もリアルなAIセルフィー生成器の一つです。
Upixは、ワンクリックで高品質でリアルな自分や他の人の画像を生成するのをめっちゃ簡単にしました。
デスクトップでもスマホでも動きます。アプリをインストールする必要もなく、インターネットブラウザから直接使えます。
テンプレートを選んで、写真をアップロードして、「作成」をクリックするだけです。簡単でしょ?
結果がめっちゃリアルなのを見てください。選べるテンプレートがようさんあって、これからもっと増えていく予定です。
upix.doappでチェックしてみてください。
他のニュースでは、Google DeepMindが今週二つのめっちゃ面白いものをリリースしました。
二つのシステムを紹介しました。一つ目は「Aloha Unleashed」っちゅうシステムです。この記事へのリンクも説明欄に載せときますので、技術論文を読みたい人はチェックしてみてください。
まずこの動画を見てください。このAloha Unleashedシステムは、ロボットが二本の腕を使って複雑なタスクをこなせるようにします。
例えば、靴紐を結んだり、シャツを掛けたり、他のロボットを修理したりもできるんです。
ちなみに、Figure 02やTesla Optimus、1Xの最新ロボットなど、かっこいいロボットを見たことあると思います。
でも、これらのロボットは実際には、靴紐を結ぶような器用なタスクはあんまり得意やありません。
実際、これらのロボットのほとんどは、物を拾って置くことしかできません。しかも、ほとんどが一本の腕しか使えません。
両腕を使って物を操作したり、靴紐を結ぶみたいな複雑なことをするロボットのデモ動画はほとんどありません。
ここに書いてあるように、Aloha UnleashedはAloha 2プラットフォームを基にしてて、それは以前の動画で紹介したオリジナルのAlohaがベースになってます。
これはテレオペレーションを使って訓練されます。つまり、最初は上の方で人間が特定のタスクのやり方を示してるのが見えます。
そして、数十回の訓練を経た後、人間の指示なしに自動的にタスクをこなせるようになるんです。
これのすごいところは、一本の腕やなくて二本の腕を使えることです。新しい環境にも対応します。
ここでは、ロボットアームが自分でこの蓋を開けようとしてます。これはテレオペレーションやないんです。
途中で人間がこのカップをロボットの手から叩き落としますが、自律的にカップを拾い上げて、蓋を開けることを学習します。
これがAloha 1でした。今回、より複雑で器用なタスクをこなせる高度なバージョンをリリースしました。
さらに、DemoStarっちゅう新しいシステムもリリースしました。これは、ロボットが仮想シミュレーションで学習するのを助ける新しい強化学習アルゴリズムです。
これはこんな風に動きます。まず、これらのロボットは物を拾う方法や、この場合はプラグをソケットに差し込む方法を、仮想シミュレーションを通じて学習します。
左側の動画は本物やありません。これは全て仮想環境で行われてます。メタバースみたいなもんですが、現実世界の物理法則をシミュレートしてるだけです。
数回の訓練の後、ロボットはこのタスクをポリシーとして学習します。そして、このポリシーを現実世界に展開すると、右側の動画のようになります。
これは本物の物理的なロボットアームで、完璧にこのタスクを実行できてるのが分かります。
これはゼロショットっちゅうことです。つまり、物理的なデータでは一切訓練されてません。物理的な訓練ラウンドは一切ありませんでした。全ての訓練は左側の仮想環境で行われたんです。
以前は、ロボットが歩いたり、バランスを取ったり、物を操作したりするような新しいことを学ぶのに、この仮想環境で何千回もの訓練が必要でした。
でも、DemoStarを使えば、ロボットが特定のタスクを学ぶのに必要なシミュレーションのデモ回数が100分の1で済むんです。
この仮想シミュレーションでは、ロボットアームは色付きの立方体の向きを変えたり、ナットとボルトを締めたり、道具を片付けたりするなど、様々なタスクで98%以上の成功率を達成しました。
そして、これを現実世界に展開した時、ゼロショット、つまり物理的な追加訓練なしで、まだかなり高い精度を達成しました。
立方体の向きを変えたり持ち上げたりするタスクでは97%の成功率でした。
でも、プラグをソケットに差し込むタスクでは、成功率は64%でした。指の高度な協調と精密さが必要なタスクでは、パフォーマンスが低くなりました。
でも、これでもまだめっちゃすごい成果です。DemoStarを使えば、ロボットを訓練して現実世界に展開するのに必要なシミュレーションのデモ回数が100分の1で済むようになったんです。
他のニュースでは、Chai Discoveryっちゅうスタートアップが、Chai 1っちゅう新しいモデルをリリースしました。
これは分子構造を予測できるAIシステムで、薬の開発にめっちゃ役立ちます。
Chai 1はタンパク質、小分子、DNA、RNA、その他のものを予測できます。これは実は、同じようなことができるAlphaFold 3にめっちゃ似てます。
AlphaFold 3が出た時に動画を作ったので、詳しく知りたい人はその動画をチェックしてみてください。
とにかく、これは薬の開発にめっちゃ役立ちます。研究者が幅広い薬の候補を探索できるようになるからです。
薬の設計の仕組みはこうです。まず、犯人を特定する必要があります。これは例えば、病気の分子かもしれません。
例えば、この黄色い塊が病気を引き起こすタンパク質だとしましょう。これがターゲットです。
研究者たちは、これに結合したり反応したりして、この病気を無力化できる別の分子を設計しようとします。
問題は、分子レベルでは、有機分子と無機分子を組み合わせてこのターゲットに結合できるものを設計する方法がめっちゃたくさんあることです。
そして、何かを設計しても、実際に試してみないと、それがどれだけ効果的かを予測するのはめっちゃ難しいんです。
Chai 1は、分子構造とその相互作用を正確に予測することで、薬の開発の初期段階を大幅に速めることができます。
有望な候補をより早く見つけられるようになります。また、構造の変化が薬の効果にどう影響するかを予測することで、既存の薬を最適化するのにも役立ちます。
ここで、Chai 1は濃い青色のバーで示されてます。これらのベンチマーク全体で、これは基本的に成功率ですが、AlphaFold 3や他の同様のシステムよりも優れてます。
Chai 1のもう一つのめっちゃパワフルな利点は、不完全な情報でも正確な予測ができることです。
他のモデルでよく必要とされる多重配列アラインメント(MSAs)なしでも動作できます。
ここに書いてあるように、Chai 1は、多重配列アラインメントを使わずに、単一の配列だけでマルチマー構造を予測できる初めてのモデルです。
しかも、AlphaFold Multimerレベルの品質で予測できるんです。
つまり、不完全な情報でも動作できるってことです。単一のタンパク質配列や生の分子データ、実験結果だけでも、設計しようとしてるものの構造や相互作用を非常に高い精度で予測できるんです。
Chai 1の素晴らしいところは、無料で使えることです。Webインターフェースを通じてアクセスできます。この記事へのリンクも説明欄に載せときますので、これらのリンクをクリックして詳しく見たい人はチェックしてください。
このWebインターフェースは、薬の開発などの商業利用も許可されてます。でも、非商業利用の場合は、GitHubで重みと推論コードもリリースされてるので、ダウンロードして自由に遊べます。
まぁ、これで今週のAIのハイライトをまとめました。これらについてどう思うか、コメント欄で教えてください。
いつもみたいに、トップAIニュースやツールを探して、みなさんと共有していきます。
この動画を楽しんでもらえたなら、ぜひいいね、シェア、チャンネル登録をお願いします。次のコンテンツもお楽しみに。
毎週AIの世界ではめっちゃようさんのことが起こってて、YouTubeチャンネルではすべてをカバーできへんのです。
AIの最新情報を本当に知りたい人は、私の無料週刊ニュースレターを購読してください。リンクは説明欄に載せときます。
見てくれてありがとう。次の動画でまた会いましょう。

いいなと思ったら応援しよう!