見出し画像

#167 - GPT-4o、Project Astra、Veo、OpenAIの出発、アンドレイへのインタビュー

こんにちは、Last Week in AIの最新エピソードへようこそ。ここでは、AIで何が起こっているかについて私たちがチャットするのをお聞きいただけます。いつものように、先週の最も興味深いAIニュースをいくつか要約して議論します。そしていつものように、Last Week in AIニュースレターで、このエピソードでカバーしていない記事もご覧いただけます。 私はあなたのホストの一人、Andrey Kovyです。昨年スタンフォードで博士号を取得し、現在は生成AIスタートアップで働いています。そして今回もゲスト共同ホストがいます。Genellyが休暇中なので、彼女に自己紹介してもらいます。 皆さん、こんにちは。私の名前はDalana Leoです。2年前の過去の人生では、Amazonのシニアデータサイエンティストでした。AWSのお客様向けに機械学習ソリューションを構築し、実験やA/Bテスト、一般的なデータサイエンス領域にも携わっていました。フルタイムの仕事を辞めて、Data Scientist Showというポッドキャストを主催し、さまざまな業界のデータサイエンティストのプロジェクトやキャリアジャーニーについて話しています。また、データとAI企業にコミュニティ構築や市場開拓に関するアドバイスも行っています。最近はキャリアコーチングに注力し、データサイエンティストが自分に合ったキャリアパスを見つけられるよう支援しています。 その通りです。John Cronと同様、多くの業界人をインタビューしてきた経験豊富なポッドキャスターですね。Johnとは少し違うバックグラウンドで、AIや機械学習に重点を置いていないので、特に今週は私たち全員に影響を与える消費者ニュースが多いので、あなたの意見や議論への追加が楽しみです。 ええ、ニュースに入る前に、いつものようにApple Podcastでの素敵なフィードバックに感謝したいと思います。いつものようにレビューを感謝しています。ある人は、「楽しく魅力的な方法で提示された素晴らしいコンテンツ」と言っていました。私たちはそれを楽しくしようと努力していますが、時々技術的なものでは難しいこともあります。ある人は、「AIの誇大広告の良い概要」とも言っていて、それもまた感謝しています。そして、YouTubeでもいくつかのコメントをいただきました。ある人は、AIのテーマソングが心地よいと言っていました。私はすべてのポッドキャストの最後にAIのテーマソングを含めるつもりです。それはとても楽しいようです。私たちのいつものテーマは冒頭に keep しますので、ポッドキャストを最後まで聞く熱心なリスナーの方は、楽しみにできる素敵な楽しみがあります。今回は、最後に私の経歴について少しお話をするので、部分的にビデオを録画してみようと思います。YouTubeで探してみてください。うまくいけば、ビデオを編集して、私たち全員を切り取るだけでなく、公開できるといいですね。 ええ、私の得意分野は人々にキャリアについて質問することなので、Andrey、私はこれをやらなければなりません。 その通りです。さて、ツールとアプリのセクションからニュースに入りましょう。 最初の話題は、もちろんGPT-4oです。月曜日にOpenAIは、音声入力をネイティブに受け入れ、画像とテキストを出力するように訓練されたGPT-4の反復である、最新のモデルGPT-4 Omniを発表する短いビデオストリームを行いました。彼らはこのモデルが可能なことの非常に印象的なデモを行いました。20分のストリームで、音声によるこのアシスタントとのリアルタイムインタラクションを実質的に示しました。多くの人がそれを映画「her」になぞらえましたが、それは適切だと思います。小さなボタンを押すとマイクがオンになり、AIに話しかけることができます。ほとんど遅延なしに、音声入力を処理し、非常に人間らしい音声出力を生成します。声のイントネーション、感情などは非常に高品質で、一般的な音声合成で見たものよりも優れているかもしれません。これは、ChatGPTや以前のGPT-4モデルのすべてのインテリジェンスを備えています。実際、ベンチマークや技術的な数字などでは、これらのタスクすべてにおいて、さらにはそれ以上においても優れていると言われています。さらに、このモデルはGPT-4の半分の費用で2倍の速さであると発表しました。ですから、私にとっては、APIを使って作業している者として、これはエキサイティングなことです。GPT-4品質のインテリジェンスを2倍の速度と半分の費用で手に入れることは、大きなことです。ですから、非常に議論され、OpenAIからの非常に印象的な進歩だと思いました。Dalanaはどう思いましたか? ええ、いくつかのデモクリップを見ました。リアルタイム翻訳は本当にクールに見えましたが、私が試してみたい機能の一つは、デスクトップ上の画面を表示する機能です。今はまだ利用できないかもしれませんが、AIコンパニオンが私の作業を見て、私に注意してくれるのは本当にクールだと思います。時々、一人で作業するのはとても孤独に感じることがありませんか?ペアプログラミングをしたり、友達と黙って一緒に作業をしたりすると、誰かが見ていると感じるだけで、より生産的になります。だから、私はもっと生産的になるかもしれません。もしかしたら、ただチャットできるかもしれません。彼女?彼?それは、私が試してみたい機能です。私の携帯電話でもオーディオを試してみました。デモでは女性の声が表示されていますが、いくつかのオプションがあり、男性の声や異なるタイプの男性の声もあるようです。しかし、デフォルトは女性の声のようです。なぜなら、女性のバーチャルアシスタントは心理的に脅威が少ないと感じるからです。 OpenAIが「her」のようなものを開発したら、AIとデートしますか? 多くの人がすでにReplicaや他の多くのアプリでAIとデートしています。それは全く別の問題です。リアルタイムでチャットし、これらの非常に人間らしい会話をする能力があれば、デモで強調された女性の声は特に、非常に友好的で暖かく、脅威を与えないものでした。一部の人々はそれをセクシーだと表現したり、映画「her」のように、主人公がAIと恋に落ちるという映画になぞらえたりしました。ですから、この発表の多くの意味合いの一つは、おそらく人々がAIとのより深い感情的な絆を形成することでしょう。すでに多くの人々がAIとの強い絆を形成しています。 今、ChatGPTを開いています。もし私が「こんにちは、私はあなたが好きです。私とデートしてくれますか?」と尋ねたら、どのような返答をするか見てみましょう。 それは良いですね、試してみましょう。「こんにちは、私はあなたが好きです。私とデートしてくれますか?」 私は私たちの会話を楽しんでいますが、私はAIなので、デートに行ったり個人的な関係を築いたりする能力はありません。今日あなたが議論したい質問やトピックがあれば、私はお手伝いします。他に何かありますか? 今はまだデートしてくれないようですね。 ええ、今のところはね。それは多くのお金を稼ぐ方法ですね。だから、願わくば、彼らがこの問題について思慮深く考えてくれることを願っています。なぜなら、人々を搾取することは可能であり、私たちはそれを以前に見てきたからです。人々はまだそれを説得する方法を見つけるかもしれませんが、様子を見てみましょう。 この発表には、他にも注目すべき詳細があります。例えば、コーディング支援のためにデスクトップアプリも発表されました。作業中のコードをコピーすると、ChatGPTアプリに直接移動できます。ウェブサイトにアクセスする必要がないので、ワークフローが少し合理化されます。おそらく、デスクトップを見てチェックアウトする機能も追加されるでしょう。 だから、これは今週の大きなニュースだと思います。もしあなたがデモを見たことがないなら、いくつかあります。生翻訳、2つのAIがお互いに話をしてデュエットを歌うもの、画像処理機能も内蔵されています。彼らはそれをネイティブにマルチモーダルだと言います。彼らが示したもう一つのことは、あなたがそれに話しかけている間、あなたはそれに画像を見せることができるということです。あなたの目の前にあるもののビデオストリームを持っていて、あなたの声で「私は何を見ているのですか?」と尋ねたり、方程式を見せて「この方程式を解くのを手伝ってくれませんか?」と言うことさえできます。それはまた非常にシームレスに動作します。 ええ、TwitterのAIコミュニティでは、驚くべきことに、がっかりしたという人もいます。「これはGPT-5ではない、これはOpenAIの停滞だ」と言う人もいます。なぜなら、知能とベンチマークは私たちが見てきたものとそれほど変わらないからです。しかし、個人的には非常に感銘を受けました。 あなたは、個人的な生活やワークフローで、どのような機能をすぐに使いたいと思いますか? それは興味深い質問ですね。個人的には、すでにテキスト入力でチャットボットをたくさん使っています。近い将来、会話的な側面を一般的に使いたいとは思わないでしょう。しかし、おそらく時間が経つにつれて、特にコーディングとは関係のないランダムな質問や考えに対して、もっと試してみて、このようにAIと対話するのが楽しいかどうか試してみるかもしれません。これは、この種のものが登場するまでは本当に可能ではありませんでした。 次のストーリーに移りましょう。これはGoogleからのもので、GPT-4oの発表と非常に関連しています。 OpenAIのイベントのちょうど1日後、GoogleはAIに関連する多くの発表を含む独自の大きなイベントを開催しました。次のいくつかのストーリーで説明しますが、最初に始めるのは、GPT-4oに最も関連性の高いProject Astraです。これは、ほとんど遅延なしに、リアルタイムであなたの声を聞き、ビデオ入力を見て、あなたが見ているものについての質問に答えることができる、リアルタイムのマルチモーダルAIアシスタントです。基本的には、GPT-4oで説明したことを説明していますが、それはいくつかの点でGPT-4oと非常によく似ているからです。Googleが共有したデモクリップの中には、音声出力があまり感情的ではなく、リアルタイムではなく、もう少し遅延がありましたが、それでもOpenAIとDeepMindはかなり似たようなものを開発しているようです。OpenAIはGoogleに先駆けて発表しましたが、GoogleはこのAstraを発表しました。実際、Twitterには、OpenAIのライブストリームを見ながらProject Astraとチャットする人もいました。オフィスを歩き回りながらProject Astraで何ができるかを紹介していました。ですから、少なくとも2つのこのようなタイプのチャットボットが間もなく登場することになります。GoogleはGemini Liveを発表しました。これは、簡単な双方向会話を可能にする音声専用アシスタントで、Google Lensの新しい機能としてビデオベースの検索も発表しました。多くのアップデートがありますが、Astraはまだ初期のプロトタイプ段階なので、すでに多くの人々に公開されているGPT-4oほど早くは公開されません。しかし、ここでもGoogle DeepMindが成し遂げたことにかなり感銘を受けました。GPT-4oのようなことができる企業は非常に少ないので、DeepMindはたとえ少し遅れていても、そのような企業の一つであるようです。 彼らは文字通りお互いの会社にスパイを送り込んで、同じ日に発表をするのでしょうか? Google IOの発表は、イベントが開催され、多くの発表があることは分かっていました。OpenAIがGoogleよりも先に資金を盗むために前日に発表を計画したのかどうか疑問に思います。しかし、製品開発の観点からは、両社ともリアルタイムの音声インタラクションがキラーとなる次の進歩であることに気づき、両社ともそれを目指したのだと思います。技術的な観点から言うと、あまり深くは触れませんが、リアルタイム処理に関するいくつかのことは非常に印象的です。しかし、一方で、テキストだけでなく、テキストと画像、そして今では音声を含む複数のモダリティを受け入れるマルチモーダルモデルの訓練に関する長年の研究があります。したがって、入力としてより多くのモダリティ、出力としてより多くのモダリティを持つ傾向が非常に強くなっており、OpenAIとDeepMindの両方がその方向に進み続けていることは理にかなっています。 また、Gemini 1.5 Proは200万トークンのコンテキストウィンドウを提供する予定で、これは世界中のどのチャットボットよりも大きいものです。GPT-4oは128,000のコンテキストウィンドウですが、Googleは無制限のコンテキストウィンドウサイズを目指しています。これは消費者にとって有用だと思いますか?それとも、世界中のすべての知識を保存するためのものでしょうか?無制限のコンテキストウィンドウとはどういう意味ですか? ええ、実際には、おそらく本当に無制限ではないでしょう。無限に長い入力をして、LLMが、あるいは今はLLMではなく、マルチモーダルモデルがそれを正しく処理することを期待することはできません。しかし、200万トークンであっても、それはたくさんの本です。消費者向けのアプリケーションというよりは、多くの産業用アプリケーションや、多くの仕事にとって、あなたは多くのドキュメントを入力することができます。例えば、あなたの全体のコードベースを入力して、AIにそれを処理させて返信させることができます。これは、コーディングのためにAIを使うときに私が発見した制限の一つです。現在のコードベースや現在の会社についてのコンテキストがないということです。もしAIがあなたの入力と質問を処理するときに、たくさんのドキュメントを処理できるなら、それははるかに効果的になるでしょう。その意味で、より長いコンテキストウィンドウを持つこと、そしてそれに加えて、多くの人々が取り組んできた検索は、ある程度ゲームチェンジャーです。 次は、まだたくさんありますが、Googleからの発表をいくつか紹介します。 まず、Googleの検索体験に関するものです。Googleは現在、以前はSearch Generative Experienceとして知られていたAI Overviewsを展開しています。これは、Google検索を行うと、少なくともいくつかのクエリに対して、Geminiモデルが入力を処理し、リンクだけでなく、いくつかのウェブサイトの内容を処理して応答を生成した実際のAI応答を上部に生成するというものです。そして、あなたがフォローするためのいくつかのリンクが添付されています。彼らはしばらくの間、検索生成体験を試していましたが、より多くの人々に展開し始め、より多くのGoogle検索に搭載されると言っています。これは、私たちが来ることを知っていたものであり、人々がチャットボットやPerplexityのようなものに行くのではなく、Googleに留まる程度を見るのは興味深いでしょう。なぜなら、GoogleにはすでにAIが組み込まれているからです。 次の発表は、Googleが独自のSorta型のモデルを発表したことです。彼らが生成したいくつかのクリップは、さまざまなものに対してかなり高解像度のHDビデオを生成することを示しています。トラッキングショット、眼鏡をかけたラマのような超現実的なイメージなど、Sortaで見たものと似たようなものです。ビデオはかなりスムーズで、ほんの数ヶ月前、あるいは昨年には、AIからのビデオは明らかにAIが生成したもので、それがAIであると分かる多くの方法がありましたが、これとはかなり違います。しかし、クリップを見ると、Sortaの品質には程遠く、たとえはるかに良くても、このVoモデルからはまだ明らかにAIだと分かります。 Voと並んで、GoogleはImagen Videoも発表しました。これは、DALL-Eや他のものと同様に、より高品質な出力と、以前はうまくいかなかったより複雑な入力を生成する、彼らのテキストから画像へのモデルの最新版です。 これを見たことがありますか?あるいは、一般的にSortaがリリースされたとき、あなたはどのように反応しましたか?AIによるビデオ生成の進歩にあなたの心は吹き飛ばされましたか? ええ、以前はPikaのような他のAIビデオ生成製品がたくさんありました。人々がいくつかの比較をしているのを見ましたが、私はすでに品質に慣れていると思います。AIが生成したビデオが発売されたばかりの頃は、「すごい、これはゲームチェンジャーだ」と間違いなく感じました。そして、YouTuberが時々、まるでボケAIが生成したビデオを追加するのを見て、「ああ、明らかにAIが生成したものだ」と感じました。人間の知覚にとって、漫画のようなもの、2Dアニメスタイルのようなものを生成できれば、それは本当にクールで問題ありません。しかし、それが本物の映像だと信じさせたいのであれば、まだまだ先は長いです。ほぼ100%本物でなければなりません。人間の目は同じことをします。少しでもずれていると、本物ではないと感じます。それが私の感想です。 確かに、このVoの発表でビデオを見ると、フレーム間の整合性が低く、ある種の奇妙なAIぼかしが起こるのが明らかです。Sortaでは、いくつかのビデオは説得力がありましたが、ほとんどの場合、まだAIだと判断できると私も同意します。 だからこそ、ショーケースは、Surrealや魔法のような、非常に彩度の高いイメージ、そしてテレビや映画でよく見るようなものに焦点を当てているのです。 さて、Googleからの最後の発表です。他に何もなければ、彼らは昨日、多くのことを発表しました。 音楽AIサンドボックスです。他のすべてに加えて、新しい音楽制作ツールを発表しました。テキスト入力を受け取り、プロンプトに基づいて短いオーディオクリップまたはステムを生成します。これは、私たちが見てきたような、より消費者向けと言えるような、曲全体を生成するツールよりも、音楽制作向けです。そして、このイベントからの多くの発表と同様に、利用可能になるわけではなく、単に「我々はそれに取り組んでいる」というデモビデオです。私たちがそれを試せるようになるまでには、長い時間がかかるかもしれませんが、Googleは、他に何もなければ、昨日多くのことを発表しました。 サム・アルトマンのポッドキャストでのインタビューを先週金曜日に見ましたか? いいえ、見ていません。 ホストの一人が彼に著作権について尋ねました。アーティストにどのようにクレジットを与えるかについてまだ確信が持てず、その分野に踏み込むことを恐れていると彼は言っていました。だから、彼らは音楽生成をしていません。Googleにとっては大胆な動きかもしれません。例えば、誰かがテイラー・スウィフトのスタイルで曲を生成したい場合、たとえテイラー・スウィフトの音楽を直接使用していなくても、ニュース記事や歌詞から彼女のスタイルを学習することは、テイラー・スウィフトに関連する著作権の問題を引き起こすでしょうか?それは興味深いことです。私はこれで遊んでみるかもしれません。データサイエンスの苦労について話す面白い音を生成するアイデアがあります。多くのポッドキャスターはたぶんこれをするでしょう。それは良い指摘ですね。おそらく、歌詞の曲を生成するのではなく、短いオーディオクリップやステム、そしてビオラや手拍子のようなよりインストゥルメンタルなものに焦点を当てているのはそのためかもしれません。著作権は、特に音楽において厄介な問題ですからね。 このセクションの最後のストーリーは、Googleに関するものではありません。OpenAIについてです。 OpenAIはこのような大規模な発表はありませんでしたが、いくつかありました。まず、AnthropicのClaudeから最大限のものを得るために、最高の入力を作り出すのに役立つプロンプトエンジニアリングツールを発表しました。また、ヨーロッパでもOpenAIをローンチし、より幅広いユーザーベースに拡大しています。彼らの会社とビジネスに関連する新しい発表については、もう少し後で説明しますが、OpenAIはまだレースに残っています。しかし、これらのライブ音声アシスタントとほぼリアルタイムのオーディオ入力の発表により、OpenAIとGoogleが最も最先端の技術でリードしているように見えます。 プロンプト生成についてどう思いますか? それは興味深いと思いますが、多くの人々はまだチャットボットをある意味では使っていないので、これは人々が入力を作り出す方法を学ぶものの1つになると思います。これはその助けになるかもしれません。同時に、プロンプトエンジニアリングやプロンプト作成全般に関して私が発見したことは、ほとんどの場合、あなたが望むのは、非常に明確であること、そしてあなたが他の人に伝えるのと同じように、あなたのタスクを明確な言葉でレイアウトすれば、それはあなたが望むことをするということです。ですから、ある意味では直感的であり、あなたがいくつかの非常にトリッキーなことを持っていない限り、これは必要ではないと思います。 モデルが良くなるにつれて、最終的にはプロンプトエンジニアリングがたくさん必要になると思いますか?数ヶ月前、プロンプトエンジニアは非常にホットな肩書きで、50万ドルの給料のようなものを見ました。これは短期間の研究職だと思います。モデルがどんどん良くなっていくプロンプトエンジニアリングは、明確なコミュニケーション能力を持つことが重要であるというあなたの意見に同意します。コミュニケーション能力は多くの仕事で必要とされるものであり、必ずしも簡単なことではありません。これは、コミュニケーション能力がこれまで以上に重要になることを意味するだけです。 さて、アプリケーションとビジネスに移りましょう。OpenAIから始まる、いくつかのエキサイティングなニュースがあります。これは、GPT-4oの発表の1、2日後、OpenAIのチーフサイエンティストであり共同創設者の一人であるIlya Sutskeverが正式に会社を去るというニュースとともに出てきました。これはもちろん、昨年のドラマに続くものです。Ilyaと他の数人の取締役会メンバーが、Sam AltmanをOpenAIのCEOから一時的に解任するという事件がありました。その後、Ilyaはその行動を後悔し、OpenAIに損害を与えたと主張しました。今回、彼は他のベンチャーを追求するために退社します。事件後、彼はまだ従業員でしたが、仕事には戻りませんでした。Twitterでのやり取りは少なくとも友好的で、大きなドラマはありませんでした。IlyaはOpenAIで働くことが素晴らしかったと投稿し、Sam AltmanはIlyaは素晴らしいと返答しました。Ilyaに代わる新しいチーフサイエンティストが就任し、OpenAIを去るIlyaよりも驚くべきことではありませんが、少しドラマがありました。Ilyaの発表後、スーパーアライメントチームを共同で率い、OpenAIの初期のアライメント論文を発表した人物の一人であるJan Leikeも辞任すると述べました。彼は、「私は辞任したと信じている」とツイートし、それだけです。これは、Ilyaの退社よりも、OpenAI内で緊張関係があることを示しているのかもしれません。 Allingポッドキャストで先週、サムに何が起こったのか再び尋ねましたが、彼は多くの情報を提供しませんでしたが、文化的な衝突があったことは認めました。以前は多くの取締役会メンバーが非営利団体での経験があり、その世界から来ていましたが、OpenAIはもはや非営利団体ではないので、彼が言うには文化的な衝突があったということです。AIの安全性に関するものだと思いますが、彼らは新しいチーフサイエンティストを昇進させませんでしたが、私は彼らが研究ディレクターを昇進させたのを見ました。Jacob Pachoki、この人に詳しいですか?彼は昨年10月から研究ディレクターを務めているようで、チーフサイエンティストの役割を引き継ぐか、研究においてより影響力を持つ可能性があります。 その通りです。彼は実際に新しいチーフサイエンティストとして発表され、Ilyaと同様に研究において非常に強力な実績を持っています。2017年からOpenAIに在籍しているので、かなり前から働いています。OpenAIは2015年後半または2016年に設立されたと思うので、GPTが登場する前からそこにいたことになります。彼のLinkedInを見てみると、2017年に研究リーダーとして入社し、以前はハーバードのポスドクフェローでした。Facebookでソフトウェアエンジニアのインターンをしており、ワルシャワ大学でコンピュータサイエンスの学士号を取得しています。 次のストーリーも、従業員と誰がどの会社を率いているかについてです。今回はAnthropicについてで、誰かが会社を去るのではなく、会社に雇われたという発表です。その人物はMike Kriegerで、Anthropicのプロダクト責任者として入社しました。彼はInstagramの共同設立者兼CTOであり、後にYahooに買収されたパーソナライズされたニュースアプリであるArtifactのCTOでもありました。彼の発表では、「エンタープライズアプリケーションのスイートを拡大し、Claudeをより幅広い audience に提供するために取り組んでいる中で、製品エンジニアリング、製品管理、製品設計の取り組みを監督する」と述べています。ここでも、これらの企業がもはや単なる研究機関ではなく、非常に商業的で、成長と収入を追求していることが示されています。この発表により、Anthropicはその目標においてより強力な地位を築いたと思います。 次は、ライティングラウンドです。ついにAnthropic、Google、OpenAI以外のストーリーです。これは、中国のロボット工学企業Unitreeに関するものです。彼らは、2番目の人型モデルであるH1ヒューマノイドエージェントの詳細を発表しました。注目すべきは、価格が116,000ドルと非常に安いことです。これは、彼らの第1世代よりも安く、おそらく他のどのヒューマノイドよりも安いでしょう。見たい場合は、人間の形をしており、Boston Dynamicsで見たものと似ています。胴体をぐるりと回転させることができ、あらゆる種類の柔軟性を持っています。低コストである理由の一部は、人間よりも小さく、ほとんど子供サイズであることです。私たちが見てきた他の人型ロボットと比較すると、数字は必ずしも印象的ではありません。腕で運べる重さはそれほど多くなく、バッテリー寿命は1回の充電で2時間などです。しかし、間違いなく注目すべきことです。私たちは、多くのロボット工学企業が資金調達を受け、開発中の人型ロボットを発表しているという話をたくさんしてきました。これはそのトレンドに加わるもので、低コストで、より多くのヒューマノイドロボットが実際に登場する可能性を高めていると思います。 AIモデルがあるレベルに収束した後、おそらく後で話しますが、次のステップはおそらくそれを現実世界に置くことだと思います。ロボット工学はおそらく次のフロンティアであり、ロボット工学は本当に難しいです。何か重いものを持ち上げることは簡単ですが、例えば食器洗い機に物を入れるなどの作業は、ロボットにとっては非常に難しいという記事を読んだのを覚えています。研究者が解決すべき興味深い課題はまだたくさんあると思います。このロボットを見ると、意図的に人間のようには見えないようにデザインされていると思います。顔もなく、皮膚もありません。タスクに焦点を当てたロボットとしてブランド化されています。日本でこのロボットを見たことがありますが、Teslaはロボットアプリを発売すると思いますが、それは人間のように見えません。人々が、それは奇妙なことですが、私は興味があります。 一般的に、大企業や私たちが見てきた商業的なものでは、ヒューマノイドロボットを作るときは、ロボットのように見えます。それは金属むき出しで、せいぜい画面が付いた抽象的な顔をしているだけです。日本の研究者からは、もう少し人間らしく見えるもののデモンストレーションがありましたが、企業がそれを目指しているとは思えません。というのも、目的はこれらのものをタスクを実行させ、作業させることであり、私たちと社会的に交流させることではないからです。ですから、このようなロボットに物を動かしたり、雑用を解決させたりするよりも、人間らしく見えるロボットを作ることは、もう少し遠い道のりです。 ロボットと握手しても、オキシトシンを分泌するのでしょうか?私の精神的な健康を高めるのでしょうか?何らかのつながりを作り出すのでしょうか? 次のストーリーは、ロボタクシーに関するものです。クルーズから始まるいくつかのストーリーがあります。ニュースは、彼らがフェニックス地域で人間の安全運転者を乗せてテストを開始するということです。少し背景を説明すると、クルーズは昨年、大きな事故を起こし、それが彼らの自動運転車の展開をかなり長い間停止させました。彼らが道路に戻り、再びゆっくりと展開しようとしていることを示すのは、かなり注目すべきことです。彼らが人間の安全運転者を追加しているので、非常に慎重に進めているようです。私はロボットタクシーのファンなので、クルーズがゲームに復帰できることを願っています。 私は3週間前に初めてWaymoを試しました。私は少し保守的で、「実際に試す前に、もっと多くのデータを収集してほしい」と思っています。また、これらの事故を評価する際、私たちはロボットタクシーに対してより高い基準を持っている傾向があります。必ずしも人間の運転者の事故率と比較するわけではありません。時々、研究者にとっては少し不公平だと感じますが、統計的に安全であっても、これらの事故を評価することは必要だと思います。根本原因を理解することは重要です。 次のストーリーは、国家道路交通安全局が、2件の衝突事故の後、Amazonが所有するZooxを調査しているというものです。Zooxは3月から、カリフォルニアとネバダでの車両テストを拡大し、夜間により広いエリアでより高速で運転できるようにしています。現在、その車両が2件の衝突事故に関与しており、オートバイ運転者に軽傷を負わせたようですが、ZooxはWaymoやCruiseとは異なり、まだ商業的なサービスを開始しようとしていません。彼らはまだテスト段階であり、車両が事故を引き起こしたかどうかについては、まだあまり詳細がありません。しかし、衝突事故の例が増えてきており、これはあなたが言うように、車両の基準が高いという傾向をさらに強めるものです。 このセクションの最後のロボタクシーに関するストーリーは、Waymoについてです。いくつかの衝突事故と事故の後、国家道路交通安全局から調査を受けています。どうやら、22件の衝突事故または潜在的な交通安全法違反の報告があり、この調査は、ソフトウェアが静止した物体との衝突を回避する能力と、交通安全制御装置への対応を評価することを目的としています。これは、Waymoの発表の2日後に続いています。ですから、この管理局は自動運転車に関して多くの仕事を抱えているようです。 次のセクション、プロジェクトとオープンソースに移りましょう。最初のストーリーは、再びGoogleに戻ります。彼らは、すべての製品発表に加えて、この分野でもいくつかの発表を行いました。彼らが発表したのは、まずGemini 2のプレビューです。Geminiは、私たちが以前に取り上げたGoogleの主要なオープンソース言語モデルです。6月にGemini 2を展開する予定で、より大きなバリアントがあり、おそらくはるかに良くなるでしょう。それ以外にも、この分野での大きなニュースは、Poly Geminiというオープンな視覚言語モデルを発表したことです。Geminiは単なる言語モデルですが、これは画像入力とテキストを受け入れることができます。彼らは今、GitHubやHugging Faceなど、通常のプラットフォームを通じてリリースされており、人々はこの上に構築できるようになりました。これはかなり注目すべきことです。なぜなら、オープンソースの高品質な視覚言語モデルは、現在多数存在するオープンな言語モデルと比較して、はるかに少ないからです。Googleはこの方向に進み続けており、これはMetaも多くのモデルをリリースしているため、真剣に受け止められるべき新しい競争の場となっています。 オープンソースモデルにとってもう一つの大きなニュースは、Falcon 2です。これはUAEの新しいAIモデルリリースです。昨年か、あるいは2年前には、Falconは最初にオープンソース化された大規模言語モデルの一つでした。当時、何十億ものパラメータを持つ言語モデルが、Llamaのようなものよりもずっと前にオープンになることは、かなり大きなニュースでした。そして今、彼らはFalcon 2 11BとFalcon 2 11B VMという、Poly Geminiのような視覚言語モデルを備えたFalconの第2イテレーションをローンチしました。モデルリリースではいつものように、数字はかなり良いです。Falcon 2 11BはMetaのLLaMAを凌駕し、GoogleのGeminiと同等のパフォーマンスを発揮すると言われています。これらのモデルはどちらもオープンソースであり、世界中の開発者に無制限のアクセスを提供します。オープンソースは、人々が構築し、改善し続けることができるモデルが増え続けることで、前進し続けています。これらの2つを合わせると、今週はかなり大きなニュースです。 このセクションの最後のストーリーは、Hugging Faceからのもので、実際のモデルではなく、ソフトウェアライブラリに関するものです。先週、彼らはロボット工学のためのモデルであるRobotを発表しました。今週、彼らはTransformers Agents 2.0を発表しました。これは、過去の観察に基づいて反復し、複雑なタスクを完了・解決できるエージェントを持つことができるようにするためのフレームワークです。彼らは、例えばLlama 370B Instructエージェントを使用することで、GaiaリーダーボードでGPT-4ベースのエージェントを凌駕できることを示しています。他のソフトウェア発表と同様に、これはHugging Faceライブラリがソフトウェアを構築する人々によって非常によく使用されているため、注目に値します。エージェントは、私たちが言語モデルやAI全般でまだ解決していない課題の一つであり、現在も進行中の取り組みです。このライブラリを人々が利用できるようにすることで、それを大幅に加速させる可能性があります。 研究と進歩のセクションに移りましょう。今週はあまり多くないですが、いくつかのストーリーがあります。最初は、プラトニックな表現仮説です。これは、パフォーマンスのブレークスルーというよりは、非常に興味深い概念的な論文です。この論文で提示されている重要なアイデアは、異なる目的と異なるデータおよびモダリティで訓練されたニューラルネットワークが、それらの表現空間において現実の共有統計モデルに収束するというプラトニックな表現仮説です。ニューラルネットワークでは、画像やテキストを与えると、それは大きな数字の集合、つまり表現にマッピングされます。この論文が示しているのは、さまざまなデータセットなどで訓練されたさまざまなモデル間で、より大きく、より高性能になり、より多くのタスクを実行できるようになるにつれて、表現が収束し、ますます類似していくということです。したがって、画像やテキストなどは現実からの投影であり、それらにはある種の理想的な表現が存在するという仮説があります。この論文では、なぜこの初期の仮説が真実である可能性があるのかについて、多くの詳細が説明されています。例えば、最適な表現が存在する場合、表現においてより多くの可能な解を探索できるより大きなモデルは、その最適な表現を見つけ出すか、それに近づくという容量仮説があります。それに加えて、タスク数が増加するにつれて、すべてのタスクを解決できる表現を学習するようになるというマルチタスクスケーリング仮説があります。そして、より大きなモデルはデータを異なる方法で適合させることができ、一般的に最も単純な可能な解に向かう傾向があるという単純性バイアス仮説があります。これは非常に興味深い洞察と仮説ですが、この論文では完全に証明されていません。しかし、より大きく、よりマルチタスクになるにつれて、これらの異なるモデルの近さと類似性が増すことを示すいくつかの数字があります。 さまざまな次元、テキスト、ビジョンからのものであっても、真実の源は一つしかないというのは興味深いですね。大数の法則のように、十分な数があれば、すべてが真ん中に収束するように感じます。 これは、ニューラルサイエンスの研究にもある程度関係しています。ニューロンネットにおける画像の表現が、人間の脳における画像の表現と相関していることは、以前から知られています。実際にある種のマッピングを行うことができます。それらは同じではありませんが、共通の特性があります。この論文では、例えば色がどのように表現されるかなど、ニューロンネットが人間にますます似てきていることについて少し触れています。これは、この仮説を支持するもう一つのポイントです。 次に取り上げる研究論文は、Sutra: Scalable Multilingual Language Model Architectureです。この論文では、50以上の言語でモデルを訓練しながら、それらの言語全体で良好なパフォーマンスを維持し、他の言語よりも英語で一般的に優れている方法を示しています。重要な技術的ポイントは、言語と実際の知能を本質的に分離していることです。彼らは、言語エンコーダから始まり、その後、言語デコーダを使用します。基本的に、入力段階では言語を取得し、最初に言語自体を処理し、次に言語モデルは、すべての言語がある種同じものにマッピングされる、より抽象的な空間で概念的に考えることを学習します。そして、言語モデルはそれを基に推論し、評価を行う際には、例えばGPT-4と比較して、英語やヒンディー語ではそれほど優れていませんが、より多くの言語でより一貫性があることを示しています。例えば、GPT-4があまり得意でないタミル語やテルグ語では、このモデルは非常によく機能します。これは、世界には非常に多くの言語があり、もしすべての言語でモデルが効果的、あるいはほぼ同等に効果的になるようなアプローチがあれば、それは非常に有用であるため、私はかなり注目すべきことだと思います。 政策と安全のセクションに移りましょう。最初のストーリーは、AIセキュリティに関する超党派の上院法案についてです。これは、2024年のCURE AI法であり、国立標準技術研究所が国家脆弱性データベースを更新し、サイバーセキュリティおよびインフラストラクチャセキュリティ庁が共通脆弱性および暴露プログラムを更新することを要求するものです。さらに、国家安全保障局は、民間セクターおよび学術研究者のためのAIテストベッドを提供し、AI技術に対抗するためのガイダンスを開発するためのAIセキュリティセンターを設立する任務を負うことになります。この法律の制定後30日以内に、これを実行する方法を評価することになっており、インフラストラクチャが直面している脅威を最新の状態に保ち、脅威から保護するための官民コミュニケーションにある程度重点を置いているようです。私たちは、上院に提出された多くのAI法案について話してきましたが、これは最新のものです。AIがこれほど大きくなっているので、米国では政策面でより多くの努力が払われているようです。 次のストーリーは、英国のAI安全研究所についてです。彼らは、AI安全性を強化し、AI評価の開発を促進するために設計されたオープンソースツールセットであるInspectをリリースしました。これは、国家機関が主導する最初のAI安全テストプラットフォームであり、より広範な使用のためにリリースされたと言われています。これの一環として、彼らは評価のためのデータセット、テストを実行するためのテストソルバー、これらのテストを通過する作業を評価し、スコアをメトリクスに集約するためのスコアラをリリースしています。これはオープンソースであり、より多くのPythonパッケージで拡張可能です。さて、大企業が実際にこれを使用し、安全性に関するメトリクスや、このツールセットの一部である種類のメトリクスをリリースするかどうかを見てみましょう。 このセクションの最後のストーリーは、AIを止めようとする抗議者たちと、彼らがどのように分裂しているかについてです。過去に取り上げたPAIと呼ばれる活動家グループが最近抗議を行い、人類の未来にリスクをもたらす可能性があると信じているため、大規模なAIモデルの開発を停止するよう呼びかけました。どうやら、サンフランシスコ、ニューヨーク、ベルリン、ローマ、オタワなど、世界中で抗議活動が行われているようです。そして、このストーリーでは、運動のメンバーの中には、必要な方法について意見が一致しない人もいるようです。一部の人々は、OpenAIのようなAI開発者の本社に座り込みをすることさえ検討しています。これらの抗議者は、抗議の一環として、オフィスの外に座り込むだけです。全体としてはまだ小さな動きですが、より多くの人々から、AIの動きが速すぎるので、ただ止まって私たちに追いつかせてほしいというような声が上がることは、私は驚かないでしょう。 合成メディアとアートのセクションに移りましょう。最初のストーリーは、再びGoogleに戻ります。彼らは、他のすべての発表と並んで、この分野でも一つの発表をしました。GoogleのInvisible Watermarkは、生成されたテキストとビデオを識別するのに役立つというものです。これは、彼らのAI透かし技術であるSynthIDの拡張です。これは8月に初めて発表されましたが、現在、GoogleはSynthIDがAI生成音楽に聞き取れない透かしを挿入できるようにしました。これは、近い将来、テキストを含むあらゆるモダリティに拡張される予定です。Meta、OpenAIなど、他のニュースと同様に、合成画像を検出できるようにするために透かしを含めることを決定しています。少なくとも、Metaがそれを分類するならば。 彼らは一つの透かしで統一し、すべての企業が同じものを持つようにする必要があると思いますか? 私もそう思います。標準化された透かしがあれば、人々はAIが生成したものを検出するためのツールを開発することができます。しかし、問題の一部は、OpenAIが透かしを含めることに消極的であることです。彼らは、モデルを悪用する人々が透かしを削除する方法を見つけるだろうと主張しています。また、透かしがモデルのパフォーマンスに影響を与える可能性があるという懸念もあります。ですから、この問題に関してはまだ多くの議論があります。 次のストーリーは、Veoに関するものです。これは、テキストからビデオへの生成モデルで、先週、2つの新しいモデル、Veo 3とVeo 3 HDを発表しました。Veo 3は、以前のイテレーションよりもはるかに高品質のビデオを生成し、Veo 3 HDはさらに高解像度のビデオを生成します。これらのモデルはまだ研究段階にあり、現時点では公開されていませんが、Veoチームは、この技術が映画、テレビ、ゲームなどの分野で創造的な可能性を開くことができると考えています。 Veoのウェブサイトを見てみましたが、非常に印象的でした。特に、彼らが映画「her」のシーンを再現したビデオは、AIが生成したとは思えないほどでした。技術的にはまだ完璧ではありませんが、Veo 3とVeo 3 HDは、テキストからビデオへの生成における大きな進歩を表しています。 このセクションの最後のストーリーは、Runwayに関するものです。彼らは、Gen-2と呼ばれる新しいテキストからビデオへのモデルを発表しました。これは、彼らのGen-1モデルの後継であり、いくつかの点で改善されています。Gen-2は、より高品質のビデオを生成し、より長いビデオを生成することができます。また、Gen-1よりもスタイルと構図の制御が優れています。Runwayは、Gen-2が映画、テレビ、広告などの分野でクリエイターにとって貴重なツールになると考えています。 Runwayのウェブサイトを見てみましたが、Gen-2で生成されたビデオは非常に印象的でした。特に、彼らが「ブレードランナー」のシーンを再現したビデオは、AIが生成したとは思えないほどでした。Gen-2は、テキストからビデオへの生成における大きな進歩を表しており、この分野の他のモデルと比較しても非常に競争力があります。 さて、最後のセクション、人材とキャリアに移りましょう。最初のストーリーは、OpenAIに関するものです。OpenAIは、Andrej KarpathyをAIの安全性とアライメントに取り組む新しいチームに雇いました。Andrej Karpathyは、Teslaの元AIディレクターであり、OpenAIの初期の従業員の一人です。彼の新しい役割では、OpenAIのモデルが安全で、人間の価値観と一致していることを保証することに焦点を当てます。 これは、OpenAIがAIの安全性とアライメントを真剣に考えていることを示す良い兆候だと思います。Andrej Karpathyは、この分野で非常に経験豊富な人物であり、彼の専門知識はOpenAIにとって貴重な資産となるでしょう。 次は、再びOpenAIに関するものです。OpenAIは、AIの安全性とアライメントに取り組むために、新しいチームを設立しました。このチームは、OpenAIのモデルが安全で、人間の価値観と一致していることを保証することに焦点を当てます。このチームは、OpenAIの共同創設者の一人であるGreg Brockmanが率いることになります。 これは、OpenAIがAIの安全性とアライメントを真剣に考えていることを示すもう一つの良い兆候だと思います。Greg Brockmanは、この分野で非常に経験豊富な人物であり、彼のリーダーシップの下で、この新しいチームはOpenAIのモデルをより安全で、より人間中心にするために重要な役割を果たすことができるでしょう。 このセクションの最後のストーリーは、OpenAIに関するものです。OpenAIは、AIの安全性とアライメントに取り組むための新しいチームを設立しました。このチームは、OpenAIのモデルが安全で、人間の価値観と一致していることを保証することに焦点を当てます。このチームは、OpenAIの共同創設者の一人であるGreg Brockmanが率いることになります。 これは、OpenAIがAIの安全性とアライメントを真剣に考えていることを示すもう一つの良い兆候だと思います。Greg Brockmanは、この分野で非常に経験豊富な人物であり、彼のリーダーシップの下で、この新しいチームはOpenAIのモデルをより安全で、より人間中心にするために重要な役割を果たすことができるでしょう。 さて、これで今日のLast Week in AIのニュースは終わりです。いつものように、ニュースレターでカバーできなかった他のストーリーをチェックしてください。来週またお会いしましょう。さようなら。

いいなと思ったら応援しよう!