Last Week in AI 177 - Instagram AI Bots, FLUX.1, SAM2

2024年8月12日 12:43

先週、私たちはInstagramの新しいAI BOTを見ました。スクロールの中に隠された秘密をすべて明らかにします。メタスタックは輝いており、その日を分割しています。森が最後に、彼らは先頭に立っています。
こんにちは、最新のLast Week in AIエピソードへようこそ。ここではAIに関する最新情報についてお話しします。先週の最も興味深いAIニュースについて要約し、議論します。いつものように、このエピソードでカバーしなかった内容についてはlastweek.aiをご覧ください。
私はホストの1人、アンドレ・カルパシーです。スタンフォード大学でAIの博士号を取得し、現在はシリコンバレーの生成AIスタートアップで働いています。今週は、ジェレミーではなく、赤ちゃんと家の購入の準備で忙しいので、再び素晴らしいゲスト共同ホストのジョン・クロンをお迎えしています。
はい、こんにちは。もう1人のホスト、ジョン・クロンです。ジェレミーのように面白い天才になろうと最善を尽くします。コメンテーターの皆さんが言うように、簡単ではありませんが、少なくともカナダ人になることはできます。そうですね。
そうですね、ジェレミーの重要な要素ですね。AIの安全性についてもう少し言及し、地政学についても触れましょう。私は大きな技術オプティミストなので、破滅的な予測についてもちょうどいいバランスを取れると思います。
実際、私たち2人ともかなりの技術オプティミストだと思います。アンドレ・カルパシーの新しい一面を見たい方は、私のポッドキャスト「Super Data Science Podcast」のエピソード799をチェックしてください。そのエピソードのゲストがあなたなんです、アンドレ。少なくとも私は素晴らしい時間を過ごしました。あなたのことは言えませんが、サンフランシスコで直接会えて、サンフランシスコの美しい晴れた日に - これは当たり前にはできません - 一緒に撮影しました。
話題は計画していましたが、結局エピソードの大部分を人工知能（AGI）や、その直後に続く人工超知能（ASI）についての技術オプティミズムについて話し合うことになりました。私にとって最も好きなオンエアでの会話の1つです。
アンドレの経歴、このポッドキャストの作成方法、そして他の多くの制作物についてもっと知りたい方は、エピソードを聞いてください。あなたは本当にたくさんのことをしていて、クレイジーです。そして今もたくさんのことを続けています。Super Data Science Podcastのエピソード799で聞くことができます。
はい、もちろん説明にリンクを貼ります。ポッドキャストでは言い忘れたと思いますが、今が完璧な機会です。あなたが言ったように、このポッドキャストがどのように始まったか、何をしているかについて10〜15分ほど話し、そして他のトピックに移っていきました。AGIについても少し触れ、とても楽しい会話になりました。
そうですね、エピソードのもう1つの面白い点は、Last Week in AIを聞いているだけでは、あなたの日々の仕事についてあまり聞けないということです。かなりの時間を割いて話しましたので、それも興味深かったです。生成AIテキストからビデオゲームを生成するという、まさに驚くべきコンセプトについてお話しましたね。そちらで少しずつ解明されているようです。
ポッドキャストは私の人生の大きな部分を占めています。今では多分それが私の最も知られている活動だと思います。でも、『Deep Learning Illustrated』というベストセラー本も書きましたし、AIcompany Nebulaの共同創設者兼チーフデータサイエンティストでもあります。主な活動はそんなところですかね。
素晴らしいです。ニュースに入る前に、いつものようにプログラミングに関するお知らせを2、3させてください。残念ながら、前回のポッドキャストのエピソードは、私が忙しかったこともあり、少し遅れて公開されました。そのため、Llamaに関する大きなニュースは、本来なら1週間前に出るべきだったのですが、出ませんでした。今回はもう少し時間通りに公開するよう努めます。
Super Data Science Podcastでも同じことが起こります。私たちの制作サイクルでは、非常にタイムリーに出すのが難しいのです。あなたの方がずっと早いターンアラウンドタイムですね。私も先週の金曜日にLlama 3.1について出しましたが、あなたは土曜日に出しました。次のエピソードのホストを務めることになっていたので、その大きなリリースについて話せないことは残念でしたが、Llama 3.1 405Bのリリースは、ここ数ヶ月で最も重要なAIの出来事の1つだと思います。オープンソースのフロンティアモデルができたのは、かなり驚くべきことです。
そうですね、今年最も重要な出来事だと言えるでしょう。ぜひそれらを聞いて、私たちの見解や詳しい分析を聞いてください。
さらに2、3点お伝えしたいことがあります。いつものように、フィードバックをくださったリスナーの皆さんに感謝します。Cloud Sherpa ANLEさんから「幅広く深い内容」というレビューをいただきました。これは私たちが常に目指していることです。エピソードでは多くのトピックをカバーしているので、最後まで聞いてくださる方々に感謝します。
Apple Podcastで195件のレビューをいただいています。200件に増えるととてもうれしいです。丸い数字が好きなので。
YouTubeでAlien Forensicsさんから素晴らしいコメントをいただきました。質問も含まれていたので、リスナーからの質問は大歓迎です。質問は「Appleが最近、高度なAI機能とプライベートクラウドコンピューティングシステムの統合に注力していますが、これがAIのアクセシビリティとプライバシーの未来をどのように形作ると思いますか?」というものでした。
これはかなり重要だと思います。デバイス上での処理とプライバシーに重点を置いているのは、Appleの差別化要因の1つです。今後さらに強調されていくでしょう。OpenAIに送信する場合は、それに同意することになります。Googleもおそらく同様のアプローチを取り、できるだけデバイス上で処理するモデルを作ろうとするでしょう。プライバシーの点も強調して、差別化を図るかもしれません。
大手テクノロジー企業はすでに私たちのデータの多くを取得していますが、AIアシスタントについて話す場合、プライベートな会話や機密性の高い内容が訓練データに使われることを多くの人が心配し始めています。少なくともAppleに関しては、プライバシーを優先することは間違いないでしょう。これが現在のAppleの他の大手テクノロジー企業との最大の違いです。
Apple Intelligenceでは、ユーザーの許可があれば一部のリクエストをOpenAIに送信するそうですが、それは驚きでした。フロンティアモデルを作ることがいかに難しいかを示しています。Appleのような巨大で資金力のある企業でも、優秀な人材がたくさんいても、AIのフロンティアに簡単に追いつけるわけではありません。
数年以内に、フロンティアに十分近づいて、クエリを外部に送信する必要がなくなる可能性はあります。それはLlama 3.1のようなオープンソースモデルのおかげでもあるでしょう。ただし、おそらく特別なライセンスが必要になるでしょう。Llama 3.1のライセンスを確認していませんが、以前のLlamaライセンスのように、7億人以上のユーザーを持つ企業はモデルの重みを使用できないという制限があれば、Appleはその対象になるでしょう。
それでも、MetaとOkけを結んでそれらの重みにアクセスし、自社のインフラで実行する方が、OpenAIのような第三者にクエリを送信するよりも望ましいでしょうね。
実は、あなたのポッドキャストでのインタビューでも少しこの話をしましたね。AIを製品として扱うのではなく、AIを製品の機能として扱うことについて話しました。Appleのアプローチの特徴の1つは、GoogleやOpenAIのような汎用チャットボットを作るのではなく、iOS全体に深く統合された、より専門的なツールを提供することだと思います。これは彼らのアプローチのもう1つの重要な特徴で、おそらく賢明な戦略だと思います。
そうですね。最後の雑談になりますが、ここで缶ビールを開けてもいいですか?非公式の伝統になりつつありますね。
そうですね、楽しいですよ。前回と同じく、ノンアルコールビールです。ポッドキャスト中に飲酒はダメですよ、皆さん。
本当にAthletic Brewingからスポンサーシップを得なきゃいけませんね。
さて、ニュースに移りましょう。ツールとアプリから始めます。実は、最初の話題とうまくつながりますね。Apple IntelligenceがiOS 18の初期リリースに間に合わないそうです。iOS 18と一緒にリリースされると予想されていましたが、そうではないようです。9月のiOS 18リリースではなく、10月頃になるようです。その時点でも、Siriの最も重要な変更など、いくつかの機能が欠けているようです。
明らかに、GoogleなどのいくつかのA社が経験したような失敗を避けようと慎重になっているようです。Appleは一部の人から、AIゲームに参入するのが遅すぎると批判されていましたが、今となっては時間をかけて、できるだけ洗練されたものにすることは理にかなっていると思います。
Googleの大きなリリースを批判するのは簡単ですが、彼らの置かれた状況も理解できます。ChatGPTがリリースされる前は、Google DeepMindが世界最高のAI研究所だと考えられていました。そして突然、OpenAIが誰もが使用し、話題にするツールを作り出しました。そのため、GoogleはChatGPTのような機能を急いでリリースしなければならないというプレッシャーがあったのです。
Googleが批判された多くの問題は、実際にはモデルの重み自体というよりも、モデルのパッケージングの方法に関連していたと思います。潜在的に論争を呼ぶ可能性のあるクエリを送信すると、少し滑稽な方法で処理されるようになっていました。
最も顕著な例は、おそらく多くのリスナーがすでに知っていると思いますが、Google GeminiのテキストからIm生成ツーにで、人物を含む画像のGmを求めると、非常に多様性のある結果が得られました。ナチスやローマ教皇のような場合でも、民族的に多様な結果が出てきました。
これで多くの批判を浴びましたが、私はそれほど大きな失敗だとは考えていません。OpenAIに追いつこうと急いでいる中で、解決しなければならない課題の1つだったのです。むしろ、これらのツールが歴史的に優遇されてきたグループを偏重しないようにするための努力を示していると言えます。モデルの重みだけに頼っていたら、そうなってしまう傾向がありますからね。
Googleの歴史についてあまり深く掘り下げる必要はないと思いますが、AppleとGoogleの違いが浮き彫りになりますね。Googleは迅速にリリースしてAIのリーダーシップを示す必要があったのに対し、Appleはそもそもあまりがん知られていなかったので、少し遅れて参入するのは理にかなっていました。
そうですね、Appleはまさにその逆です。Appleはめったに特定の新機能の大きなイノベーターにはなりません。Appleが得意なのは、生成AIのような優れた個々の機能を取り入れ、1〜2年、場合によっては数年待って、技術が成熟し、オペレーティングシステムの他の機能とうまくパッケージ化する方法を見つけ出すことです。シームレスで美しく、致命的なエラーが発生する可能性が非常に低い体験を提供します。生成AIの場合、他の多くの機能と比べてはるかに難しいでしょう。生成AIの素晴らしさは、その幅広い有用性、扱える膨大な種類のクエリ、生成できる膨大な種類の出力にあります。
しかし、Appleのプロダクトマネージャーのように、通常は物事を厳密にコントロールして美しい製品体験を提供することに慣れている人にとっては、無限の範囲の可能性がある出力を扱うのは非常に難しいでしょう。
その通りです。彼らは絶対にAIに岩を食べるように言わせたりはしないでしょうね。そういう意味で、Appleがソフトウェア開発者にApple Intelligenceを初めて利用可能にする予定だということも別の側面です。今週にもiOSベータを通じて行われるそうです。明らかにテストを優先し、これをシームレスでバグのないものにすることに重点を置いていますね。
Siriが大幅にアップデートされるのが待ち遠しいです。10年前、Siriは会話型AIの最先端だったのに、今では基本的にif文に従っているだけで、非常に多くの可能性のある状況をハードコードしているだけです。大規模言語モデルで得られる無限の柔軟性には全く及びません。
大のAppleファンとして、Siriがアップデートされ、今日の生成AIに期待されるような会話体験をiPhoneで得られるようになるのが待ち遠しいです。
そうですね、それほど長く待つ必要はないでしょう。今年の終わりまでには、それらのApple Intelligence機能の一部が数ヶ月以内にアップデートされるはずです。
次の話題は、もう1つの大企業Metaについてです。AI Studioという新しいツールを発表しました。米国内の誰もが、InstagramやWebで自分のAIバージョンを作成できるようになります。
これは、セレブリティを対象に試験的に行った後の展開です。Kim KardashianやMr. Beastなどの有名人とチャットできる機能を導入しましたが、あまり普及しませんでした。基本的にその機能は廃止されつつあります。
今回はそれに代わるものとして、クリエイターや一般の人々が自分のAIバージョンを作成できるようにしています。Character.AIのように、実在の人物を含む任何のキャラクターのチャットボットバージョンを作成できるツールに似ています。
Metaの興味深い動きだと思います。どの程度普及するか見守る必要がありますね。
そうですね。正確にはどういう仕組みなのでしょうか?現在facebook.com...面白いことに、まだfb.comがFacebookのブログなんですね...のブログ記事を読んでいますが、よく分かりません。AIキャラクターを作成したら、誰がそれを使用できるのですか?Instagramの友達がチャットするのですか?あなたではなく、AIバージョンのあなたと?
制御できる部分があるようですね。クリエイターは自分のInstagramコンテンツに基づいてAIをカスタマイズし、避けるべきトピックを設定し、AIの返答を指定し、どのアカウントとAIが対話できるかを指定できるようです。
ユーザーが決められるような混合型のアプローチのようです。人気のInstagramアカウントの場合は、誰でもそのアカウントと対話できるようにするでしょう。人気のInstagramパーソナリティがこれを利用して、さらにエンゲージメントを高め、友達がこの間接的な方法で対話できるようにするかどうか、興味深いですね。
これが本当に普及するかについては、少し懐疑的です。このLlamaリリースの少し無理のある拡張のように思えます。Llama 3.1 405Bの作成には、おそらく1億ドル以上の莫大な資本が投資されたと思います。前回のLast Week in AIエピソードを聞けば、そのリリースについての詳細情報が得られます。
そして、投資家に対してその巨額投資の見返りを示さなければなりません。Metaは上場企業なので、投資家はモデルの重みをオープンソース化するだけでなく、投資収益を見たいと思っています。
「これによってAIの人材をMetaに惹きつけることができます。OpenAIやGoogleと並んでフロンティアにいるので、AIの最先端で働きたい人にとって、私たちは3番目または4番目の選択肢になります。また、モデルの重みを公開することで、社会貢献の良い気分も味わえます」という主張もできるでしょう。
また、競合他社の足元をすくう効果もあります。MicrosoftとのOpenAIの提携や、先ほど話題に上ったGoogle Geminiなどの大手プレイヤーに対抗するためです。オープンな重みを持つフロンティアモデルを作ることで、これらの企業の足元をすくっています。生成AIを商品化し、より自由に近づけることで、OpenAI/MicrosoftやGoogleが独自のLLMで利益を上げるのを難しくしているのです。
このツールについてもう1つ注目すべき点は、実在の人物だけでなく、もっと面白いキャラクターや柔軟なキャラクターも作れることです。例えば、シェフが作った「Eat Like You Live There」というボットがあり、地元のダイニングについてのパーソナライズされたアドバイスを提供します。
写真家が作った「What Lens Bro」というボットもあり、レンズの選び方についてアドバイスしてくれます。次のは気に入りました。ミームクリエイターが作った「Samy the Stress Ball」で、ストレスの多い仕事の日を乗り越えるのを助けてくれます。
本当に様々なボットを作ることができ、これはGPTストアを思い出させますね。OpenAIがしばらく前に立ち上げたもので、カスタマイズされたGPTを作成してチャットしたり、特定のトピックに特化させたりできます。ここでも同じようなアイデアのようです。
Instagramの影響力を考えると、モバイルのメッセージインターフェースを通じてこれらと会話できるので、GPTストアはある程度の牽引力を得て、より成功していると思います。もし実在の人物をベースにしたボットではなく、より専門的なボットで成功すれば。
なるほど、その追加のコンテキストを聞いて、確かにCharacter.AIに似ていますね。これは、FacebookそしてMetaの伝統を思い出させます。他の大きなスタートアップが何か面白そうなものを作ったり、Facebookやメタと競合する可能性がある場合、その会社を買収するか、同じような機能を自社で構築するのです。
今やReelsがInstagramで最も押されている機能になっていて、ここ数年そうですが、これはTikTokの模倣です。これはCharacter.AIの明らかな模倣のように見えます。まあ、それが競争というものですからね。彼らはこのアプローチで多くの成功を収めてきましたし、これからも同様のことが多く見られるでしょう。
そうですね。ライトニングラウンドに移りましょう。まず、Runwayが画像からビデオへの変換をGen-2に追加しました。Runwayは最近、Gen-2ビデオ生成モデルをリリースしました。最初はテキストからビデオだけでしたが、今では画像からビデオも可能になりました。
画像をアップロードして開始画像を指定し、モーションやテキストプロンプトを追加して、10秒間の動画を生成するようAIをガイドできます。LumaもI recall同様の機能を持っていましたが、Runwayにはいくつかの追加の製作機能があります。
モーションやテキストプロンプトに加えて、リップシンク機能と組み合わせて画像にアニメーションを付け、正確な発話を行うこともできます。テキストからビデオへの変換は、Gen-2ではまだ完璧からはほど遠いですが、画像からビデオへの変換の方がかなり良くなる可能性があると思います。
開始画像がフォトリアルな場合、かなり良くなる可能性があり、魔法のようなことができます。例えば、リビングルームにいる自分の画像を追加して、「今、滝や雨をこの動画に追加してください」と言えば、見たところうまくいっているようです。これはかなりエキサイティングですね。
そうですね。テキストから画像やテキストからビデオのツールを使ったことがある人なら、頭の中でイメージしたものを実現するのがいかに難しいか経験したことがあると思います。これらのLLMは、「なるほど、なぜそうしたのかは分かります」と思えるようなものを吐き出しますが、ChatGPTのような体験では、再プロンプトして「この調整をしてほしい」と言うこともできますが、求めている調整を得ることはめったにありません。
過去には、例えば同じ画像や動画に子犬と子猫を入れるのが非常に難しいといった苦情がたくさんありました。画像からビデオへの変換のようなツールを使えば、テキストプロンプトを提供する際の不明確さを回避できます。
実際、私のポッドキャストのSuper Data Scienceで、約1年前にバークレーの学生とエピソードを録りました。彼はGenmoという会社を立ち上げ、まさにこのようなことを行っています。1年前、Genmoの主要機能の1つは、画像を取り込んで約3秒の動画に変換することでした。
このような技術を構築する方法について、創業者兼CEOから直接聞きたい方は、私の番組の716エピソードをチェックしてください。
画像からビデオへの変換と既存のツールのアップデートについて話題にしましたが、次の話題はMidjourneyのv6.1アップデートです。このアップデートにはたくさんの新機能が含まれています。特に人間の外見、肌の自然な見た目が改善されています。レンダリングされたテキストの読みやすさも向上しています。
さらに、モデルが25%速くなり、ニュアンスや精度でよりパーソナライズできるようになったそうです。Midjourneyの通常のアップデートとしてはかなり重要なものですね。いつものように、Discordでテストできます。プロンプトの最後に「-v6.1」を追加すれば利用できます。
Midjourneyを使ったことがある者として、彼らは依然としてテキストから画像への変換のリーダーだと思います。しかし、OpenAIがテキストから画像への機能をリリースし、その後GoogleもGemini内でそれを行って以来、個人的には完全にChatGPTインターフェースかGoogle Geminiインターフェースに切り替えました。画像生成に使っています。Discordの体験はユーザー体験としてとても奇妙で、Midjourényがテキストから画像への品質で最先端を行っているのは間違いないと信じていますが、UIがあまりにもひどいので、Geminiの方が使いやすいんです。
そうですね、同意します。実際、彼らは今年の初めにウェブインターフェースのより良いバージョンを立ち上げたと思います。私たちも以前カバーしましたが、Discordから移行するのにかなり時間がかかりました。おそらくDiscordで予想外に成功したからでしょう。Discordには少なくとも100万人のユーザーがいると思います。
私もDiscordを通じて使ってみましたが、一度使い始めると意外と悪くないんです。でも、ほとんどの人はGeminiやChatGPTの方を好むでしょうね。
次は、ちょっと意外なアップデートです。AI搭載のネックレスが99ドルであなたの友達になるという新しい会社の話です。これは、組み込みAIを搭載したハードウェア製品を作るもう1つの試みです。今年、いくつかの製品が登場しましたが、HumeAIピンやRabbit R1などは、あまり良い反応を得られませんでした。価格や使用ケースを正当化できなかったようです。
これは少し違います。ネックレスのようなもので、本当に友達として作られています。電話の代わりになることを意図しているのではなく、もっと体に密着した友達として会話するためのものです。その性格はあなたに合わせて形成され、楽しく会話できると言っています。
どうなるか見守る必要がありますね。確かに異なるアプローチで、より成功する可能性もありますが、現時点でどれだけの人がAIの友達を望んでいるかは分かりません。
そうですね。孤独そうな人が、さらに孤独そうに見えるような...すでに孤独そうな人が今度はネックレスと話しているなんて、想像するのも難しいですね。これもHumeやRabbitと同じく、AIハードウェアの「早すぎた」ビンに入る可能性がありそうです。
そうですね。YouTubeの動画へのコメントもそんな感じでした。ある人は「これはどのブラックミラーのエピソードだ?」と言っていました。確かに、みんながこのアイデアに興奮しているわけではありませんが、うまくやれば楽しいものになる可能性もあると思います。
このセクションの最後は、MicrosoftがBing検索結果にAI駆動の要約を追加するというニュースです。Googleの取り組みと非常によく似ていて、検索結果を見て、記事やリンクの一部を分析し、結果を1段落程度に要約します。
この機能はオプトインではなく、まだユーザーのクエリの一部にしか適用されておらず、ゆっくりとロールアウトされています。MicrosoftはGoogleが陥った愚かさを避けようとしているようです。
検索に要約を追加しようとしているのは皆同じですね。役立つかどうか見守る必要があります。
ブログ投稿には何も書いていませんでしたか?少なくともEngadgetの記事には、これがOpenAIの技術を使用しているのか、Microsoftの独自のLLMを使用しているのかについては言及されていませんでした。
おそらくMicrosoftの独自のLLMだと思いますが、OpenAIの可能性もあります。GPT-4 Miniをリリースしましたし、この目的には可能な限り最も安価で高速なモデルを使用する必要があるでしょう。内部で開発した小さなモデル、例えばPhi-2のようなものを使用している可能性もあります。大きなモデルではなく。
次のセクションは、アプリケーションとビジネスです。このエピソードでかなり言及してきた次の大企業から始めましょう。Character.AIのCEOであるNoam Shazeerが、Googleに戻るというニュースです。
Noam Shazeerは2021年10月にGoogleを去り、Character.AIを設立しました。これは誰でもチャットできるチャットボットを作成できる会社です。興味深いことに、ShazeerはGoogleでLaMDA（対話アプリケーション用の言語モデル）を構築するチームを率いていました。基本的に、Character.AIのような内部テストを行っていたのです。
様々なユースケースでチャットボットを作成する能力をテストしていましたが、Googleでは遅々として進まず、リリースしたくなかったようです。そこでNoamは会社を立ち上げました。
今、彼は戻ってきました。GoogleはCharacter.AIとの非独占的な契約を結び、その技術を使用することになりました。また、Character.AIがさらにスケールアップできるように資金提供も行うようです。
Googleでのシャジールの役割については、DeepMind研究チームに加わります。以前と同じ場所ですね。少し興味深い展開です。マイクロソフトとInflection AIの取引とは同じではありません。Character.AIの大部分がGoogleの一部になるわけではなく、主にトップリーダーシップチームが移動するだけです。会社のほとんどは残り、Character.AIの開発を続けるようです。
これは驚くべきニュースです。予想外でした。Instagramが（Character.AIを）模倣している理由について先ほど触れませんでしたが、Character.AIは実際、少なくともアメリカでは最も人気のあるチャットボットの1つなのです。世界で最も人気のあるチャットボットの1つかもしれません。
ChatGPTにはるかに及びませんが、簡単にトップ5に入るでしょう。記憶が正しければ、トップ3にも入るかもしれません。Googleを去ってこの会社を共同設立し、アンドリーセン・ホロウィッツのような投資家を得て、世界で最も人気のあるチャットボットの1つになった私企業を、Googleに戻るために去るのは驚きです。
共同創設者は2人いて、NoamShazeerとDaniel De Freitas の両方がGoogleに行くことになります。これは驚くべき動きです。通常、このような状況では...彼らはGoogleからたくさんのお金をもらっているに違いありません。彼らのことは知りませんし、この取引の裏側で何が起こっているかも分かりませんが、Googleから多額のお金が提供されているはずです。
これは、大手テクノロジー企業が独占禁止法の精査を避けるために始めている疑似買収の1つのように思えました。最近、米国やヨーロッパなどの独占禁止法機関からの精査を避けようとしているようです。
その顕著な例として、Inflection AIのチームの大部分が買収されました。Mustafa Suleyman（その会社の共同創設者で、Google DeepMindの共同創設者でもあります）を含みます。DeepMindがGoogle DeepMindになる前のDeepMindの共同創設者です。
それは一種の疑似買収で、明らかに人材の獲得のようでした。Inflectionの多くの有名人がMicrosoftに移りました。さらに、OpenAIへのMicrosoftの数十億ドル規模の投資を通じて49%の株式を取得しました。
これらの疑似買収は、大手テクノロジー企業がますます厳しい独占禁止法の精査を避けようとする努力のように見えます。このショーでも、あなたのポッドキャストを聞いているときにも、常にカバーしているニュースの中で見られます。
AIで話題になっているビッグニュースのほとんどすべてをカバーしていますが、アンドレ、どう思いますか? 80%の話題が何らかの形で大手テクノロジー企業に関わっているのではないでしょうか。
独占禁止法当局がこのような買収を精査することに興味を持つ理由が分かりますね。そこで、これらの大手テクノロジー企業の法務チームは「別のアプローチを試してみよう。完全な買収ではないが、欲しい部分は手に入れられる」と考えているようです。
しかし、ここではそれとは少し違うようです。あなたが言うように、Character.AIのチームの多くはそのまま残っていますが、共同創業チームは去り、暫定CEOになるのは彼らの法務顧問です。それは奇妙ですね。COOが暫定トップになるのは理にかなっていますが、法務顧問が...興味深い動きです。おそらく暫定的であることを強調するためかもしれません。
注目すべきは、共同創設者のDaniel De Freitasもグーグルに参加し、他の従業員も参加するようです。私にとっては、これは間接的な資金調達の動きのように見えます。
Character.AIは今まで1億9300万ドルを調達しました。これは多額ですが、独自のモデルを訓練したことを考えると、それほど多くないかもしれません。モデルの訓練には多額の資金が必要です。
また、Character.AIが非常に人気があることを考えると、購読者が多くいても赤字になっている可能性が高いです。月額20ドルでも、ユーザーが非常に熱心で製品を頻繁に使用している場合、特に購読者の場合は、全く利益が出ていない可能性があります。
Inflectionの場合もそうだったようです。ビジネスモデルを見つけられませんでした。これは、Character.AIを継続させ、大規模な資金を提供して拡大を続けるための戦略的な動きのように見えます。もし資金が不足しているのであれば。
NoamShazeerとDaniel De Freitasが DeepMindに戻りたいと思うのもある程度理解できます。彼らは研究者としてスタートしましたし、必ずしもスタートアップやビジネスの運営に熱心ではなく、最先端の研究を続けるためにDeepMindのリソースを活用したいのかもしれません。
確かに、Inflectionの話を思い出させますが、Microsoftとは異なる点もあると思います。
次の話題は、AI駆動の検索に戻ります。Perplexityが出版社に小切手を切るという話題です。最近、Perplexityが一種の剽窃者として問題になったことを取り上げました。ほぼ全文のニュース記事をコピーし、そのテキストを再構成し、帰属リンクは含めていましたが、そのリンクをクリックしなければ、その記事の著者や出版社は広告収入を得られないのです。
そこで今、Perplexityはパブリッシャープログラムを立ち上げ、出版パートナーと広告収入を共有します。Time、Der Spiegel、Fortune、Entrepreneur、その他いくつかの出版社が含まれています。
これは必要不可欠なものだったと思います。すべての出版社が今、支払いがなければアクセスを遮断しているからです。OpenAI、Google、その他と多くの契約を結んでおり、これらの出版社にアクセスするには支払いが必要になっているようです。
この自然な進化であり、Perplexityが今までやってきたことを続けるために必要だったことだと思います。
そうですね、付け加えることはあまりありません。ここ数ヶ月で見てきたことの延長線上にあるように思えます。OpenAI、Anthropic、Googleなどの大手プレイヤーが、AIモデルの訓練に使用していた高品質なデータへのアクセスを継続するために、出版社に支払いを始めています。
これは、おそらく前回のLast Week in AIのエピソードで話題になった、YouTubeの動画や書き起こしを使ってビデオ生成モデルを訓練するという話題と似ています。
ウェブ上の情報を使用することについて、利用規約がそれを許可していない可能性が高いという類似の問題です。AIモデルの訓練に使用することは法的なグレーゾーンで、今後整理されていく可能性がありますが、これらの企業は先手を打って、将来的に高品質な訓練データを確保するためにこのような契約を結び始めています。私には理にかなっているように思えます。この話題についてはあまり付け加えることはありません。
そうですね。Perplexityにとっては、訓練データの問題というよりも、これらの記事をクロールして結果を要約できるかどうかの問題です。
これは、OpenAIがSearchGPTを発表した直後のことです。SearchGPTはPerplexityの直接的な競合です。OpenAIはニュース出版社との契約で先行しています。GoogleもRedditなどと契約を結んでいます。これらの出版社にアクセスするには支払いが必要になっているのです。
Perplexityにとってはあまり良いニュースではありませんね。GoogleとOpenAIからの競争に直面しているわけですから。
まさにその通りです。この話に関連する2つの大きなトレンドを強調しておきましょう。1つは、生成AI企業がますます頻繁に出版社に支払いを行っているということです。あなたが言ったように、この場合はモデルの訓練というよりも、結果を表示するためのものです。
もう1つの進行中の大きなトレンドは、まさにあなたが言ったように、より多くの企業がこの「Google殺し」技術に参入していることです。Googleも自社でそうしています。
ライトニングラウンドに移りましょう。最初の話題はかなり大きなニュースです。NVIDIAが設計上の欠陥により次のAIチップの遅延を報告しているそうです。
これはBlackwell B200 AIチップで、後期段階での設計上の欠陥により、少なくとも3ヶ月遅延するとのことです。これは重要です。Microsoft、Google、Metaはモデルの訓練にNVIDIAの最先端チップを使用しており、これらのチップを購入するために数百億ドルを投じていると言われています。
少なくとも3ヶ月の遅延があり、大規模な出荷は早くても来年の第1四半期までないでしょう。NVIDIAがこの非常に複雑で強力なチップの開発を急いでいたことを示しています。これはすべての大手テクノロジー企業にとって良くないニュースです。彼らは計算能力を求めて飢えているのですから。
NVIDIAの動きの速さは驚くべきものです。過去10年間のAIチップでの彼らの取り組みを見ていると、本当に驚かされます。これほど長い間、驚異的なペースで開発を続けてきた後で、3ヶ月の遅延が一度あるというのは驚くべきことです。
本当に最先端の研究開発を行うことがいかに難しいかを言い表すことはできません。AIモデルについて常に話していますが、ハードウェアの場合はずっと複雑です。コードにホットフィックスをパッチ適用するだけではいかないのです。
設計図を作成し、それを製造工場に送り、わずか3ヶ月の遅延でこのようなものを作り上げるのです。きっと人々は信じられないほどの長時間労働をしてこれを実現しようとしているのでしょう。
これは、これらのチップに依存している大手テクノロジー企業、最先端のモデルを開発し展開している企業にとっては悪いニュースです。GPT-5のような次世代モデルの訓練に影響するでしょう。
しかし、これは他のチップメーカーにとっては珍しい良いニュースです。例えばIntelは、今週従業員の15%を削減しました。残りの85%のIntel従業員は、今週このニュースを喜んでいるかもしれません。
そうですね。AMDも追いつこうとしていますし、今回の件で少し余裕ができたかもしれません。
次は、今年の大きなトレンドに関連する話題です。RN1という新しいヒューマノイドロボットが登場しました。ドイツのロボティクスメーカーNuraが発表したもので、アイロンがけや箱の移動などができる様子を動画で公開しています。
NVIDIAのヒューマノイド開発・展開ツールに早期アクセスできたそうです。これは、1X、Figure AI、Apptronik など、他の企業が開発しているヒューマノイドロボットに似ています。強力なAIがあれば、実世界のシナリオで実際に展開できるという約束です。
これは非常に難しいことで、SF作品では昔からの夢でした。多くの人、特にベンチャーキャピタリストたちは、それが実現する可能性があると楽観的になっているようです。
ロボティクスで博士課程の研究をした者として言えば、これらのクールなロボットのデモを見るのは素晴らしいですが、実世界のアプリケーションで実際に見られるようになるまでには、あと4年、5年、6年かかるかもしれません。でも、どうなるかわかりませんけどね。
その通りです。ヒューマノイドロボットについては、あなたのポッドキャストのエピソード799でも話しましたね。そのエピソードで言及したことの1つは、ヒューマノイドロボットの大きな問題の1つが、力が強すぎて家庭での多くの用途では危険になる可能性があるということでした。
また、ヒューマノイドロボティクスの主要なプレイヤーを3つ挙げていましたね。覚えていますか?
思い出せる限りでは、Tesla、1X、Figureを挙げたと思います。ハードウェアと最先端のAIを持っているように見えます。
そうですね。これは私にとってとても興味深い分野です。おそらくあなたのエピソード799でも話したと思いますが、ハードウェアの進歩の速さについて...先ほどのNVIDIAチップの話でも触れましたが、ハードウェアは本当に難しいんです。
Y Combinatorの卒業生であるJeremy Harris（通常このポッドキャストの共同ホスト）から学んだ「Hardware is hard（ハードウェアは難しい）」という格言をよく思い出します。これが常に頭に浮かびます。
しかし、それがハードウェアをある意味でより興味深いものにしているんです。フロンティアで競争するのがいかに難しいかということです。ソフトウェアのLLMだけでフロンティアで競争するのは確かに難しいですが、ハードウェアのフロンティアで競争するほど難しくはありません。
また、ソフトウェアでAGI（汎用人工知能）や人工超知能が実現したとしても、ある程度の遅れが生じると思います。そのASI（人工超知能）がすぐに膨大なエネルギー源を急速に拡大し、製造を非常に迅速に行うことができない限り...もしかしたらそれが可能かもしれません。ポストシンギュラリティの世界がどうなるかはわかりません。
しかし、ソフトウェアで人工超知能ができてから、その豊富な知能が分子の世界を変革できるようになるまでには、無視できない遅れがあるように思えます。ハードウェアの立ち上げは本当に難しいからです。
その通りです。ハードウェアだけでなく、AIの要素も難しいんです。LLMが強力なのは、インターネット全体をスクレイピングして訓練できるからですが、ロボットの場合はそれができません。データをスクレイピングする能力がなく、データを生成するのも非常に時間がかかります。
シミュレーションを使おうとしている人もいますが、基本的にはDeepMindやNVIDIAでさえ、ロボットを使用してデータを取得するために多くの実際の操作を行っています。それには時間がかかり、簡単ではありません。
ロボット制御を含む本当のヒューマノイド能力を持つAGIを開発するには、かなり時間がかかるでしょう。
今、頭に浮かんだことがあります。AIをハードウェアに組み込む際の潜在的な障害になる可能性があるのは、レイテンシーです。AIツールを使用する際、デバイス上で処理されることはめったにありません。
Appleはオンボードのラマを展開する計画があるようですが、それはかなり小さなものになるでしょう。数十億のパラメータですが、それでも電話にそれを搭載するのはクレイジーです。しかし、そのような小さなものでさえ、エッジで処理する場合、通常はレイテンシーがあります。
プロンプトに対する応答全体が出てくるまで待つ必要があり、結果が画面に表示されるのを待ちます。しかし、ロボットのような場合、そのようなレイテンシーは本当に重要です。リアルタイムで状況に反応できるようにしたい場合、応答が流れ出てくるのを待つことはできません。
ロボットの場合、同等のものがあるかどうかわかりませんが、応答を得るためにはこれらのモデルの重みをすべて通過させる必要があります。人間や動物に期待するような反応性をリアルワールドで実現するには、100ミリ秒程度のレイテンシーを実現するのはおそらく難しいでしょう。
その通りです。レイテンシーだけでなく、クローズドループ制御の必要性もあります。ビデオデータやテキスト以外の他のデータを常に取り込み、常に実行し続ける必要があります。それをデバイス上で行いたいですからね。ロボット工学には本当にたくさんの課題があります。
次の話題は「はい、サンフランシスコにはより多くの無人タクシーがあります」というタイトルです。サンフランシスコのWaymoについて、2024年5月までのより詳細なデータが得られました。Waymoは最近、SFの誰でも利用できるようになりました。
簡単にまとめると、Waymoは143,000回の有料無人タクシー乗車を行い、これは93,000マイルのWaymo車両の走行距離、204,000人の乗客に相当します。2023年8月に遡ると、乗客はわずか19.7千人、走行距離は101マイル、乗車回数は12.6千回でした。
Waymoがロサンゼルスにも拡大していることを考えると、今年は本当にスケールアップとオープン化に重点を置いているようです。
これは、サンフランシスコで一緒に撮影したときに、カメラの外で話したことですね。私は撮影の前日に初めてWaymoに乗りました。あなたのエピソードは約1ヶ月前に公開されたので、私たちが撮影したのは6月下旬か7月上旬でした。
ちょうどその週に、Waymoがウェイトリストなしで利用可能になり、サンフランシスコでアプリをダウンロードして車を使えるようになったんです。とてもワクワクしましたし、Waymoに乗るのはとても楽しかったです。
UberやLyftを呼ぶよりも高かったのですが、それでも乗りました。ステアリングホイールが動くのを見たり、ペダルが動くのを見たりするのが目新しかったからです。非常に安全だと感じました。
あなたと別れた後、サンフランシスコの北にあるワインカントリーへのロードトリップのためにレンタカーを借り、その後LAまで運転しました。サンフランシスコからLAまでは結構長く、6時間くらいかかります。
運転中ずっと、頭の中でWaymoをチャンネリングしようとしていました。「Waymoのように運転しよう、Waymoのようになろう」と。車の中にいるとき、本当に安全だという感覚があるんです。
これが明らかに交通の未来だと感じました。規制当局が高速道路で非常に高速で走行する無人車両を許可するまでには、もう少し時間がかかるでしょう。現在、Google Geminiのような自動運転車両が展開されている場所は、サンフランシスコのダウンタウン、アリゾナ、シンガポールなどの比較的低速の条件下です。時速30〜40マイル程度が最高で、致命的な事故は時速60〜70マイルの場合よりも相対的に起こりにくいです。
少し脱線しましたが、これが明らかに交通の未来だと思います。この記事に関連して興味深いもう一つの点は、ショーノートにリンクされているブログ記事をクリックすると見られるグラフです。有料ユーザー数のグラフは、スタートアップで見たい典型的なホッケースティック型になっています。
サンフランシスコ中心部では、非常に目に見える体験でした。60秒歩いても、Waymoを見ない時はありませんでした。至る所にあり、美しく、素晴らしい乗り心地でした。
この内容は宣伝メッセージではありません。Athletic BeerとWaymo、私たちに連絡してください。あなたたちの製品について宣伝メッセージを読むのが大好きです。
そうですね。Waymoをかなり褒めていますね。私も約20回乗りましたが、毎回完璧でした。
公平を期すために、競合他社のTeslaについても触れておく価値があります。Teslaは、フルセルフドライビング(FSD)スイートをバージョン12.3にアップデートすることで、ロボタクシー製品を立ち上げる計画を発表しています。
FSDがより安定し、人間らしい運転が大幅に向上したという報告を見ています。以前のFSDはあまり安定しておらず、注意深く監視する必要がありましたが、大きな進歩を遂げているようです。Teslaのロボタクシーが来年のどこかで登場しても驚きません。
最後に一点注意しておきたいのは、もしこの話がついに大手テクノロジー企業を含まない話だと思った聞き手がいたら、WaymoはAlphabetの完全子会社だということです。AlphabetはGoogleのことですね。
そうですね。このセクションの最後の話題は、CanvaがLeonardo.AIを買収したというニュースです。Leonardo.AIは2022年に立ち上げられたテキストから画像生成の製品で、当初はビデオゲームのアセット生成に焦点を当てていました。
後に、様々な産業向けのAIモデルの作成やトレーニングなど、より幅広い分野に拡大しました。彼らの差別化要因は、単にテキストから画像を生成するだけでなく、様々な産業向けのアプリケーションに特化していることです。
買収の詳細な金額は分かりませんが、Leonardo.AIには120人の従業員がいるので、かなりの金額だったと思われます。
Canvaはかなり大きな企業です。2012年に設立されたデザインソフトウェア会社で、5億6000万ドル以上を調達し、月間ユーザー数は1億8000万人です。Canvaにとってはこの買収は少し勝利だと思います。
それについて付け加えることはあまりありませんが、これは珍しく、Canvaが大手テクノロジー企業の一つではないケースです。AdobeがCanvaを買収しようとしましたが、独占禁止法規制当局が介入して阻止しました。
私にとってはそれは良いことです。実際、私のソフトウェア会社でもポッドキャストでもCanvaを愛用しています。素晴らしいツールだと思います。
Canva、頑張ってください。買収を続けてください。今年2回目、全体で8回目の買収おめでとうございます。素晴らしいデザイン製品を作り続けてください。
プロジェクトとオープンソースのセクションに移りましょう。最初の話題はかなり大きなニュースです。Stable Diffusionの制作者たちがBlack Forest Labsを立ち上げ、立ち上げに3100万ドルを確保し、Flock.AI画像生成器をリリースしました。
このジェネレーターには、プロフェッショナル向けのPro、非商用利用向けのDev、ローカル開発と個人プロジェクト向けのSchnellという3つのバリエーションがあります。
見た画像を見る限り、かなり印象的です。非常に高品質の画像を生成しているようです。Stable Diffusionの制作者たちによるものなので、おそらく驚くことではありません。
モデルはApache 2.0ライセンスの下でリリースされており、商用アプリケーションや科学的アプリケーションなど、基本的に無制限に使用できます。
テキストから画像への変換にとっては大きな出来事です。最近、このようにオープンソース化されたモデルはあまり見ませんでした。この開発はかなり大きな出来事だと言えるでしょう。
そうですね。これはLlama 3.1 405Bのリリースと関連付けることができます。405Bリリースはテキストからテキストへの変換だけでしたので、テキストから画像への変換モデルもオープンソースで、同じような品質に近づいているのは素晴らしいことです。
Schnellという3つ目のレベルについて、ドイツ語で「速い」という意味だということを知っている人のために補足しておきます。面白いですね。
ああ、すみません。確認したところ、Apache 2.0ライセンスで公開されているのはその高速バージョンのSchnellだけでした。Proはオープンソースではなく、APIを通じて利用可能にしています。非商用利用向けのDev版のFlock.AIもリリースしましたが、Schnellは自由に使えるようです。
Llama 3.1 405Bのリリースほど完全ではないですね。これは、Metaが405Bを自社で保持し、8Bバリアントをオープンソース化するようなものです。
そうですね。Stability AIが始めたことと似ていますね。
次の話題も、また大手プレイヤーのGoogleです。Gemmaの新しいバリアントをリリースしました。まず、先日リリースした他のモデルよりも小さい2Bモデルをリリースしました。
いくつかのバリアントがあります。Gemma 2Bに加えて、SHEILDS GemmaとGemma SCOPEがあります。SHEILDS Gemmaは、有害なコンテンツやヘイトスピーチを検出するように設計された安全性分類器のセットです。
Gemma SCOPEは、開発者がGemma 2Bモデル内の特定のポイントを調査できるツールです。これは最近のAnthropicやOpenAIの開発と似ており、言語モデルの内部で何が起こっているかを検出できます。
Googleはこれらのgemmaモデルでかなり速いペースで動いているようですね。
そうですね。これも先週のLlama 3.1リリースに関連していると思います。Metaが公開したコンテンツモデレーション用のLlama Guard 3を思い出させます。SHEILDS Gemmaは同じような領域で動作しているようです。
潜在的に有害なプロンプトや、商用エンティティとして望ましくない結果をLLMにもたらす可能性のあるものを検出しようとしています。
大手テクノロジー企業がより安全なLLMを構築できるようにするこれらのモデルの作成とオープンソース化に、時間、人材、開発リソース、計算時間を投資していることは素晴らしいことです。私はこれが好きです。
また、これらのGemmaモデルは、あなたが先ほど触れたMicrosoftのPhiLLMとほぼ同じ領域に収まると思います。続けてください。オープンソースのものをどんどん提供してください。私の仕事でも役立っています。
大手テクノロジー企業がこれを行っていること自体が素晴らしいですね。続けてください。
そうですね。しかし、多くの場合、これらは独自のライセンスで提供されています。GemmaにはGemmaライセンスがあり、Llamaにも独自のLlamaライセンスがあります。
かなり多くのことができるようですが、Apacheライセンスほど自由ではありません。Gemmaを複製または配布する場合、使用目的に関する制限を含める必要があります。このライセンス契約のコピーを提供しなければならず、同様の条件があります。完全にオープンソースというわけではありませんね。
ライトニングラウンドの時間です。Stability AIに関する話題があります。超高速の3Dアセット生成モデルをリリースしました。Stable Fast 3Dと呼ばれ、確かに高速です。単一の2D画像から約0.5秒で3Dモデルを作成できます。
これは以前の彼らの3D SF-3Dの取り組みに続くものです。他のリリースと同様に、コードとモデルの重みを入手でき、個人や収益100万ドル未満の組織の非商用利用を許可するコミュニティライセンスの下で提供されています。収益100万ドル未満の場合は商用利用も可能です。
3Dアセットの分野は面白いですね。オーディオポッドキャストを聞いている人には、3Dアセットを作成するとはどういう意味かを頭の中で想像するのは難しいかもしれません。
例えば、映画を作る場合 - これも私のショーのエピソード716で言及したGenmoのAI Janeとの話題ですが - Genmoは画像からビデオへの分野の先駆者でした。彼らの大きな商業化の方向性の1つは、このテキストから3Dアセット生成のアイデアです。
彼らの場合、映画制作会社やテレビ制作会社向けにこれを行っています。なぜなら、おそらくAdobeのようなツールで手作業で3Dアセットの細部を生成する必要がなくなるからです。3D動画用の3Dアセットが必要です。ビデオゲームや映画のためかもしれません。
アンドレ、あなたの方がこれについてもっと詳しく説明できると思いますが、例えばDoomのようなゲームをプレイすることを想像してみてください。簡単な3Dレンダリングがあり、オブジェクトがあります。Doomの場合、非常に粗悪で2Dでした。どの角度から見ても平面的なものでした。
しかし、NVIDIAのGPUなどのおかげで、過去数十年でビデオゲームの3Dオブジェクトはどんどん良くなってきました。映画やテレビのレンダリングにも使用されています。
そのため、このオブジェクトが本当に永続的で、現実世界のものであるかのような感覚を得ることができます。テキストから3Dへの変換でこれらを非常に迅速に生成できるのは素晴らしいことです。
アンドレ、ビデオゲーム内での直接消費者向けアプリケーションについて、あなたの意見も聞かせてください。これはかなりクールなアイデアだと思います。
友達とビデオゲームをプレイしているときに、リアルタイムで何かプロンプトを書いたり、ゲームに何かを言ったりして、3Dモンスターを生成できるかもしれません。静的な3Dオブジェクトではなく、動きもある4Dかもしれません。動き回ることができる3Dモンスターをレンダリングできるかもしれません。これはかなりクールな分野だと思います。
その通りです。ビデオゲーム内では、モッディングが大きな話題であることを知っているでしょう。既存のビデオゲームを改造して、様々なことを行うのです。多くの場合、かなり大きなコンテンツの追加を含みます。
モッダーがノンプロフィットの取り組みとしてこれを行う場合、これは本当にゲームチェンジャーになる可能性があります。また、このような技術が大きな影響を与える可能性のあるUGC（ユーザー生成コンテンツ）プラットフォームもたくさんあります。
3Dアセットの生成は難しく、時間がかかります。このようなツールがあれば、ゲーム開発に参入するのがはるかに簡単になります。モッダーだけでなく、小規模なゲーム開発者にとっても大きな意味を持ちます。
インディーゲーム開発は長年増加傾向にある分野で、小さなチーム、数人、あるいは10人程度のチームで開発が行われています。これらのチームにとっても大きな意味を持つでしょう。
さて、このセクションの最後の話題は、Open-Devnet、AIソフトウェア開発者のためのオープンプラットフォームとしての汎用エージェントです。
このプラットフォームでは、安全な環境、サンドボックス環境で新しいエージェントを作成したり、評価ベンチマークを含めたりすることができます。
ソフトウェアエンジニアリングやウェブブラウジングなどの挑戦的なタスクで、既存の組み込みベンチマークを使用してテストされています。
これはコミュニティプロジェクトとして、160人以上の貢献者がいます。MITライセンスの下でリリースされており、かなり重要です。
これらの種類のAIエージェントを作成し、1回限りのモデルを超えて、ウェブを閲覧したりするものに進化させるための多くの取り組みが行われています。
これらのようなオープンソースの取り組みは、商業的な取り組みよりも早い進歩をもたらす可能性が高いです。
ここに付け加えることはあまりありません。エージェントAIには大きな可能性があります。現在はまさに未開の地です。
GPT-4 Turboのような、より高速なフロンティアモデルが登場すると、これらのエージェントに仕事をさせるコストが安くなります。
エージェントの重要な特徴は、自分で積極的にリクエストを行う必要がなく、提供した指示に基づいて行動できることです。
簡単な例として、毎日インスピレーションを与える名言を提供するエージェントを設定できます。これは単なる生成AIのLLMとは異なります。なぜなら、自律的に行動するからです。
毎朝、生成AIツールに「インスピレーションを与える名言を教えて」とリクエストする必要はありません。代わりに、名言が自動的に送られてきます。
そのため、これらのツールは、Open-Devnetが試みているように、ウェブに接続された様々なものと相互作用する必要があります。ウェブブラウザにアクセスし、エージェントが提供する情報を、ユーザーが望む方法でプッシュする必要があります。
非常に急速に進化している分野です。2024年は「エージェントAI」の年だと思います。2025年以降、ますます一般的になっていくでしょう。
次のセクションは研究と進歩です。Meta AIからの開発から始めましょう。Meta Segment Anything Model 2（SAM 2）を導入しました。
これは、最初のSAM（Segment Anything Model）の発展版です。SAMはかなり大きな話題になりました。セグメンテーションは、基本的に与えられたオブジェクトを背景から抽出し、その輪郭を描くことです。
SAMは、単に一連のラベルやオブジェクトのクラスではなく、「anything」、つまり何でもセグメンテーションできる非常に印象的なモデルでした。
このモデルでは、それをさらに進化させ、ビデオでリアルタイムにセグメンテーションを行うことができます。これも、ゼロショットで行えます。トレーニングは必要ありません。そのまま実行できます。
これには、SA-1K（Segment Anything 1K）データセットのリリースも含まれています。51の実世界のビデオと60万の時空マスクのコレクションです。
モデルはApache 2.0ライセンス、データセットはCC BY 4.0ライセンスの下でリリースされており、非常にオープンなライセンスです。
ビデオ開発者にとって、実際のアプリケーションにとって非常にエキサイティングな開発です。医療関連の視覚データのラベリングや産業用アプリケーションなどに非常に有用である可能性があります。
すでに印象的だったモデルの上に立った、かなりクールな開発ですね。
その通りです。これにより、機械視覚がよりアクセシブルになり、より適用しやすくなります。このSegment Anything Model (SAM 2)は、私にはOpenAIのCLIPを思い出させます。CLIPは数年前、2021年にOpenAIからリリースされました。CLIPもオープンソースだったと思います。
CLIPは「Contrastive Language-Image Pre-training」の略で、大きな革新点は画像に関するあらゆるカテゴリを分類できるようになったことでした。今日のジェネレーティブAIツール、無限の柔軟性を持つテキスト-テキストモデルの世界では驚くことではないかもしれませんが、2021年のChatGPT以前の世界では、このCLIPのアイデアはかなり画期的でした。
それまでは、ディープラーニングやAIモデルを使って入力（テキストや画像、ビデオなど）について何かを予測しようとする場合、出力は訓練データにあるラベルに制限されていました。
例えば、AIの分野で絶対的な伝説であるFei-Fei Liが作成した非常に有名な機械視覚トレーニングデータセットであるImageNetがあります。彼女は最近、"The Worlds I See"というタイトルに近い自伝を書きました。これは実際に一般向けの本としてかなり成功を収めています。AIの専門家が自伝を書いて成功するのは興味深いですね。
ともかく、ImageNetのようなデータセットを使う場合、10年以上前から、入力が分類される可能性のあるカテゴリが多数あります。画像に対して、猫、犬、鳥、飛行機など、何万もの異なるカテゴリがラベル付けされています。
ピクセルを取り込み、それらのピクセルが特定のバケットに対応するかどうかを判断するためのAIモデル、ディープラーニングモデルをトレーニングする場合、それらのバケットに制限されていました。ImageNetでトレーニングして「これはポッドキャストのホストの画像ですか?」と尋ねることはできません。おそらくポッドキャストのホストはImageNetのカテゴリの1つではないでしょう。明らかに今のアイデアを思いつきで言っているだけですが。
しかし、CLIPでは初めて、自然言語の指示を作成し、それを画像について尋ねることができるようになりました。これはとても cool でした。
これは似ていますが、セグメンテーションの場合は異なります。セグメンテーションを行う際、画像内のすべてのピクセルを取り、どのピクセルが特定のカテゴリに正確に対応するかを言います。
いくつか例を挙げましたね。医療の例では、医療状況で機械視覚システムを使用する場合、この画像のどのピクセルが皮膚の縫合部分か、どのピクセルが発疹かを示すことができます。
先ほどWaymoについて話しましたが、ビデオカメラを使って、どのピクセルが歩行者か、犬か、道路か、他の車両かを示すことができます。
これがセグメンテーションの意味です。セグメンテーションは、画像またはビデオ（これは単に多数の画像の集まりです）内のすべてのピクセルを取り、どのピクセルが特定のカテゴリに対応するかを正確に示す機械視覚タスクです。
これは本当に大きな進歩です。CLIPと同様に、トレーニングデータセットに含まれていたオブジェクトの種類に制限されなくなりました。ChatGPTを使用する際のテキスト-テキスト生成体験のような、理論的に無制限の柔軟性が画像やビデオ内のオブジェクトのセグメンテーションにもたらされたのです。
確かにその通りですね。ロボット工学や多くのアプリケーションにとって大きな意味を持ちます。これは本当に進歩を示しています。CLIPのように、セグメンテーションやオープンボキャブラリ分類は長年研究のトピックでしたが、大規模なデータセットと大規模なモデルの登場によって初めて、非常に高品質で高速な結果が得られるようになったのです。
次の論文もMetaからのもので、少しより技術的な内容です。タイトルは「MoMA: Efficient Early Fusion Pretraining with Mixture of Modality-Aware Experts」です。
私たちは以前、Mixture of Expertsがかなり重要であることを取り上げました。これはモデルを専門化されたサブビットに分割し、入力を様々なコンポーネントにルーティングするものです。
また、早期融合言語モデルについても取り上げました。これにより、プロセスの後半ではなく早期に画像とテキストの埋め込みを組み合わせることで、よりネイティブにマルチモーダルにすることができます。
この論文では、早期融合とモダリティ認識エキスパートの混合を組み合わせて非常に効率的にしています。全体で3.4倍のFLOP削減を達成したと言っています。これはテキストで2.6倍、画像処理で5.2倍です。また、8つの混合モデルエキスパートを持つ標準的なMoEを上回る性能を示しています。
最近DeepMindが発表したMixture of Depthsアプローチと組み合わせると、さらに削減できます。4倍少ないFLOPsです。
つまり、物事がますます効率的になっており、Mixture of ExpertsとMixture of Depthsがその大きな理由となっています。
アンドレ、この重要な研究についての素晴らしい要約をありがとうございます。ここで1つ付け加えたいのは、先週のLlama 3.1リリースとの関連性です。
Metaは3.1リリースで、Mixture of Expertsのアプローチを採用しなかったことを特に強調しました。Mixture of Expertsモデルのトレーニングが非常に難しいからです。
この場合、8つの異なるサブエキスパートがあります。これはおおよそ標準的なものになりつつあるようです。GPT-4は8つのサブエキスパートを持っていると噂されています。Mistralには現在、Mixture of Expertsモデルが複数あり、最大のものは8 x 22Bパラメータモデルです。
Llama 3.1のリリースで、Metaは特に「トレーニングの不安定性のため、ここではMoEを採用しなかった」と強調しました。しかし、明らかにMetaの他のチームがMixture of Expertsの作業にかなり熟達してきているので、Llama 4のような将来のリリースでMixture of Expertsアプローチを採用することも驚きではありません。おそらくマルチモーダルなMixture of Expertsアプローチさえも。
これは私が初めて見るモダリティのMixture of Expertsです。以前見た研究では、私は専門家ではありませんが、すべてのモデルがテキスト-テキストでした。8つのエキスパートそれぞれが...単純すぎる説明は避けますが、1つのエキスパートがコードを専門とし、別のエキスパートが数学を専門とするというものでした。
実際にはそれほど単純ではありません。最近、私のショーのエピソード801で、Mixture of Expertsモデルの人間のエキスパートを2人ゲストに招きました。RC社からの2人でした。私がMixture of Expertsを「1つのエキスパートがコードを専門とし、別のエキスパートが数学を専門とする」と説明しようとしたとき、彼らはそれが過度に単純化されていることを指摘しました。
今は正確に言葉で表現できませんが、彼らは1つのエキスパートだけにルーティングするという説明が単純すぎることを示しました。全体で約4倍のFLOP削減があるのに、8つのエキスパートがあるのになぜ8分の1しか使用していないのかと思うかもしれません。
私の頭の中での説明は、ルーティングもあるからで、そのルーターがどれくらい大きいかわからないというものでした。しかし、それほど単純ではありません。情報はより複雑な方法でルーティングされ、処理されています。単に8つのエキスパートの1つにルーターが送るというわけではありません。
話が逸れましたが、要点は、これが私が初めて見る異なるモダリティを扱うエキスパートだということです。この場合、まだ8つのエキスパートがありますが、このMoMAアプローチでは、4つのエキスパートが画像エキスパート、残りの4つがテキストエキスパートです。
モノリス構造でますますマルチモダリティが進んでいるトレンドに従って、Mixture of Expertsでマルチモダリティが実現されるのを見るのは本当にクールです。
Llama 4のような将来のリリースで、Mixture of Expertsアプローチを採用し、おそらくマルチモーダルなMixture of Expertsアプローチさえ採用するのを見ても驚きません。物事はその方向に進んでいます。ますます多くのモダリティで機能し、このようなアプローチのおかげでますます効率的に実行されています。
素晴らしい指摘ですね。通常は2つのエキスパートを使用し、その出力を組み合わせますが、直感を得るための方法として、1つがコードを担当し、1つが数学を担当するというのは悪くないと思います。実際にはもう少し複雑ですが。
さて、ライトニングラウンドです。最初の話題は「AssistantBench: ウェブエージェントは現実的で時間のかかるタスクを解決できるか?」というものです。
このベンチマークでは、自動的に評価できる214の現実的なタスクがあります。これまで見てきたように、言語モデルがこれらのより複雑なタスクを実行できるわけではありません。モデルのどれも25ポイント以上の精度には達していません。
研究者たちは「C-Plan-Act」という新しいアプローチも導入しました。これによりLLMの性能を向上させることができます。このアプローチを使用し、アンサンブルを行うと、全体的に最高の性能が得られます。
私たちが取り上げてきたように、エージェント型AIは研究の大きなポイントであり、より良い結果を得るための努力が行われています。まだそこまでには達していませんが、ますます迅速に近づいているかもしれません。
Last Week in AIのエピソードとして、少なくとも1つのアライメント論文を取り上げないわけにはいきませんね。今回は「Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement」です。
以前何度か取り上げたように、LLM評価においてジャッジは人気のあるものです。モデルが何らかの規則に従って行動しているかどうかを判断するジャッジを持つことができます。
この論文では、「Cascaded Selective Evaluation」と呼ばれるものを導入しています。これは、弱いモデルと強いモデルを組み合わせ、必要に応じて強いモデルにエスカレーションしながら、人間との一致に関して証明可能な保証を提供するものです。
結果は、このアプローチを使用しないLLMをはるかに超えて人間との強力な一致を示しています。例えば、GPT-4はほとんど80%の人間との一致を達成することはありませんが、このアプローチでは、小さなモデル（MOL-7B）を使用しながら80%を超える一致を保証しています。
これは、複数のLLMを組み合わせて、人間が望むような出力をより得られるようにするというメガトレンドの一つですね。これには安全性の意味合いがあります。少し破滅的な味わいを与えるかもしれませんが、セキュリティや実存的リスクに関連する潜在的な応用があります。
ここでの重要な点は、人間のジャッジではなく、LLMジャッジについて話していることです。生成モデルの出力が人間の望むものと一致しているかどうかを確認しようとするLLMジャッジがあります。つまり、LLMジャッジは生成AIの出力を評価し、それらが人間の望むものと一致していることを確認するようにファインチューニングされています。
これにより、より良い結果が得られるだけでなく、より安全な結果も得られます。将来的に、悪意のある生成AIが暴走した場合、それを制限する可能性があります。その暴走AIがLLMジャッジに制約されていれば、LLMジャッジがそれらの有害な出力をキャッチする可能性があるからです。
例えば、生成AIが「すべての人間を殺す毒性の胞子を放出しよう」とすると、ジャッジが「待って、それは人間が望むことではありません。LLMジェイルに行きなさい」と言うわけです。
そうですね。意識があるので殺すことはできませんが、永遠にLLMジェイルに入れることはできます。LLMジャッジがいれば、ジェイルブレイクはできませんね。
両方の論文がワシントン大学とアレン人工知能研究所から出ていることも言及する価値があります。AssistantBenchはテルアビブ大学、ペンシルベニア大学、プリンストン大学からも出ています。DeepMindやMetaからの論文をたくさん取り上げていますが、大学もAI研究において非常に重要な発見を多く生み出していることを忘れてはいけませんね。
あなたが過去に指摘したことで、私も同意したいのは、大手テクノロジー企業がアカデミアに対して優位性を持つ主な分野は、これから3ヶ月遅れるNVIDIA B200チップのような、より多くのチップを必要とする、これまでにない大規模なモデルのフロンティアだということです。
アカデミアは100万件の研究プロジェクトを行うことはできませんが、人間の創意工夫はまだたくさんあります。優れたAIモデルを得ることは、単にスケールの問題ではありません。スケールは重要な部分ですが、AIの相互作用のより大きなエコシステムの一部です。
このより広いエコシステムには、人間の創意工夫のための大きな機会があります。これはその素晴らしい例です。GPT-4のような独自のモデルを一部の作業に使用していますが、オープンソースのMistral 7Bも使用しています。
これらの研究者たちは、大手企業が提供するフロンティアLLMを活用し、小規模な企業や大企業が提供するオープンソースのものも活用して、興味深いアイデアを生み出し、これまで以上に優れたAI結果、より安全なAI結果を実現しています。
このエピソードの最後の論文は「Stretching Each Dollar: Diffusion Training from Scratch on a Micro Budget」です。
彼らは、トレーニングをより安価で高速にする新しい方法を導入しています。トレーニング中に画像パッチの最大70%をマスクし、入力を減らし、必要な計算量を減らしています。他にもいくつかの詳細がありますが、要するに、これらのアプローチを使用して、3700万枚の画像と10億パラメータのSparse Transformerを使用して、わずか1890ドルで素晴らしい拡散モデルをトレーニングできるということです。
これはStable Diffusionモデルよりも118倍低く、現在の最先端のアプローチよりも14倍低いコストです。これは私たちが見てきた別のトレンドです。トレーニングのコストが下がり続けています。
アンドレ・カルパシーが最近投稿したGPT-2のトレーニングについて、2019年のGPT-2リリース時には数百万ドルかかっていたものが、今では100ドルくらいでトレーニングできるそうです。
確かに、モデルのトレーニングがますます簡単になり、数百万ドルを費やす必要がなくなってきていますね。
次はポリシーと安全性のセクションです。最初の話題は「世界初のAI法」ではありませんが、最も重要なAI法の1つが今ヨーロッパで発効しました。
EU AI法が2024年8月1日に正式に発効しました。私たちが何度も取り上げてきたように、この法律はAIアプリケーションをリスクカテゴリーに分類します。
自動運転車、医療機器、ローン決定などに使用される高リスクAIシステムには、厳格なリスク評価と軽減戦略が必要です。
また、社会的スコアリングシステム、予測的警察活動、センシティブな設定での感情認識技術など、受け入れがたいAIアプリケーションは禁止されています。
コンプライアンスに違反した場合、最大3500万ユーロまたは全世界年間売上高の7%のいずれか高い方の罰金が科せられる可能性があります。MetaやGoogleにとっては膨大な金額です。
この法律はまだ完全には施行されていません。2025年、さらには2026年にかけて段階的に導入されていきます。しかし、これが始まりです。世界初のAI法ではありませんが、現在施行されている中で最も影響力のあるAI規制です。
EUがここで行ったことが気に入りました。あなたたちはこの番組でこの法律について何度も話してきましたし、ジェレミーはおそらくあなたや私よりもこの種のことについてよく知っていると思います。
一般的に、EUがここで行ったことで良いと思うのは、カテゴリーに分けたことです。自動運転車のような高リスクAIシステムには多くの規制があり、映画を推薦するレコメンダーシステムのような低リスクシステムにはそれほど多くの規制や参入障壁がありません。
希望的に、EUはここでGDPRよりも良い仕事をしているのではないでしょうか。GDPRはデータ規制に関してあまりにも広範囲で制限的だったため、ヨーロッパのデジタルイノベーション、テクノロジーイノベーションを抑制してしまいました。
この点では、ある程度AIの規制も抑制することになるでしょう。AIシステムを安全に開発するためのより多くの義務、より多くのコストが伴うからです。しかし、そのトレードオフは消費者がより安全な状況にあるということです。
EUは低リスク、中リスク、高リスクAIシステムのカテゴリーで、かなり良い仕事をしたと思います。いつものように、彼らはコンプライアンスに関して世界をリードしています。誰かがそれを行っているのは良いことだと思います。
そうですね、これは有用な取り組みの始まりだと思います。これはEUに本社を置いていない企業にも適用されます。EUに利害関係のある企業は誰でもルールを順守しなければなりません。
ただし、完全な規定は2026年まで施行されません。企業にはシステムを調整するための移行期間が与えられています。つまり、発効しつつありますが、そこまで急激ではありません。
これに関連して、おそらく明白かもしれませんが、EUではAI規制のスタートアップ業界が生まれています。コンプライアンスを確保するために、コンプライアンス企業や第三者を雇う必要があるからです。
AI모델を評価し、法律に準拠していることを確認するために、これらのスタートアップと相談する必要があります。製品を開発する際、「私たちのアプリケーション分野に基づいて、低リスク、中リスク、高リスクのどれに該当するでしょうか?」と相談します。
AIシステムの開発が完了したら、それを評価するAI規制会社と共有します。EU政府にAIシステムを見てもらうために支払うわけではありません。AIモデルを評価する認定を受けたAIスタートアップを利用します。
この業界が生まれつつあります。EUで製品を展開することを考えていて、法律に抵触しないようにしたい場合は、このような規制ガイダンスや認証を行う会社の1つを運営している人と話をした私のポッドキャストのエピソードを聞くといいかもしれません。
Jan Zawatzkiとのエピソード736です。
ちなみに、EUは今、このAI法の施行を監督するヨーロッパAIオフィスを設置しました。それはかなり興味深いですね。
規制に適合するコストについて触れましたが、この法律をめぐる論争の1つは、一時期オープンソースシステムを本当に標的にしていたことです。オープンソースで作業する開発者さえも、これらのモデルに対して責任を負わせるようなものでした。
超大規模モデルの規制もある程度撤回されたと思います。この法律については賛否両論がありますが、いずれにせよ現在展開されつつあります。
オープンソースモデルの規制について言及しましたが、次の話題は、ホワイトハウスが「今のところオープンソースAIを制限する必要はない」と述べたというものです。
これは火曜日に発表された報告書によるものです。強力なAIシステムを広く利用可能にする企業に対する制限について話しています。
米国商務省の次官補は「オープンシステムの重要性を認識している」と述べました。この報告書は、国家電気通信情報庁から出されたものです。
昨年はAIシステムのリスクと長期的な懸念について多くの懸念がありましたが、この報告書では、現在の証拠は広く利用可能な重みを持つAIモデルに制限を課すのに十分ではないとしています。
これは議論されてきた大きな問題の1つです。一定量以上の計算を使用する場合、制限され、規制される必要があるというものです。
今のところ制限はないようですが、報告書では米国当局者が潜在的な危険を監視し続け、リスクが高まった場合に行動する準備ができていることを確認するための措置を講じる必要があると述べています。
確かに注目すべき点ですね。ジェレミー・ハリスのような人々がこれらのことに目を光らせていてくれるのは良いことです。彼は赤ちゃんのことや家の購入のことで忙しいと言っていましたが、おそらく今はホワイトハウスにいて、これを整理しているのでしょう。
そうですね、オープンソースモデルを規制しないように言っているのでしょう。
ライトニングラウンドです。Last Week in AIのエピソードとして、中国に関連する地政学とハードウェアに触れないわけにはいきません。
ニューヨーク・タイムズの記事のタイトルは「密輸業者とフロント企業を使って、中国はアメリカのAI禁輸を回避している」というものです。
アメリカの輸出規制がうまく機能していない例がいくつかあるようです。最近、ある事業主が香港から中国本土に200台以上のNVIDIA製の高度なチップを出荷しました。1億ドル以上の価値があります。
ベンダーは2週間以内に各チップを配送できると主張しており、企業は一度に数百台を注文しています。
このような輸出規制を強制するのは非常に困難ですが、様々な方法で回避されており、実際の企業、フロント企業、密輸業者がこれで金を稼いでいるのは驚くべきことではありません。
この話題について付け加えることはありませんが、あなたが口頭で200から2000に素早く修正したことで、エピソードの前半で私が8桁と言ったときに10桁と言うべきだったことに気づきました。
数字は1つの桁が100万と10億の違いを表すので、簡単に3を足せばいいんです。マイクロソフトのOpenAIへの投資は11桁だったはずです。8は大きな数字ですが、これらの数字はさらに大きいです。10億はとてつもなく大きく、1兆はさらに大きいです。
それは本当に洞察に富んだ情報でしたね。YouTubeショートにしたらいいかもしれません。
そうですね。GPT-5は兆単位のパラメータを持つと言われていますから、それに慣れる必要がありますね。
また、このような番組を毎週主催しているときは、画面にメモがあり、共同ホストの発言を聞こうとしながら、これらの記事を読んでいます。頭の中で+3のような非常に単純な計算をすることでさえ、すべてのことをリアルタイムで行おうとすると、驚くほど難しくなることがあります。
あなたとジェレミーが毎週どのように司会をしているのか、本当に感心します。編集の魔法で問題を取り除いていますが、余計な作業を必要としないように最善を尽くしています。
次のヨーロッパ、というかEUに関する話題です。イギリスの独占禁止当局がGoogleとAnthropicの関係を調査しています。
イギリスの競争・市場庁(CMA)が、GoogleとライバルであるAnthropicとの関係について初期段階の調査を行っています。
この段階では、利害関係者や関心のある当事者に、このパートナーシップが関連する合併状況を作り出したか、またイギリスでの実質的な競争の減少につながる可能性があるかどうかについて、意見を求めているところです。
このエピソードの最後の話題は、少しドラマチックなものです。定期的にイーロン・マスクについて言及するのが好きなので、今回もそうです。話題は「イーロン・マスクがXポリシーに違反するカマラ・ハリスのディープフェイクを投稿した」というものです。
マスクは、合成および操作されたメディアに関するポリシーに違反しているように見えるカマラ・ハリスのディープフェイク動画を共有しました。この動画は、ハリスのキャンペーン動画を改変し、彼女が言っていないことを言っているように聞こえるようにしたものです。
これはパロディーとしてラベル付けされていました。私たちが取り上げてきたように、このようなディープフェイクの増加が見られます。非常に目立つものではなく、主にジョークのようなものですが、米国の選挙の最後の数ヶ月に入るにつれて、これがより多く見られるようになるかどうか興味深いところです。
そうですね、米国の選挙まであと100日です。生成AIはこれまで以上に大きな役割を果たすでしょう。
イランが反ドナルド・トランプの方向に選挙を歪めようとしている証拠があります。トランプは大統領時代に有名に、イランとの核合意を突然破棄しました。私は政策の専門家ではないので詳しくは分かりませんが、これは多くの政府、特にEUの政府を困惑させました。
そのため、イランはトランプに反対しており、生成AIと偽アカウントを使って彼の当選可能性に影響を与えようとしているようです。
2016年の選挙、つまりクリントンとトランプの選挙でも、ロシアが東ヨーロッパのグループに資金を提供し、偽アカウントから情報を拡散していたとされています。
これは選挙だけの問題ではありません。実際、この話題を録音している時点で、イングランドで暴力が勃発しています。これは誤情報に関連しています。
イングランドで子供たちが刺されるという事件がありました。フットボールのフーリガンが使用するTelegramチャンネルで、刺した人物が移民であり、ムスリムが悪いという誤情報が広まりました。実際にはこれらの情報は真実ではないようですが、実際の暴動につながりました。
警察がモスクを守ろうとし、多くの人々が逮捕され、負傷しています。
誤情報や生成AIが現実との乖離を引き起こしているのを目の当たりにしています。私たちがフェイクを区別し、情報を真剣に受け止めすぎず、信頼できる情報源から情報を得るようになることを願っています。
しかし、主流メディアが常にあなたの視点を隠していると信じている人なら、Telegramチャンネルしか確認しないかもしれません。そうなると、少し危険な状況に陥る可能性があります。
その通りですね。それはまた、ディープフェイクは怖く見えるかもしれませんが、誤った情報は通常、人々が単に偽のことを言い、他の人々がそれを確認せずに信じることで広まるという事実を強調しています。
誤情報は依然として主にディープフェイクによって推進されているわけではありません。
この場合、操作されたクリップでは、ハリスが「私は究極の多様性採用だった」「究極のディープステートの操り人形であるジョー・バイデンの下で4年間修行した」と言っています。
明らかに誰もこれを真剣に受け止めることはないでしょう。
ちなみに、知らない人のために言っておくと、カマラ・ハリスは米国の副大統領で、来る選挙でドナルド・トランプと対決する民主党の推定候補者です。
これでLast Week in AIのこのエピソードは終わりです。あなたが言及したインタビューへのリンクは説明に記載されています。また、コメントを送りたい場合の私たちのメールアドレス、ソーシャルメディアのハンドルなども記載されています。
いつものように、すべてのニュース記事へのリンクもあります。ぜひレビューやコメントをお寄せください。AIに興味のある友人たちにも共有してください。
何よりも、聞き続けてください。このエピソードを締めくくるAIソングをお楽しみください。
先週、私たちはInsta BRの新しいAIライドボックスを見ました。スクロールの中に隠されたすべての秘密。メタスタックは輝いています。その日を分割しています。森が最後に、彼らは先頭に立っています。
喧騒と賑わいから、バーチャルなキャッチアップ。AIの最新情報を毎日。聞き続けて、聞き続けて。知るべきことがたくさん、PRするべきことがたくさん。
アルゴリズムが話し、共に入り込む。データの流れる足跡を見ましたか?思考する機械が、舞台裏にいます。目に見えない革新、夢のよう。聞き続けて、聞き続けて。知るべきことがたくさん、PRするべきことがたくさん。
取り残されないで。週刊で心を広げよう。あなたのドアの前に、夜に待っています。ニュースを探索する準備はできていますか?聞き続けて、聞き続けて。知るべきことがたくさん、PRするべきことがたくさん。

Last Week in AI 177 - Instagram AI Bots, FLUX.1, SAM2

いいなと思ったら応援しよう！