見出し画像

先週のAI #197 - GmailとDocsのAI、MiniMax-o1、タイタン

26,876 文字

こんにちは、先週のAIポッドキャストへようこそ。いつものように、AIに関する最新のニュースについてお話しします。今回のエピソードでは先週の最も興味深いAIニュースをまとめて議論します。また、このエピソードでは扱わない内容については、私たちのニュースレターlastweek.inをチェックしてください。このエピソードで取り上げるストーリーへのリンクは説明欄にあります。
私はAndre kovで、いつもの司会の1人です。大学院でAIを学び、現在はジェネレーティブAIのスタートアップで働いています。今回はいつもと違いJeremyは出席しておらず、政策関連の業務で不在です。代わりに、200万人以上の技術系読者を持つコミュニティと、ナンバーワンAIエンジニアポッドキャストを運営するLatent Spaceから素晴らしい共同司会者をお迎えしています。素晴らしい共同司会者になってくれると思います。自己紹介をお願いします。
私はalesioです。ShaunとLatent Spaceを共同運営しています。early stageの技術系創業者への投資を行うVCのdecielを経営しており、オープンソースとAIエンジニアリングでも活発に活動しています。GitHubやTwitterで多くのプロジェクトを公開しています。
これはswixです。私もLatent Spaceの共同ホストで、2月にニューヨークで開催されるAIエンジニアサミットを運営しています。これはエージェントとAIエンジニアリングのリーダーシップに完全に焦点を当てたものです。また、small AIの創業者でもあります。私たちはAIニュースとLatent Spaceを運営しており、同じ分野にいます。長年リスナーをしていたので、あなたの代役として参加できて本当に嬉しいです。
新しい共同司会者を迎えられて良かったです。Latent Spaceについてリスナーにもう少し詳しく説明していただけますか?私たちは広い意味でAIエンジニアにサービスを提供しようとしています。Latent SpaceはソフトウェアエンジニアによるAIの製品化への移行に関するものです。既存のAIやMLのメディアやカバレッジ、さらには態度や哲学は研究に非常に焦点を当てていると思います。特にチャットGPTから始まった動きとともに、多くのものが製品化され、基本的に私のような人々が製品を構築できるようにハードルが大幅に下がっています。
私たちはインタビューを行っていますが、それは確かにポッドキャストの大きな部分です。また、エッセイも書き、カンファレンスのカバレッジも行っています。NeurIPS、ICML、CLEARなどをカバーして、最新の研究について紹介しています。alesio、何か追加することはありますか?
ほとんどカバーしていると思います。水曜日に週刊ペーパークラブがあり、金曜日には週刊AI in Actionクラブがあります。Discordには現在約5500人のメンバーがいます。研究に興味がある人は水曜日が、応用に興味がある人は金曜日が適しています。YouTubeでもより多くのことをしようとしているので、チェックしてください。フォーマットが気に入ったら教えてください。それが2025年の計画です。
皆さんはAIの分野で非常に知識が豊富で、日々それを実践していることが分かります。楽しいエピソードになりそうです。
いつものように簡単なプレビューをすると、今週は少しライトなエピソードになります。大きなニュースはそれほどありません。ツールとアプリ側では小さなアップデートがいくつかあり、ビジネス面では小規模なものがあります。OpenAIのドラマは落ち着いてきているので、小さなアップデートが主です。先週と同様に、いくつかの素晴らしいプロジェクトとオープンソース、研究のストーリーがあります。そしてバイデン政権が任期を終える前に行っているアクションについてもう少し更新があります。
少し軽めのニュースウィークになりそうで、普段より短めになる可能性がありますが、会話する時間が増えることになりそうです。
もう1つ、リスナーのコメントや訂正を認識したいと思います。YouTubeでより多くのコメントを見かけるようになり、嬉しく思います。また、新しいDiscordでもチャットが行われています。説明欄にリンクがありますので、私たちの非常に小さな新しい「先週のAI」Discordにぜひ参加してください。Latent Spaceとは異なり、まだ形成段階ですが、様子を見ていきましょう。アイデアとしては、ポッドキャストでカバーする前に、ニュースや論文を見つけ次第投稿し、そこで議論できるようにしたいと思います。チェックしてみてください。楽しい場所になっていますし、少なくとも、ポッドキャストを聴いてくれる人々の様子を見るのは私にとって楽しいことです。
ニュースに入る前に、いつものようにスポンサーに感謝したいと思います。しばらくの間、スポンサーはBabson CollegeのGeneratorです。これは起業家精神AIに焦点を当てた学際的なAIラボで、Babsonは米国で起業家精神において第1位の学校です。このイニシアチブでは、Babson全体の教授陣が学生と協力してGeneratorを立ち上げ、起業家精神とビジネスイノベーション、AIエシックスと社会、未来の仕事と人材などのさまざまなグループに組織化しています。彼らはBabson全体にピアトレーニングを行っており、AIの概念とAIツールについて教職員が最新の状態を保てるようにし、AIを使った起業家精神、イノベーション、創造性の方法を指導しています。とても素晴らしいイニシアチブで、BabsonはAIに全力で取り組んでいます。
それでは、いつものようにツールとアプリから始めるニュースに移りましょう。最初に、それぞれはそれほど大きくはありませんが、2つのストーリーをペアにしてみました。
まず、GoogleはGmailとDocsのAIを無料にしますが、Workspaceの価格を引き上げます。これらのWorkspaceアプリは、GmailやDocs、Sheetsなどのビジネス向けに支払いができるものです。Geminiビジネスプランでは、ユーザー1人あたり月額20ドルでAI機能を利用できました。Googleは今これを無料にしますが、サブスクリプションの基本コストを12ドルから14ドルに引き上げます。これは、人々が本当にこのGeminiビジネスプランに興味を持っていたのかという疑問を投げかけます。
そしてちょうどそのタイミングで、Microsoftも同様のことを行いました。彼らはビジネス向けCopilotを持っており、いくつかのリブランディングを行いました。現在、ビジネス向けCopilotは無料で、Microsoft 365 Copilot Chatとなり、Copilot ChatはBing Chat Enterpriseにリブランドされ、エージェントの側面を強調しています。ここでも再び、人々にこの365 Copilotにサインアップするよう促しています。
これら2つのストーリーで、GoogleとMicrosoftの両方が、人々が支払うためのビジネスオファリングを持っており、製品スイートを持つユーザーに対してアップグレードを促しています。これらのツールは、メールのサマリーや自動会議ノート、ライティングツールなどを提供しますが、特に目を見張るようなものはありません。ビジネスマンがこれらのサブスクリプションにどれほど興奮しているのか、判断するのは難しいところです。
我々の会社では、AI Center of Excellenceと呼ばれるグループがあり、約200のFortune 500企業とAIバイヤーがいます。ほとんどの人がCopilotはスキャムだと言います。なぜなら、Workforceに月額12ドル支払っているのに、AIのために20ドルを要求されるのは筋が通らないからです。基本的に起きていることは、P&LのAIウォッシュのようなものです。これらの企業が行っていることは、「すでに12ドル支払っているから14ドルに上げます」というものですが、内部的には2ドルがAIに行くのではなく、6ドルがAIに、8ドルが以前の製品に行くと見なします。そうすることで、これらの企業が行っているAI投資に対するAI収益とROIのような報告が良く見えるようになります。
多くは財務エンジニアリングですが、市場価値が100億から300億ドルの中規模企業の一部は、すべてAIを無料で始めています。AIに別途料金を請求しようとはしていません。なぜなら、それほど多くのレバレッジを持っていないからです。Microsoftの場合、MicrosoftショップでTeamsやSharePointを使用している場合、移行することはありませんが、AIに支払うということではありません。しかし明らかに、Microsoftは、AIとデータセンターに投入している多くの資金がROIを得ていることを示す必要があるため、多くの監視下にあります。このようなAIのバンドルと価格設定をより多く見ることになるでしょう。
私はこのことについて少し前向きに考えています。私たちはいつも、メータリングするには安すぎるAIのビジョンと、本当に良い無料階層を持つことを望んでいました。これはAIを至る所に存在させることになります。AIウォッシュが進行中であることには間違いなく同意します。コンサルティング企業は特にこの点で非常に罪深いですが、これは私たちが望む未来です。AIが無料で、至る所に存在し、小さな方法で存在し、その後希望的には時間とともにステップアップしていくことを。
私は、彼らのイントロビデオ、Copilot Chatのイントロビデオを見ていて、UIを見ると、どのモデルを使用しているのかが書かれていないことに気づきました。OpenAIのことはどこにも書かれておらず、これは将来的にMicrosoftがOpenAIとどの程度協力したいのかという疑問です。少し不明ですが、以前MicrosoftはOpenAIと非常に密接な関係を持っていたのに、今はそうでないかもしれないというのは興味深いですね。
私も両方の側面があると思います。GmailとGoogle Sheetsのユーザーとして、スプレッドシートで行う退屈な作業の一部を自動化し、Geminiに依頼できる将来を楽しみにしています。また、あなたが言ったように、これはGoogleとMicrosoftの実際の利点だと思います。彼らはすでに製品スイートを使用している人々がいて、アップグレードして支払いを行うよう促すことができます。
Microsoftの最新のリブランディングでは、無料版はCopilot Chat、有料版は単にCopilotとなっており、月額30ドルで支払うさまざまな機能があります。また、ウェブ上で研究を行い、知識グラフを使用するエージェントもあり、従量制で支払います。彼らは明らかに製品スイートを積極的に拡大し、人々に購入してもらおうとしています。
次のストーリーでは、Googleが最新のニュースをGeminiを通じて配信するためにAPと契約を結びました。APはAssociated Pressで、速報ニュースの配信を多く行っています。これは、ニュース組織との新たな契約の例です。OpenAIはすでに2023年にAPと契約を結んでおり、今度はGoogleが同様のことを行いました。おそらく、統合して速報ニュースを提供するために支払いを行っているのでしょう。過去1年間のOpenAIのトレンドについて多く話してきましたが、今、他の企業も同じような道をたどり始めているようです。
私たちのポッドキャストでは「AIの4つの戦争」というテーゼがあり、これはデータ戦争の一種です。これが最初の例かどうかは分かりませんが、ニュース提供者が排他的でない早期の例の1つです。APがOpenAIとGoogleと契約を結んでいます。OpenAIの契約において、他社との契約を禁止する代わりに追加料金を支払うという条件があったかどうかは分かりませんが、明らかにAPがこれを行ったことで可能になり、明らかにニュース組織の利益になります。すべてのLLMトレーナーと契約を結ぶことは利益につながります。料金がどのくらいなのか本当に気になりますね。
TRBDサーチなどが導入されることで、状況は変化してきています。以前は「私のニュースをモデルのトレーニングに使用しても何も得られない」という状況でしたが、今は情報源の帰属を明記する製品に移行していて「アクセスに対してお金を得られ、さらに製品へのクリックも得られる」という状況になっています。
Barenは、Wall Street Journalや金融サービス関連で同様のことを行っています。結局のところ、Googleが消え、Elonが導入したソーシャルメディアアルゴリズムが常にリンクを抑制している中で、人々を自社の製品に呼び込む新しい方法を見つける必要があるのです。
これらの契約はかなり高額になる可能性があります。この分野で働く人々から聞いた話では、初期段階の企業は75万から150万ドル程度を支払っています。OpenAIは情報源によって3000万から5000万ドル程度を支払っているかもしれません。トレーニングにも使用できるかなど、細かいパラメータによって金額が変わってきます。
これらのストーリーをカバーしてきた経験から、具体的な数字は得られませんでしたが、様々な例から見ると、出版社の規模によって数百万から数千万ドルになる印象があります。出版社にとってはかなり魅力的な契約です。また、これらが非排他的なアクセスであったことも思い出します。おそらく他のケースでも同様で、このような話は増えていくでしょう。
広く見ると、この戦いの一部として、訴訟を起こすかパートナーになるかという「戦うか協力するか」の決断があります。パートナーになる道を選んだ例として、AtlanticのThe Vergeポッドキャストでのインタビューを聞くことができます。彼らはライセンス契約を結んだ理由について話しており、訴訟を起こすことと契約を結ぶことにそれほど違いを感じていないようです。純粋に経済的な観点から、どうすれば自分たちのコンテンツから最大の利益を得られるかを考えているだけです。
LLMラボの側から見ると、少し困った状況です。私は法的戦略家ではありませんが、AIトレーニングがフェアユースであると主張して支払いを拒否することもできますが、実際に支払いやライセンス契約を結ぶことで、ある種の罪を認めているようなものです。両方を主張することは難しいでしょう。これは裁判所で決着がつくことになるでしょう。
これは、OpenAIに関する全てのストーリーで注目してきたことです。彼らは全ての出版社のデータをトレーニングに使用することについてフェアユース論を展開する一方で、新しいデータのトレーニングとニュースの提供のために、そして過去のカタログを使用するために、これらの契約を結んでいます。あなたが言う通り、これが進行中の訴訟にどのように影響するか見守る必要があります。
次のストーリーも非常に関連していますが、MistralがAFP(フランス通信社)と契約を結び、Le chatで最新のニュースを提供することになりました。Le chatは基本的に彼らのチャットGPTやGeminiのようなチャットボットです。非常によく似ていて、チャットをしながらストーリーにアクセスできるようになります。
これも、進行中のデータ戦争、そして検索戦争の別の例です。あるいは戦争と呼ぶべきではないかもしれませんが、誰もが自分たちのチャットを使って現在起きていることを知ってもらおうとしています。Mistralがこのチャットボット分野で競争しようとしているのは興味深いです。Le chatを使用している人がどれほどいるのか分かりませんし、すでに非常に優勢なチャットGPTやGeminiなどと競争できるのかどうか分かりませんが、彼らが挑戦しようとしているのは興味深いですね。
そこからは少し異なるストーリーに移って、OpenAIに関連して、チャットGPTにリマインダーとタスクが追加されました。タスクと呼ばれるこの良い機能が追加され、Google アシスタントやSiriのような将来のアクションやリマインダーをスケジュールできます。Plus、Team、Proの支払い会員が利用でき、毎日の天気予報やリマインダーなど、一回限りまたは繰り返しのタスクを設定できます。
製品の観点から見ると、彼らがこのようなことをするのは驚きです。私は常にこれらのチャットボットを、研究や仕事を行う一回限りの場所として考えていましたが、ここではSiriのようなものとしてチャットGPTを位置づけ、これまでの製品の方向性ではあまり見られなかった個人アシスタントとして位置づけています。
これは基本的に、チャットGPTインターフェースでバッチ完了を取得する方法です。明らかに彼らにとって良いことです。ほとんどの場合リアルタイムデータではないので、多くのことを事前に計算できます。そして、Cronジョブも手に入れました。開発者の場合、明らかにスケジューリングしたいと思うでしょうが、技術に詳しくない人々にとっては、特定の時間に同じことを毎回できるというのは大きなアップグレードだと思います。
ただし、関数呼び出しやコードインタープリターがないと思うので、採用がどうなるかは分かりません。数字を見てみましょう。しかし、時間とともに簡単に追加できますね。
あなたが誰であるかによって、これは今週最大のローンチか、あるいはOpenAIの完全な失望かという二重のストーリーがあります。「AGIを構築することから始めると言って、今はリマインダーを構築している」という声もありますが、これは出発点だと思います。彼らはエージェントの部分で何かを達成したいと考えており、これはエージェントが必要とする基本的なループの1つです。非同期である必要があります。
LangChainもOpenAIがタスクをリリースした同じ日にAmbient Agentsと呼ぶものをリリースしました。両者は基本的に、チャットを開始しなくてもAIが何かを行える領域を探求しています。Ambient Agentsの一般的なテーマは、2025年を通じて賭けたり探求したりできるものだと思います。チャットGPTのタスクはその道筋にありますが、非常に小さな一歩に過ぎません。
基本的にGoogleやMicrosoftの製品スイートで得られるものと競争しようとしています。それは生産性ツールやメールなどに組み込まれています。これは多くの人々がAIに予見する機能で、個人アシスタントとして常に存在し、あなたとの対話だけでなく常に何かを行っているというものです。
また、チャットGPTを差別化しようとする例でもあります。私の見方では、チャットGPT、Claude、Geminiの間にはまだあまり違いがありません。1つのチャットボットは他のものとそれほど違いはなく、固執する理由もありません。より安価で、より速く、より良いものを使用することになるでしょう。私個人的にはClaudをより多く使用するようになっています。
人々を引き留め、コミットさせる方法という製品の観点もあります。
アプリケーションとビジネスに移りましょう。それほど刺激的なストーリーはありませんが、まずは通常のチャットボットやLLMとは少し異なる興味深いものから始めましょう。
Palmer LuckyのAI防衛企業Andurialがオハイオ州に10億ドルの工場を建設します。Palmer Luckyは著名なCEOおよび創業者として取り上げられています。以前はVRを手がけ、現在のMetaが行っているOculusを立ち上げました。その後、軍事用途のドローンやAI対応ドローンを構築する企業Andurialを立ち上げました。
FuryやRoadrunnerドローン、Barracudaミサイルなどがあり、これらはAI対応でより高度なものとなっています。おそらく従来の軍事請負業者やR&D企業と競争していると言えるでしょう。Arsenal Oneと名付けられた10億ドル規模の工場を建設することを考えると、明らかにビジネスは好調です。
これは、私たちがAIとその軍事的影響についてあまり話していないことを浮き彫りにしています。これまで、高度なAIが戦争や進行中の戦闘で主要な役割を果たすことはありませんでしたが、いずれ起こることは間違いないと思われます。確実に人々は投資し、その方向に動いています。
AIの進歩と急速な改善への全体的な推進力の中で重要な点は、それが技術のこの側面にも影響を与えるということです。
これは間違いなくすでに起きています。私たちはサイバーセキュリティの分野で多くのことを行っていますが、2種類の戦争があります。リソース拒否のようなデジタル戦争と、ドローンなどがあります。しかし、今日のほとんどはかなり自律的です。これが、以前ポッドキャストで話題にした「ソブリンAI」や同様のものが重要な理由です。
戦争がより多くテクノロジーに依存するほど、これらのものにとってインフラを所有することがより重要になり、データセンターの場所が重要になり、どのモデルが実行されているかが重要になります。
ChromaのAnonが行った偽のプロテストのようなものがありました。「人命を危険にさらすので、自律的な戦争システムを構築しないことは違法だ。代わりにロボットを戦わせるべきだ」というものでした。AIがタグラインに入ってきているので、今後数年でこのようなことがより多く見られるようになるでしょう。
実際、軍事応用だけでなく、Sentinelタワーという成功製品があることを強調しておく必要があります。これは米国の国境沿いで使用される監視システムで、顔認識AIを人々の越境の検出と統合しています。これは別の側面で、AIがすでに監視や人々の検出に大規模に使用されているということです。
中国では大規模に行われていると聞いていますが、この企業は今、ある程度米国でもそれを提供しています。
もう1つ付け加えると、シリコンバレー全体の印象として、軍事や防衛部門との協力に対する考えが柔軟になってきているように思います。AnthropicとMetaの両方が、彼らの製品が国防総省によって軍事目的で使用できると発表しました。
過去には、シリコンバレー型のソフトウェアエンジニアはそのような取り組みに非常に抵抗がありました。GoogleのAI部門であるCloud AIがProject Mavenなど軍事関連の作業を行っていた際には、大きな抗議が起きました。
シリコンバレーの一般的な雰囲気として、人々はそれに対してより開放的になってきているように感じます。少なくとも、非常に収益性が高いと思われるからでしょう。
これらのことについて話すのは難しいです。発言する人もいれば、特定のことを考える人もいますが、その数が実際に変化するわけではありません。ただ、誰が公に話せるかが変わってきただけです。
ベイエリアでは多くの人々が長年防衛に賛成してきたと思います。今はより多くのVCの関心があり、その分野で会社を立ち上げるための資金を調達したいと考える人々が増えているので、より多く話題に上るようになってきたのだと思います。
私は5日後にアメリカ市民になりますので、私の見方も...おめでとうございます!それは常に大きな節目ですね。面白いことに、イタリアで育った私にとって、イタリアの人々は本当に一生懸命働かないのですが、市民権インタビューは朝7時45分に入国管理局で行われます。イタリアには朝7時45分に開いている連邦機関など1つもないと思います。まして業務を行っているなんてありえません。アメリカは非常に異なる国です。
次のストーリーに移りましょう。出版社とニュースに戻って、OpenAIがAxiosの新市場への拡大を資金援助しているようです。Axiosはある種のメディア企業で、OpenAIはピッツバーグ、カンザスシティ、ボルダー、ハンツビルのローカルニュースレターへの拡大を支援するために彼らと提携しています。これは3年契約で、OpenAIがメディア企業の編集部門の運営を直接資金援助するのは初めてです。
これまでコンテンツ共有やライセンス契約は見てきましたが、出版社の拡大を実際に支援するのは初めてです。私が想像するに、これはメディア企業とより緊密な関係を築き、より密接に連携するためでしょう。あなたが言う「戦争」の中での興味深い展開であり、メディア企業のイニシアチブに資金を提供するとは予想していませんでした。
また別の種類のビジネスストーリーとして、時々見られる有名なAI関係者によるAGIに焦点を当てた新しいスタートアップの話があります。今回はFrançois Cholet氏で、Indiaという新しいスタートアップを立ち上げました。Mike Noopと共同創業し、すでに採用を開始しています。
Cholet氏の経歴は、約10年前に深層学習のコーディングに多くの人々が使用した非常に人気のあるパッケージであるKerasを作成したことです。その後しばらくGoogleで働き、KerasはGoogleに買収または採用されました。
ある意味でこれはトレンドの一部で、明らかにOpenAIを去ってAGIスタートアップを立ち上げる人々を見てきました。これは別の例であり、おそらくAGIに近づいているという感覚があり、それを目指すことができるのかもしれません。
R-AGIチャレンジでFrançoisとMikeが以前から取り組んでいたのは面白いですね。O3モデルが本当に良いスコアを出しているのを見ると、彼らがラボを始めるというのは興味深いです。人々が100%に到達する道を間違えていると考えて、より良いアイデアを持っているのか、それとも彼らも妥当なタイムラインで到達できると感じていて、自分たちのものを運営したいと考えているのか分かりません。MikeとはThursday nightsにサッカーをしているので、すでにポッドキャストエピソードについてメッセージを送りました。彼らは近々もっと公に話すことになるでしょう。
そうですね。最近O3とR-AGIチャレンジについて取り上げ、O3をAGIと呼べるのか、もしかしたらすでにそこにいるのではないかという議論や会話がありました。この例では、プログラム合成、学習ガイド付きプログラム合成がAGIを生み出し、発明、適応、革新できるとしていますが、一般的に人々は今後1-2年の範囲でこれを目指しており、かなり先の将来ではありません。
VCタイプの話として、資金調達と評価に関連するストーリーがいくつかあります。まず、AI動画プラットフォームのSynthesiaが、マーケティング資料や社内ビデオなどに使用できる人間のアバターを使用したAI生成動画に焦点を当てており、1億8000万ドルを調達し、現在の評価額は21億ドルです。
LLM空間やチャットボット空間ではありませんが、以前もSynthesiaについて取り上げたことがあります。これはAI動画が非常に成功する例の1つだと思います。商業広告でモデルを雇うよりもはるかに安価に、複数の言語に適応させたり、メッセージを素早く変更したりすることができます。例えば韓国の政治でこれが使用された事例を取り上げました。
この資金調達と評価から明らかなように、この会社が20億ドルの評価を受けているということは、これに資金を提供している企業は、多くのビジネスがこれを採用すると期待しているということです。
実際、私たちもLatent SpaceでAI生成のポッドキャストを持つことを考えています。明確にAIとして宣伝するつもりです。人々が私たちの声を聞いているのかAIの声を聞いているのか分かるようにしたいからです。このようなAIクリエイター空間は成長し続けると思います。
Synthesiaは現在のAIの波以前から存在していて、クリエイター経済を支援するだけでなく、より広くサポートや販売など、さまざまなことを行っていると思います。しかし成長し続けると思います。Haenもこの分野で台頭してきています。また、私たちポッドキャスターのようなクリエイターも、それを使用することを考えるべきでしょう。
別のストーリーでは、別のスタートアップが約20億ドルの評価を受けています。今回はCursorの制作者たちで、Andreessen HorowitzやThrive Capitalなど主要なシリコンバレーのVCから1億500万ドルのシリーズBラウンドを調達しました。
CursorはAIコーディングの主要なイニシアチブの1つです。GitHub Copilotのような組み込みのコーディングアシスタントを持つ統合開発環境で、次に何を書くかを予測するのを助けます。Cursorにはそれを差別化する、より高度な機能がいくつかあります。
私は個人的にユーザーであり、私の会社の多くの人々もユーザーです。非常に競争の激しい分野で、おそらくリードする立場にあると思われます。この分野でのコーディングアシスタンスに賭けるスタートアップが多く、多くの資金調達がありました。YCの単一バッチで複数のスタートアップがあったと思います。非常に競争が激しく、現在この会社が主要な競争相手であり、トップに立つ可能性があるように見えます。
IanとLexのインタビューを受けた時が、本当のブレイクスルーだったと感じます。Lexが初めて4人をインタビューし、また初めてLexが初期段階のスタートアップをインタビューしたのは注目に値します。
確かに、私もCursorのユーザーですし、WindsurfをローンチしたCodiumとも親しい関係にあります。昨年はVS Codeをフォークして競争しようとする人々がちょっとしたミームでしたが、Cursorは本当に素晴らしい実行力と、最初に登場したという利点がありました。
実際、彼らは私たちのポッドキャストに出演した最初のポッドキャストだったと思います。彼らの実行力を見て、また昨年の私のカンファレンスでも講演してもらいましたが、非常に地に足のついた、決意に満ちた姿勢で、コーディングの方法について非常に強い見解を持っていました。スーパーAGIエージェントなどは約束せず、ただ「AIを搭載したより良いIDEを作る」と言っただけです。
通常、このような挑戦者は既存のVS Codeに何かを強いることになると言われますが、VS CodeとGitHubは何かを行っていますが、通常はCursorをコピーしているだけです。それが戦略なのかどうかは分かりません。
今やCursorは1億ドル以上の収益があります。収益を上げているスタートアップはそれほど多くありません。私はCursorに3倍の料金を支払ってもいいと思います。Composerを毎日使用していて、本当に素晴らしいです。
昨晩のVersel Nvidiaハッカソンでもspeed zeroを使用しましたが、speed zeroはBoltやこれらの製品に近い感じで、プレビューを見ることができて本当に良いですが、Composerはコーディング面で同じくらい良く、自分の環境で使え、多くの利点があります。
これからどうなっていくか興味深いですね。Retはタグでは少し遅れを取っているように見えます。製品では明らかに多くの進歩を遂げていますが、競争の激しい分野です。開発者のマインドシェアを獲得するのは難しく、IDEの形式しかない場合、人々は簡単に切り替えることができます。同じリポジトリをVS CodeとCursorで同時に開くことができます。同じものですからね。今年はさらに戦いが激しくなると確信しています。
ここに複数のプレイヤーが存在する余地があるのか、それともCursorがすべてを飲み込んでしまうのか興味深いところです。私も以前からOpenAIはCursorを買収すべきだと言ってきました。なぜなら、彼らは今や本当に良いコーディングデータのソースだからです。誰もが1つ必要だと思います。
私のテーゼは基本的に死んでしまいました。なぜなら、CursorはAnthropicの最大の顧客だと噂されているからです。そのようなことがあるのです。彼らは確実にAnthropicの制限に遭遇しました。複数のスタートアップがこれを主張していますので、どれほど真実なのか、あるいは正確な位置づけがどうなのかは分かりませんが。
アプリケーションについて、私たちはポッドキャストのアプリケーション層にいるわけですが、通常はマルチモデルになりたがり、LLMラボは垂直方向に行きたがります。彼らは自分たちのチャットGPTを構築し、タスクとリマインダーを構築したいと考えています。これはアプリケーションとファンデーションモデルラボの間の行ったり来たりの戦いの1つになるでしょう。
最後の資金調達のストーリーとして、Harveyという法律目的でAIを提供する企業があります。彼らは30億ドルの評価で3億ドルを調達しようとしています。収益は前回の7月のシリーズCラウンドの時点で約3000万ドルだったものが4倍になったとされています。
これも、より特定の領域に特化した企業の例で、この場合は法律アプリケーション向けのAIを目指しています。特定の法的ケースの調査を行う際など、幻覚を起こさず、正確な情報を提供することが非常に重要です。Harveyはその分野で早期のプレイヤーの1つで、すでにかなりの収益を上げているようです。以前、主要な法律事務所といくつかの契約を結んだことも取り上げました。私の見方では、もう1つの生き残りそうな企業です。
興味深いのは、Cursorの評価額について触れませんでしたが、New York Timesによると、1億ドルの年間経常収益(ARR)で25億ドルの評価を受けています。これは、現在5000万ドルのARRとされ、より高い評価を受けているHarveyと比較して興味深いです。収益は半分なのに評価額が高いのです。これは法律分野が非常にホットなのか、それとも投資家がこれに必死なのか、何が起きているのでしょうか。
それを言うのは難しいですね。Cursorは非常に良い仕事をしているという認識があると思います。また、あなたの指摘に戻りますが、1つの勝者が出るのかという質問があり、これらの企業が全て生き残れるのかという疑問があります。明らかに誰もが初期段階で大きな牽引力を得ていますが。
Harveyは拡大しています。ほとんどが公開されているので、私は何も漏らしていませんが、Harveyは法律だけでなく、全ての専門サービスに広がっています。同じことがHeyaでも起きており、最初は金融サービスに焦点を当てていましたが、現在は全てのサービスビジネスや知識労働に向かっています。
彼らには重複する投資家がいるので、彼らが進んでいる競合の道について、投資家の一部は少し神経質になっていることを知っています。
理論的には、全ての専門サービス業を対象とする方が市場は大きくなりますが、実際には全ての専門サービス市場に対応する企業を作るのは難しそうです。a16zは既にcursorの投資家だったので、おそらくそれに固執せざるを得ないのでしょう。また、創業者が実際にどれだけの解決策を持っているかも計算に入れる必要があります。評価額だけの問題ではありません。
私も気になるのは、その資金がどこに使われるのかということです。GPTラッパーを作るのに3億ドルも必要なのでしょうか。彼らは独自のモデルを持っていますが、実際のところ、トラフィックの大半はクラウドとGPTに流れています。ただし、彼らを批判しているわけではありません。
もともと「一度の資金調達で終わり」とか「利益を出す」とか「ユニコーン企業の10%」といった理論があったはずです。それがGumloopの主張するところですが、cursorもHarveyも従来型の道を歩んでいます。もちろん、彼らは前回の調達資金にはまだ手を付けていないと言いますし、お金は銀行に眠っているわけですが、それは営業やマーケティング用なのでしょうか。
私にはわかりません。cursorの従業員数も把握していませんが、LinkedInを見るとHarveyは74人です。私は彼らのオフィスに行ったことがありますが、従業員の他に多くの投資家がいて、さらにantsphereという名前は世界中の様々なテック関連で一般的に使われているので...確実に小規模なチームですね。おそらくcursorはほとんどの資金をコンピューティングに使っているのでしょう。
これがAIの別の側面です。多くはモデルラボへの通過点になっているので、マージンはどうなっているのでしょうか。彼らが実際に利益を出しているのか気になります。というのも、ここにはある種の価格競争の側面があり、特にチャットボットプロバイダーに関しては、トークンあたりのドル単価を積極的に引き下げる動きがありました。
特にコーディングのような競争の激しい分野では、同様のパラダイムが予想されます。GitHub Copilotが早い段階で確立した月額20ドルという料金を超えることはできないでしょう。cursorのような、コーディング中に常に提案を行い、複数のファイルにわたって推論を行い、長い質問に答えるようなサービスでは、1ユーザーあたり月額20ドルの購読料が、典型的なプログラマーの毎日のクエリ使用量をカバーできるのか疑問です。
プロジェクトとオープンソースに話を移すと、ここには面白い話がいくつかあります。まず、MiniMax o1について。これは基盤モデルのスケーリングに関するものです。MiniMax Text1とMiniMax VL(Vision Language)o1があり、大きな特徴は、より長いコンテキストを処理できることです。
ライトニング・インテンションとエキスパートの混合を使用して、合計4,560億パラメータ、トークンあたり450億のアクティブパラメータを持っています。このクラスのモデルとしては非常に大きいものです。これらのモデルは、トレーニング時に最大100万トークン、推論時には400万トークンものコンテキストウィンドウを扱えると言われています。
これはChatGPTが登場して以来の大きな話題の一つです。以前は、コンテキストウィンドウ(入力できる長さ)はデフォルトで4,000トークンや8,000トークンでした。本1冊分のコンテンツや複数の文書を扱えるかどうかということです。この例では、新しい形式のアテンションを使用することで、これを実現しています。通常、これがこの種の長いコンテキストを可能にする主要な手法の一つです。
MiniMaxは、他のオープンモデルよりも20〜30倍長いコンテキストウィンドウを提供すると述べています。これは公開されているため、GPT-4やClaude 3.5 Sonnetのようなトップクラスのモデルと競合する、もう一つのオープンソースモデルのクラスと言えます。
非常に大きな進展です。私が興味を持っているメタな話題は、この研究所「Haifa」の台頭です。昨年はほとんど発表もなく、静かにビデオモデルを作り始め、今やテキストモデルも作っています。彼らは何者で、何をしているのでしょうか?
深い調査はしていませんが、主に中国の組織からこのような発表が増えているのを目にしています。これも中国のものだと思います。オープンソース分野で活動しているということも、興味深い傾向の一つですね。最近取り上げたQwen、QVQなども、llamaやその他の既存のものと競合する、この分野の主要なプレイヤーになっています。DeepSeekなども同様です。
確かにそうですね。他の点で言えば、MOE(Mixture of Experts)の数が増加している傾向も明確に見えます。32エキスパートが標準になってきていて、以前は8でしたが、今では150〜160まで増えています。効率的なスパース推論という点でコンセンサスが得られているようですが、そんなに多くのパラメータを持つと、実際のサービス提供は非常に困難です。
これはDeepSeek V3にも当てはまります。これらはほとんどがトレーニングモデルで、実際に使用する際には小さなものに蒸留できます。面白いのは、彼らがこのようにテキストモデルを立ち上げることを選択したことです。通常は逆で、例えばMistraは8Bを立ち上げ、その後8×22Bに移行しましたが、中国企業は逆に最初から大規模なものを出しています。
ベンチマーク面では、長いコンテキストに関して非常に優れた性能を示しており、ClaudeやGPT-4と競争力があり、他のオープンソースモデルよりもはるかに優れています。もう一つの興味深い点は、llamaなどの他のモデルと同様に、トレーニングやアーキテクチャの詳細について、arXivで多くの情報を公開していることです。基本的に、トレーニングモデルの最適化や長いコンテキストウィンドウの扱いなどについて、すべての手順を説明しています。
興味深い点がもう一つあります。様々なLLMタスク用の競争力のあるオープンソースの提供に加えて、視覚言語タスク用のAIもありますが、良いLLMを持つための秘密の方程式のようなものは存在しないようです。私の知る限り、良いデータとインフラストラクチャさえあれば、トレーニングやモデルのセットアップの詳細はほとんど秘密ではありません。
次のモデルはminm Moと呼ばれ、オープンソースではあまり見られない分野の別の側面をカバーしています。これは音声統合とオーディオに重点を置いたマルチモーダル大規模言語モデルです。これも中国の同済大学とアリババから出たもので、80億パラメータのモデルで、音声理解と生成に焦点を当てています。
これは音声認識、音声からテキスト、テキストから音声を扱います。視覚言語がオープンソースモデルをあまり見ない分野であることを最近言及しましたが、今や印象的な例が出てき始めています。音声からテキストの例では、Whisper Large V3eと競争力があり、言語識別で85%、方言やその他のタスクで98%の精度を達成しています。
非常に印象的で、このような種類のモデルがますます開発されているのは興味深いことです。この例では、コードとモデルはまもなく公開されるとのことですが、現時点では論文だけが公開されています。これも、完全なローンチの前にプレビューと論文が公開される例の一つですね。数値と論文は見えていますが、実際のフォローアップがあるかどうか見守りましょう。
最後の例はベンチマークに関するものです。これも、常に多くのことが起きている分野の一つで、AIの推論ゲームの異なる側面に対する新しいベンチマークが多数あります。この例ではhogenで、論文やレポートには「素晴らしいLLMの幻覚とその見つけ方」というハリー・ポッター映画を参考にしたタイトルが付いています。
これはLLMの幻覚、つまり本質的に誤った発言をする頻度を特定し、ベンチマークを行うことに焦点を当てています。約11,000のプロンプトと自動検証機を備えており、LLMの出力における信頼できる知識と事実の生成頻度を調べます。興味深いことに、トップパフォーマンスのモデルでさえ、一部の分野では最大86%もの幻覚率を示すことがわかりました。
私の個人的な経験と印象では、幻覚は徐々に実際の問題ではなくなってきています。コーディングや何かトピックについて調べたいときなど、存在しないパッケージをインポートしたり、存在しない何かに対して適当な関数呼び出しを行ったりすることを心配する必要はあまりありません。しかし、少なくともこの例では、コーディング、テキストの単純化、歴史的出来事などについて、まだかなり大きな幻覚が存在すると述べています。
幻覚が問題ではないという点には少し同意できません。ユースケースによって異なると思います。私が見るコード生成の例では、LLMは依然として存在すべきと考えている存在しないAPIのコードを多く生成します。また、非常に単純な例を挙げると、cursorは長い間、OpenAIのコードを書こうとすると、古い補完APIを参照し、新しいチャット補完APIを参照しませんでした。
もちろん、ベータAPIについては何も知らないので、それは非常に煩わしいことでした。また、大規模なレポート生成、例えばGemini Deep ResearchやLeioBach to Fir(Bright Wave)のような、多くのデータソースからレポートを生成するものについても同様です。私もAI Newsを運営していて、毎日多くのリソースからレポートを生成して配信していますが、毎日幻覚が発生しています。
ソースとの関連性を理解していないため、時々混乱が生じたり、明らかに間違っていることを事実確認しないことがあります。例えば、Eric SchmidtがMetaを経営しているといった小さなことでも、「いや、それは間違いだ」と思います。でも、モデルはそれを知りません。読者から毎回報告を受けていて、「申し訳ありません、頑張っていますが」と言うしかありません。私にできる最善のことは、別のエージェントにエージェントをチェックさせることくらいです。
確かに、私も幻覚をそれほど心配していないと言いましたが、歴史的な詳細など、事実に関することをLLMから引用したり主張したりすることには躊躇するでしょう。簡単に捏造される可能性があるからです。
これが、Perplexityのようなものが実現するまでにもっと時間がかかると思っていた理由です。実際には、引用があり、ソースをクリックして「ああ、LLMが間違えたけど、面白いね」と思って日常を続けられる限り、人々は気にしないようです。ソースを提供している限り、大きな問題ではありません。
研究と進展に移りましょう。AI分野で大きな興奮を生んだ論文が少なくとも1つあります。TwitterやReXverseで話題になった「Titans: Learning to Memorize at Test Time」というタイトルのGoogleの論文です。要点としては、LLMは通常、トレーニング後は「凍結」されています。トレーニングを受け、特定の日付までの知識を持っていますが、そこで知識は切れています。
研究分野では、それを超えて、モデルを継続的に更新してより新しい知識を取り入れる方法について、多くの研究がなされてきました。例えば、2024年半ばに取り上げたTCTなどがその一例です。現在、人々が非常に期待を寄せている新しいバリアントが「Titans」です。
アイデアとしては、まずノベルティ損失(novelty loss)の定式化があります。これは新しい情報がどれだけ新規性があるかに基づいて、長期記憶に保存すべきかどうかを判断するものです。また、情報の忘却についても具体的な方法を提案しており、時間の経過とともに関連性の低い情報を放棄できる減衰モデルを持っています。
さらに、メモリをアーキテクチャに統合する方法も検討しています。メモリを持つ方法には複数のバリエーションがあり、「memory-in-context」と呼ばれるバリアントでは、モデルの複数の部分を持ちます。永続的メモリ(典型的なLMで、永久に存在する知識を持つ)、進行とともに更新される長期神経記憶、そして入力に付加されるコンテキストとしてのアーキテクチャがあります。
入力シーケンスを取り、永続的メモリから情報を追加し、さらに入力に関連する長期記憶からも知識を追加します。そしてそれら全てに対してアテンションを行い、出力の一部として、このノベルティメトリクスを使って神経記憶を更新します。
別の例として「memory-as-gate」があります。これは入力に対する典型的なアテンションを計算する際に、長期記憶を考慮に入れます。また「memory-as-layer」という例もあり、これは再帰的モデルで一般的に行われる方法に近く、入力をメモリに通して、メモリを更新し、モデルの中間層をほぼメモリとして機能させます。
このように、入力のノベルティに基づいてモデルを実際にテスト時に更新します。予想通り、Transformer Plus+、Mamba、DeltaNet、TCTなど、様々なメモリモデルと比較して、かなりの指標で上回る性能を示しています。
これはLLMの未解決の問題の一つです。デプロイされたエージェントやアシスタントを使用する場合、長期的な事柄、つまりチャットで見たり話したりしたことを覚えられないという事実は、本当の障害であり、AGIが不可能である理由の一つだと思います。これについての研究はますます増えており、これはMambaやTCTなど、多くのものの上に構築されています。様々なものとの詳細な比較があり、もちろんベンチマークでの数値も非常に良好なため、人々は大きな期待を寄せています。
それは本当に良い要約だと思います。私がこれらについて理解できていない唯一のことは、マルチテナンシーでどのように機能するのかということです。モデルをデプロイしてサービスを提供する場合、これは基本的に1モデル1カスタマーでのみ機能するのでしょうか。複製する必要があるように思えます。それは興味深いですが、実践では難しいですよね。
確かに難しいです。少なくともモデルの一部の重みを更新する必要があり、それがここでの一つの側面です。神経記憶という、更新する部分のモデルと、凍結された他の部分があります。実際にデプロイする際には、人ごと、チャットボットごとに独自のメモリが必要になります。これまでの人々のやり方は、より多くの検索ベースで、ChatGPTのメモリのように、何かを保存して入力に追加するというものでした。ここでは実際にテスト時に重みを更新しており、それがはるかに難しいです。
私はあなたが心配するほどこれが大きな問題だとは思いません。なぜなら、既にプロンプトのキャッシングがあるからです。それは既に人ごとにキャッシュされており、一種のメモリです。この新しいものほど高度ではありませんが、一形態のメモリです。インフラ面では問題ありません。
それは必ずしも真実ではありません。私のメモリをモデルに入れると、新しいレスポンスでは他の誰にもモデルを提供できなくなります。基本的に、エンドポイントを再度アクティブにするときにメモリモジュールを再ロードできます。
インフラ側から見ると、これは大きな側面の一つだと思います。プロンプトのキャッシングと一般的な検索には違いがあります。モデルへの入力に余分なものを追加することは一つのことですが、ここではカスタマイズされたモデルがあります。つまり、何百万もの異なるバリアントのモデルを保存し、GPUにロードする必要があり、それは全く同じではありません。
これらの論文のように、代替アーキテクチャを検討する場合、Mambaについても多く話してきましたが、それは同様の問題に対処します。長い時間にわたって継続的なメモリを持つことができますが、これらのことが実際に現実世界で影響を与えるのがいつになるかは不明確です。しかし、これらの大規模言語モデルを構築する中核的なアーキテクチャとその機能に関する開発を見るのは常に刺激的です。
彼らが言うには、200万トークン以上のコンテキストウィンドウサイズにスケールでき、「needle in the haystack」のようなシナリオでも高い精度を維持できるとのことです。個人的に驚いたのは、このようなメモリを使用せずにコンテキストをこれほどうまくスケールできたことです。NEHスタックは、メモリ利用の最も基本的なバージョンに過ぎないということを念頭に置いておく必要があります。
次の論文に移りましょう。Sakana AIからのもう一つの興味深い、あるいは面白い開発です。彼らの論文をいくつか取り上げてきましたが、彼らは多くの素晴らしいものを生み出しています。今回は「Transformer Squared: Self-Adaptive LLM」です。これは、モデルの最適なバリアントを選択することでリアルタイムでタスクに適応することを検討しています。
基本的に、数学やコーディングなどを専門に扱う異なるエキスパートモデルを持っており、入力に基づいて、それがどのような種類のタスクかを決定する方法をいくつか持っています。それを適切な重みのセットとして使用し、入力をモデルに2回通すことで、より良いパフォーマンスを得ます。これも時間の経過に伴う適応の一例ですが、この場合、一般的なアイデアにはやや失望しました。
モデルの異なる特定のバリアントを事前にトレーニングする必要があり、それらをタスク特定のエキスパートベクトルと呼び、その後それらを重みに混ぜ合わせます。メモリのように動的ではなく、単にいくつかのバリアントを持ち、それらの間で選択するだけです。彼らは、これがLoRAよりも優れており、より効率的で、より少ないパラメータで済むと言っています。LoRAは、ベースモデルを取り、特定のタスクにカスタマイズする非常に重要なテクニックの一つです。
その意味で、これはかなりクールです。SVDなどについての詳細もありますが、とにかく、特定の入力に応じたLLMの適応に関する研究の別の例です。これはSakanaから出ているのが面白いですね。彼らは研究を強化しているようです。以前のAI Scientistや Evil Mergeのようなものは、常に研究の周辺部分を探っているような感じでしたが、これもその範疇に入ると思います。
哲学的には非常に理にかなっています。この2パスメカニズムは、コロンビア大学から出たCD Smallのような埋め込みモデルでも見られます。しかし、私が本当に分からないのは、これが表現微調整(representation fine-tuning)とどのように関係しているかということです。論文を検索してみましたが、REFについてはほとんど言及がありません。
REFは昨年のNeurIPSで最高の論文の一つでしたが、基本的に同じことです。下位層は良いけれど、モデル全体の表現を調整する方が良いということを人々は理解しています。Transformer Squaredは、推論を使用して一種の表現発見を行うという点で面白いのですが、他のすべての点では表現微調整のように感じます。
人々はこれを探求していますが、同時に、大規模な採用があるかどうかはまだ確信が持てません。REFの大規模な採用は見られていませんからね。
もう1つの論文に移りましょう。今週は推論時スケーリングのトレンドに関するものですが、今回はLLMではなく拡散モデルのための推論時スケーリングです。拡散モデルは通常、画像生成に使用されます。拡散とは、ノイズから始めて、そのノイズを何段階かかけて、テキストに基づいて正しいものに向かって画像を変異させることを意味します。
通常、より良い画像を得る一つの方法は、より多くのデノイジングステップ、つまり最適なデノイズ変形に向けて画像を微調整するイテレーションを行うことです。これが通常のトレーニング方法で、実際の画像を取り、ノイズを加え、これらのデノイジングステップを行うようにモデルをトレーニングします。
この論文は、より良い出力を得るためにデノイジングステップを増やす以外に何ができるかを検討しています。彼らが発見したことの一つは、追加するノイズの空間を探索できるということです。つまり、より多くのデノイジングを行うだけでなく、異なる種類のデノイジングを行い、その方法で拡散モデルの最適な出力を見つけることができます。
これはかなり大きな発見だと思います。推論時スケーリングは現在LLMでホットなトピックですが、画像生成ではそれほど競争が見られません。しかし、これがChatGPTやGemini、テキストから画像への競争を行う複数の場所の差別化要因の一つになる可能性があります。出力の品質における最後のデルタを得るモデルの重要な部分になり得ます。
私はもう少し懐疑的です。この論文から何を学んだのかわかりません。拡散モデルはもともと推論時計算のモデルでしたから、改善を試みているのでしょうが、タイトル自体が非常に皮肉的で、現在のホットなキーワードを詰め込んで注目を集めようとしているような感じです。むしろ結果に焦点を当ててほしいですね。
そうですね...しかし、推論時に行うことと似ていると思います。可能な出力の空間を探索するわけですが、この場合、出力は行われた拡散ですよね。CLIPガイドつき拡散では、通常は直線的な経路を取り、ただデノイズ、デノイズ、デノイズと続けます。ここで彼らが言っているのは、異なる方法でデノイズを行い、より良い出力を得られるかもしれないということです。
私にはそれは新規性があると思いますが、おそらくLLMの推論時スケーリングと比べて、それほど良い出力は得られないでしょう。
ポリシーと安全性に移りましょう。チップの制限に関するもう一つの話題です。米国製AIチップの輸出に関する新しいガイドラインと制限があります。これは「AI拡散に関する暫定最終規則」として知られています。新しい分類を行っており、現在3つのグループがあります。日本や韓国のような強力な同盟国、中国やロシアのような敵対国、そしてほとんどの国が含まれる第三のグループです。
これらの各グループには、AIチップの目的に応じて異なるレベルの制限があります。例えば、メキシコ、台湾、イスラエルなどの国々は、1カ国あたり5万台のGPUという上限に直面しています。これはかなり驚くべきことです。これまでは主に中国への制限を見てきましたが、今や他のすべての国にも及んでいます。
NVIDIAはこれらの提案された規則を「前例のない、誤った方向性」として批判しています。というのも、NVIDIAが他国に販売する能力を、非常に大きく制限するもう一つの動きのように見えるからです。
これが実際にどうなるかわかりません。Semi Analysisの友人が、この規則を一行一行分析し、実際の影響について非常に良い投稿をしました。例えば、異なる国々のデータセンターの実態や、マレーシアのように、OracleやNVIDIAがデータセンターの構築に大規模な投資を行っている国についてです。これらの一部がどのように展開されるかは疑問です。
また、制限は地理的な基準ではなく、所有権に基づいています。例えば、スウェーデンの自動車メーカーであるボルボは、中国企業が過半数を所有しているため、GPUへのアクセスも制限されることになります。このルールには多くの影響がありますが、4日後には新しい政権が誕生するので...
そうですね。これら全ての政策について何が起こるかを言うのは難しいです。これは行政側からの発表で、単なるガイドラインと制限です。トランプが就任したとき、これら全てがどうなるかは本当に疑問です。
バイデン政権が行っている最後の一連の施策について、彼らは排出ゼロの電力で稼働するAIデータセンターの開発を加速させる行政命令にも署名しました。国防総省とエネルギー省がこれらのデータセンターの用地をリースすることに関与しています。これも、データセンターの許可取得がいかに困難かという一般的な制限に対処する一例だと思います。
新政権が発足したとき、何が起こるか興味深いところです。トランプはおそらくこれを拡大するでしょう。これを覆すというよりも...トランプはかなりAIに前向きですからね。うまくいくことを願っています。分かりませんが、その期待はあります。
そして、その話に関連して、OpenAIが新しいガイダンス、つまりAI規制の良いバージョンだと考える経済的な青写真を提示しています。予想通り、AIデータセンターをサポートするための電力とデータインフラへの連邦投資の増加を求めています。
また、国家安全保障との産業界の関わりを合理化し、これらのモデルの輸出管理を確立すべきだと述べています。さらに、モデルトレーニングのための公開情報の利用可能性も提唱しています。著作権の問題などについてです。
アメリカの規制は非常に流動的な分野にあるので、OpenAIが今後の方向性に影響を与えようとしているのは驚くことではありません。新政権の発足に合わせてこの青写真を発表したのは興味深いですね。
最後の一つの話題は、より社会的な影響に関するもので、政策でも安全性でもありませんが、関連していると思います。ピュー・リサーチ・センターの調査で、アメリカの13歳から17歳の若者の26%が学校の課題でChatGPTを使用しているということが分かりました。これは2年前の2倍です。ただし、2年前というのがいつなのかよく分かりません。ChatGPTが登場したのはその数ヶ月後だったので...
とにかく、10代の若者の半数以上が新しい科目の研究にChatGPTを使用することは容認できると考えており、約20%はエッセイの執筆にも賛成しています。AIの分野の人々にとって、ChatGPTやこれらのLLMがどれほど小さな影響しか与えていないか、どれほど多くの人々がそれらを使用していないか、あるいは認識していないかを知るのは驚きです。
アメリカの若者の4分の1が使用していることを見ると、明らかに教育に既に大きな影響を与えています。これは、このようなものができた今、進化する必要がある分野の一つとして教育を描き出しています。数字がこんなに低いのは常に驚きです。なぜ100%ではないのでしょうか。奇妙ですね。
最後のセクションに移りましょう。合成メディアとアートに関する話題が一つあります。これは、AI著作権紛争に関するものです。Kri対Meta Platformsの事例は、著作権で保護されたコンテンツの使用に関する作者とIP保持者による継続的な課題の一つです。
先週、Libgenデータセットについて話しましたが、今回はマーク・ザッカーバーグの証言に関する新しい供述があります。例えば、YouTubeについて彼は「YouTubeは一定期間、人々が海賊版にしたものを掲載するかもしれませんが、YouTubeはそういったものを削除しようとしています」と述べました。これは、海賊版コンテンツを含んでいたLibgenに関するものです。
また、「YouTubeのコンテンツの大部分は良いものであり、それらを使用するライセンスを持っていると思います」とも述べています。YouTubeについては特に強調する価値はないかもしれませんが、この供述では他のことも起こりました。
ザッカーバーグはLibgenについてほとんど聞いたことがないと主張し、「Libgenについての意見を言わせようとしているのは分かりますが、私はそれについてほとんど聞いたことがありません。その特定のものについての知識がないだけです」と述べています。
さらに、「YouTubeのコンテンツの一部が著作権で保護されている可能性があるからといって、人々がYouTubeを使用することに対する方針を持ちたくないでしょうか?いいえ」とも述べています。
この供述でのザッカーバーグの発言は特に驚くようなものはありませんが、このLibgenの事例が実際に更新を提供し、これらの法的戦いで何が起きているのかについて、あまり進展や更新が見られなかった中で、いくつかの興味深い点を示していることを指摘しています。
今回のエピソードは以上です。いつものように、Last Week in AIの新しいエピソードを聴いていただき、ありがとうございます。ニュースレターはlastweek.inで、このポッドキャストのノートは全てのリンクとともにlastweek.com[sic]で見ることができます。
ショーンとアリソ、今回も共同ホストを務めてくれてありがとう。Laden Spaceは本当にクールなリソースなので、チェックしてみてください。そして、共同ホストを務めてくれて本当にありがとう。
ありがとうございます。本当に楽しかったです。あなたは非常に重要な仕事をしていると思います。私はいつもあなたのノートを参照していますので、初めて貢献できたことは特別な経験でした。
また、コメントを残してくれるリスナーの皆さん、Discordに参加してくれる人々、少しチャットをしたり、あなたの背景について聞けるのは楽しいです。しかし何より、聴いてくれて、毎週チューニングしてくれてありがとうございます。
そして私たちのAI生成のアウトロをお楽しみください...
[ここで音楽と共にAI生成の歌詞が続きますが、歌詞の具体的な内容は省略します]

いいなと思ったら応援しよう!