
2025年の人工知能 - 果てなき科学 #292
53,040 文字
みなさん、こんばんは。科学を愛する世界中の友人たちへ。今夜も「果てなき科学」のライブ配信にようこそ。2025年2月13日、ブラジリア時間21時20分からお送りしています。
さて、アレクサンドロさん、ライブ配信に参加してくれている皆さんにご挨拶を。そうそう、まだ世の中で無料で残っている数少ないものの1つ、「いいね」ボタンを押すのを忘れないでくださいね。
今日は再びアルバロさんをお招きしています。アルバロさんは番組の初期からの出演者で、彼と一緒にAIの歴史を追ってきました。そして2025年の今、世界に衝撃が走りました。トランプが就任してわずか2日後に発表されたディープサイクの件です。他にもまだまだ話題はあります。
面白いことに、以前の番組で予測した方向とは違う展開になりましたね。サム・アルトマンとイーロン・マスクの争いもそうです。マスクはOpenAIの買収を表明しましたが、以前にTwitterを時価の10%で買収したように。億万長者同士の争いですね。私が億万長者でなくて良かった。今のように貧乏な状態でも色々とトラブルを起こすのに、億万長者だったら手に負えなくなりそうです。
でも、この対立には歴史があります。マスクは当初資金を提供していましたが、Twitterを買収するために引き上げました。多くの人がそれを人生最大の失敗だと言いますが、私は違う意見です。彼は今、GROKというAIも持っていますしね。話すことはたくさんありますから、皆さんもAIについての質問を投げかけてください。
でもその前に、お知らせがあります。「果てなき科学」のメンバーになれるボタンが、登録ボタンの横にあります。クリックして、コミュニティタブからTelegramグループに参加できます。現在279人のメンバーがいて、活発な議論が行われています。
本日のスポンサーはInsider Storyです。今日は未来について語りますが、空飛ぶ車の話は前にしましたね。最近私はアメリカでサイバートラックに乗る機会がありました。素晴らしい体験でした。私は好きですが、デザインについては賛否両論ありますね。
Insiderは未来を見据えて、Tシャツに加えて未来的なパンツ「Future Form」も展開しています。このクーポンコード「KCODE」を使うと12%オフになります。Tシャツと同じ技術が使われていて、体型に合わせて形が整います。防水性と耐久性も備えています。
アルバロさん、プレゼントをお持ちしました。ありがとうございます。
それでは、アルバロさん、今年初めてお会いしますね。新年明けましておめでとうございます。年始はいかがでしたか?
素晴らしい年始を過ごしました。エクアドルのアマゾン地域に行ってきました。ブラジルのアマゾンとは異なり、より開けていて野生動物もたくさんいます。ガラパゴスにも行きました。トランプが就任して世界が混乱する前のことですね。
まさにその通りです。アルバロさんがプレゼンテーションを用意してくれていますが、まず話したいことがあります。ChatGPTが2周年を迎えましたね。2022年11月のことです。それ以前にGPT-3やGPT-3.5はありましたが、ChatGPTで一般に広まりました。
この2年間、世界は混乱の渦中にありました。私はよくアルバロさんや他の方々と話す中で、「中国は何をしているんだろう?何もしていないはずがない」と思っていました。もちろん彼らは既に取り組んでいて、ディープサイクも突然出てきたわけではありません。アリババのQianも素晴らしいAIです。
アメリカ勢、サム・アルトマンやマックス・テグマーク、イーロン・マスクたちは、誰にも邪魔されない青い海にいるように見えました。彼らが示す方向に皆が従うような。しかし突然、中国が「そうではない」と示したわけです。この最初の分析についてどう思われますか?
確かにその通りです。市場にショックを与え、テクノロジー大手7社の株価が1兆ドル下落しました。その後、多くは回復しましたが、衝撃は否定できません。
要するに、中国人の創造性を誰も予想していなかったということです。アメリカは創造的なアイデアを非常に重視する伝統があります。テスラやエジソンなど、現代世界の構築をめぐる大きな議論は、工学に応用される創造性についての議論でした。
MITやカルテックなどの機関、特許や知的財産権の観点から見ると、アメリカは創造性を重視する国です。2024年のノーベル経済学賞は、アセモグルとその共同研究者たちが受賞しました。彼らは基本的に、成功する経済や国家は堅固な制度を持つ国々だと論じました。
つまり、ルールが突然変更されないことが分かっている国々です。例えば、コロル大統領が国民の貯金を凍結したようなことは起こりえません。投資家は一種の保証を求めているわけです。
これは極端な例ですが、より一般的には汚職の少なさなども含まれます。この環境が重要なのです。しかし、著者の作品を実際に読んだ人だけが理解できる部分があります。制度は堅固である必要がありますが、それ以上に重要なのは、イノベーションのために堅固でなければならないということです。
完全な混乱状態では、イノベーションは尊重されず、研究開発への中長期的な投資も行われません。イノベーションの余地すらありません。日々の生存に追われる圧力の中では、基本的なことしかできないのです。
イノベーションは常により長期的な視野を必要とします。この伝統の中で、誰も中国人が次の創造的な一歩を生み出すとは想像していませんでした。なぜこれが起こったのでしょうか?
私の見方では、いくつかの要因がありますが、特に重要なものが一つあります。市場が製品の収益性よりも資金調達に重点を置いている場合、一般的に成長指標や、成長以外の印象的な指標を追求する傾向があります。AIモデルの場合、それはインフラの拡大やパラメータ数(訓練されたニューロンの数)などです。
これは、スーパーコンダクターの世界でも同様の現象が見られました。現在苦境にあるIntelは、90年代に日本企業を追い抜きました。それは、大きな数字を見せることよりも、公衆が望み、対価を支払う具体的な結果を重視していたからです。
アメリカでは、最大のモデルを構築し、最大のインフラを持つことへの関心が、最も重要なことへの視野を曇らせました。それは、コストと品質のバランスの効率性です。中国企業はそこで真の違いを生み出しました。
重要な点は、リソースの制約や、何とかやりくりしなければならない状況が、しばしば、お金と大きな数字に基づくものよりも知的に洗練されたイノベーションを生み出すということです。
ちなみに、昨年のノーベル物理学賞と化学賞はAIに関するものでした。物理学賞はニューラルネットワークを開発したジェフリー・ヒントン、化学賞はAlphaFoldのデミス・ハサビス達でした。コンピュータサイエンスの研究者が化学賞を受賞したわけです。化学者たちがどう思ったかは分かりませんが。
良い質問ですね。ある意味でGoogleのノーベル賞と言えるかもしれません。DeepMindは英国の研究所でしたが、Googleに買収されました。しかし、AlphaFold 1とAlphaFold 2による真の貢献は歴史的なものの一つです。
簡単に説明すると、医薬品や肥料、新しい材料などを開発する際、分子構造をモデル化する必要があります。特殊な顕微鏡で表示し、結合がどのように行われているかを見て、その構造を開発できるようにします。
医薬品の場合、特定のタンパク質が他のタンパク質と効率的な分子結合をするかどうかを確認するのに多額のコストがかかります。このタンパク質のモデリングと相互作用のモデリングのプロセスは、常に非常に労力とコストがかかりました。
私が19世紀に博士課程を行っていた頃、タンパク質分子構造の開発には何ヶ月もかかっていました。すべてが3次元的で、構造を分解して結合を理解する必要があります。これが本当に大変な作業なのです。
DeepMindが行ったのは、基本的に外挿に基づく方法論を作ることでした。既知のものから他のものへのモデルを生成し、既知のすべてのタンパク質に対して非常に高い精度で成功しました。これは人工知能が人類の大きな問題を解決した初めての、そして現在までおそらく唯一の例です。その意味で、このノーベル賞は十分に値するものだと思います。
では、今私たちが目にしている革命について、アルバロさんが準備したプレゼンテーションを見ていきましょう。新しい方のために説明すると、アルバロ・マシャド・ディアスさんは、日曜日にはFolha de São Paulo紙のデジタル版に、火曜日には印刷版に、水曜日午後3時5分からはCBNラジオに出演し、夜7時30分にはOlhar Digitalに出演しています。また、火曜日にはeletromidia社のパネルで哲学的・詩的な考察も発表しています。
私たちは人工知能の世界で転換期を迎えています。以前予測した方向とは違う展開になったとコメントがありましたが、実際にはその通りになったと思います。以前ここで「Q-Learning」について話した回を覚えていますか?アルゴリズムの仕組みを説明した回です。
その通りです。Q-Learningは石油産業でも使用される従来のアルゴリズムで、私も何度も使用しました。サム・アルトマンはOpenAIで、それを「K-Star」と呼び変えただけです。同じものですが名前が違うだけです。
では、この仕組みについて説明しましょう。テキストを生成し、テキストをピクセルに置き換えて画像を生成し、画像を連続させて動画を生成する、この第一世代の言語アルゴリズムは、現在も次のように機能しています:
大規模な情報リポジトリがあり、その中の談話構造、物事の発生方法を模倣するようにアルゴリズムを訓練します。中心的な技術は「アテンション」と呼ばれるもので、基本的に私たちの作業記憶に似ています。人と話をする際に会話の一部を心に留めて処理していくのと同じようなプロセスです。
この場合、コンテキストウィンドウがあります。これが基本的な要素です。例えば、プロンプトで何かを要求すると、アルゴリズムはそれを考慮して補完しようとします。各単語の関連性を最適化しようとするのです。
つまり、残りの文脈に照らして意味をなす単語を配置し、次の単語はその単語と残りの文脈に照らして意味をなすものを選びます。このように進めていって、一貫性のあるテキストを生成します。
これが重要な理由は、私たちの脳がパターンを認識するように構造化されているからです。雲を見て形を見出すのと同じです。これは無意識的な連想で、専門用語では「パレイドリア」と呼ばれます。脳はパターン認識で機能するのです。
AIの成功は、まさにこの脳のパターン認識を模倣することにあります。これは単一の単語の流れを生成します。ここで、このアルゴリズムが人間の意味での「思考」をしているのかという哲学的な議論が出てきます。これは少し退屈な議論で、その時代は過ぎたと思います。
ファビオ・アキタ氏は、AIはおしゃべりなオウムに過ぎないと言っています。これについては強く反対します。
モデルを見ると、確かにファビオが言うように「確率的なオウム」のようなものです。一連の記号を連続的に生成すると、表現空間を持ちません。
脳で考えてみましょう。非常に賢い人がいても、何か質問されるとボタンを押されたように話し始め、複数の論理的なステップを必要とする処理ができないとします。例えば、中学校の二次方程式のような簡単な問題も解けません。なぜなら、すべてを同時に出力するだけで、その空間を持っていないからです。これが「確率的なオウム」です。
これが第一段階、ChatGPT段階です。DeepSic V3のような素晴らしい言語アルゴリズムもあります。言語アルゴリズムは他にもたくさんありますが、Claudeなどもこのように機能します。
カーネマンとトヴェルスキーという二人の著者がいます。カーネマンは2002年にノーベル経済学賞を受賞しました。彼らは、脳が2つの思考システムを調整して機能するという考えを発展させました。
一つは、最初に物事を関連付け、最も不合理な仮説を排除する直感的な前計算的なシステムです。その後で、より合理的な第二のモード、段階的に分析する思考モードに入ります。
アナロジーとして、現代の言語モデルの第一段階は直感的思考の段階です。つまり、ChatGPTのようなアルゴリズムが愚かというわけではありません。直感的なシステムとして機能し、非常に関連性の高い連想を生成するのは得意ですが、推論は苦手なのです。
ここで興味深いのは、例えば英語の方がポルトガル語よりも上手く機能するということです。太陽系の惑星は何かと質問すると、ChatGPTは時々、月やガニメデなどの衛星も含めてしまいます。これは、その言葉がマトリックスの中で近い位置にあるからです。
これが確率的である理由です。意味的な表現を持っていないのです。英語で同じ質問をすると、より直接的な回答になる可能性があります。これはポルトガル語の意味論の問題で、同義語が多いなどの特徴があるからです。
特に英語のテキストが多いため、処理量が多いほど精度が上がります。内部表現での単語間の距離が広がり、カテゴリー的に類似した単語との関連付けが生まれるからです。
昨日、私はRidenberg、メロン、Qianと始めました。アレクサンドロが言及したいくつかのことを、そこで学びました。
では、私たちが経験している第二段階は異なる方法で機能します。コンテキストウィンドウにプロンプトがあり、アルゴリズムは例えばレシピを書くとか、「毎月2レアルをもらうために母を説得する議論を作成して」といったことを求められます。
これはどのように機能するのでしょうか?最初の応答ブロックを作成し、応答を分割します。ここで重要なのは、応答のシミュレーションを生成し、それらを比較して最良のものを選択し、次のステップのために使用するということです。
つまり、推論のブロックAがあり、推論のマトリックス、あるいはモンテカルロシミュレーションを開きます。ここでこれを選び、この線をさらに展開していきます。このように決定木を開いていくために、より効率的な内部検索システムを使用する必要があります。
そのため、より効率的な検索メカニズムと、より効率的な強化学習技術であるQ-Learningが必要になります。しかし、これはサム・アルトマンが以前言った方法とは異なります。
実は、アルトマン自身が言ったわけではありません。あの時期、アルトマンが解雇されて再雇用された直後に、アルバロさんがここに来てくれました。彼は何か大きなものを持ってくると言い、Q-Starと呼ばれるものでした。
結局、それはアルゴリズムに組み込まれ、GPT-4になりました。O1という完全に別のアルゴリズム、推論アルゴリズムになったのです。
生成AIの第二段階であるこれらの推論モデルは、今日では「思考モデル」ボタンとして見ることができます。推論モデルは言語モデルとは異なります。推論モデルはブロックで処理を開き、ブロックを選択するため、アルゴリズムの観点から推論していると言えます。
確率的に単語を出力しているわけではないからです。その結果、複雑な問題を解決できます。したがって、現代のすべてのLLMが確率的なオウムだとは言えません。なぜなら、定義上、推論アルゴリズムは言語のブロックの中から選択を行っているからです。
つまり、定義上、私たちが思考と呼ぶものを選択しているのです。機械にとっては思考と呼ばれないかもしれませんが、言語のドメインで人間の思考から生まれたものなのです。
例えば、私が何かについて議論しようとする時、「このアプローチは使わない、別のアプローチを使おう」と考えます。私は何をしたのでしょうか?頭の中で予備的な応答を作成し、それが理想的でないと感じて2つ目の予備的な応答を作成し、2つの予備的な応答を検索して、あなたに返したのです。
このような処理は、私たちが「システム2」と呼ばれるモジュールにいる時に使用する論理的プロセスに非常に近いものです。つまり、急いで応答を出すのではなく、「考えてみましょう」というモードにいるのです。
これは、人々が機械と関わる方法を根本的に変えます。単に単語を出力している時は、アルゴリズムは消費者の時間をほとんど取りません。企業の観点から見ると、消費者の時間をほとんど使っていないのです。
第二の論理に入ると、消費者の時間をより多く使用することになります。より多くの処理を必要とするこのモデルは、「テストタイムコンピュート(TTC)」と呼ばれます。TTCは現代の大きなパラダイムです。
ここで、AIが知的かどうかという議論に入る前に、DeepSicについて少し話しましょう。DeepSicにはR1という推論モデルとV3という非推論モデルがあります。
例えば、「パルメイラスは世界選手権を持っているか」という質問をすると、R1モデルを有効にした場合、その思考プロセス全体を見ることができます。特定のサイトからの情報に基づいて考え、応答を作成する前にすべての推論を示します。これが推論モデルです。
すべての思考に基づいて、非常に完全な応答を作成しますが、最終的には「パルメイラスは世界選手権を持っていない」と結論付けます。R1を無効にして同じ質問をすると、思考プロセスは表示されませんが、応答は同じです。ただし、より速く、アプローチが異なります。
このDeep Thinkingを使用すると、計算コストが高くなります。そのため、DeepSeekでこの機能を使用しようとすると、サーバーが混雑していて何もできないことがあります。後で再試行する必要があります。明らかに多くの人が使用しているからです。
このように、より高い計算コストでDeep Thinkingを使用すると、応答は常により良くなるのでしょうか?必ずしもそうではありません。これが面白いところです。論理的な連鎖が必要な場合は良くなりますが、そうでない場合は良くならず、むしろ悪くなる可能性があります。
例えば、詩を書くように頼んだり、言語的で短い何かを求めた場合、テストタイムコンピュートを使用すると、一般的に悪くなります。なぜでしょうか?
先日、アメリカの共同研究者と概念モデルを開発し、論文を書いていました。私の理論では、テキスト、例えばコラムなどを構造化する時、情報を最大化したいように見えますが、そうではありません。
ある程度の冗長性が必要で、物事が流動的で、すべてが1つの構造の中で結びついている必要があります。コラムの各段落を別々に考えると、直感的に、一つのインスピレーションから書いた場合よりも悪くなる可能性が高いことが分かります。
フランケンシュタインのように、内部の結合がないように見えます。しかし、医学的問題、数学的問題、化学的問題、論理的な流れを持つすべての問題に対しては、はるかに良く機能します。実際に、人々や企業が最も必要としているのはこれです。
このため、市場に大きな変革がもたらされました。ChatGPTでも同じことが可能です。モデルによっては、ボタンを押すと思考プロセスを見ることができます。DeepSeekと全く同じです。中国のものだけを取り上げているわけではありません。
彼らは、DeepSeekが刺激するまで推論の可視化を解放していませんでした。時には刺激が必要ですね。競争は良いものです。
OpenAIのパラダイムでは、推論アルゴリズムの使用は社会でより高い価値を持ち、より多くのコストがかかるはずでした。ChatGPTのプロバージョンは月額200ドル、ブラジルでは1,200レアルです。これらは、より専門的な使用のために設計されています。
OpenAIの最も強力な推論モデルであるGPT-4を使用する際の論理は、生成されたトークンからより大きな利益を得ることでした。例えば、最後にここで議論した時、「AIは医療診断ができるのか」といった議論がありました。数ヶ月前の話です。
GPT-4は、複雑な疾患の診断において、上位1%の医師を上回ります。議論の余地はありません。世界中でテストが行われています。診断、予後予測、何でも望むものについて、なぜAIの方が優れているのでしょうか?
結局のところ、決定木が存在するからです。患者を観察し、話を聞き、診察を行います。これは複数のモードからの情報入力です。本質的にはそれです。一つは極めて人間的ですが、それでも情報です。目や触覚で捉えることができます。
つまり、複数の情報入力があり、脳内で仮説システムを構築し、確率的に削減し、その後の結果のモデルを開発します。そして、これに基づいて治療オプションを検討し、これは新しい決定木となり、選択を行い、フォローアップします。
本質的に、これは完全にアルゴリズム的なプロセスで、心の中で起こっています。実際、すべての生物科学がそうです。これは唯一のものではありません。すべてがそうです。
モデルが人々の99%よりも優れているのは当然で、すぐに100%になるでしょう。これはすべての分野で言えることです。特にGPT-4は、ベンチマークで人間をはるかに上回っています。
法律の分野では、アメリカの司法試験のような複雑な試験で、人間よりもはるかに優れた成績を収めています。判例法の分析や複雑な議論を含むケースの分析など、より複雑な試験でも優れています。
外部の評価者が推論を評価する必要があります。なぜなら、法律には単純な正解や間違いがないからです。これが法律を非常に意味深いものにしている理由です。何が正しいか間違っているかではなく、どの議論が最も良いかという微妙な違いがあるからです。
これにより、私たちは実質的に新しい段階に移行しています。機械が、推論の最高レベルのスキルやテストで人間を上回っているからです。これが重要なポイントです。このような考え方、タイムテストコンピュート(TTC)を使用すると、実際のモデル自体は「思考の連鎖」と呼ばれます。
これは、計算時間内で思考を連鎖させるものです。計算時間が長いほど、より多くの仮説をテストでき、結果として連鎖がより良くなります。そのため、タイムテストコンピュートと呼ばれるのです。
DeepSeekが業界にもたらした大きな課題は、コストの問題です。無料で提供されたことが問題なのではありません。LlamaもMETAも無料です。問題は、1億ドルではなく600万ドルでモデルを作成できたと主張したことです。
Facebookの場合、METAですが、オープンソースのアルゴリズムを持って大きな損失を出すのは非常に良いことです。時々人々はこれを理解していません。
考えてみてください。WhatsAppを所有しているとします。メディアは皆、InstagramなどのSNSに夢中になっていますが、Instagramはいずれ消えるでしょう。重要ではないとは言いませんが、WhatsAppほど重要ではありません。
WhatsAppは一日中使用し、大切な人々とコミュニケーションを取る場所です。そして今、WhatsAppの中にAIがあります。その重要性が明らかになりましたね。Instagramでの広告収益化は確かに重要ですが、AIの世界では、WhatsAppの中のAIボタンと競争できる人はほとんどいません。
そのため、無料であることは良いことです。人々が使用しているということは、OpenAIやMicrosoftが爆発的に成長する世界で、METAが取り残されないということを意味します。結局のところ、これは未来のプラットフォームです。
ブラジルで最も使用されているAIは何かと聞かれたら、みんなChatGPTと言いますが、とんでもない間違いです。METAのWhatsAppが圧倒的です。今では、ChatGPTと無料でWhatsAppで話せる電話番号があります。彼らはこれが重要だと理解したからです。
要するに、METAにとっては、取り残されないためにも、世界でも類を見ない訓練基盤を持つためにも、オープンソースモデルを持つことは完全に理にかなっています。
中国側、特にDeepSeekの場合は状況が異なりました。当初、明確なインセンティブがなかったからです。DeepSeekが1000億ドルを持っていたとしても、モデルを作るためにそれを使うことは意味がありませんでした。
魔法は、わずかな費用でそれを実現したことです。新しいプレイヤーが参入できる可能性が開かれたからです。結局のところ、巨額の資金を使う必要はなく、バブルを突き破ることができます。
しかし、ChatGPTが何百万ドルもかけて開発したものを利用したからこそ、そんなに少ない費用で済んだという意見もあります。私たちが新しいものを開発しようとすれば、彼らが既に行ったことすべてを利用することになり、当然コストは低くなるということですが、どう思われますか?
証拠はありません。多くの人がそう言っていますが、誰も証明できていません。DeepSeekがChatGPTでモデルを訓練したと言われています。もう少し先に進めましょう。後でこの話に戻りますから。ちょっと早送りして...はい、ここでディスカッションしていた学習の話です。もう少し進めて...ここですね。
重要な技術として、長年知られている「蒸留」というものがあります。蒸留とは、あるモデルの出力を使って別のモデルを学習させることです。PSのペーパーで興味深いのは、彼らが2つの論文を発表し、ニューラルネットワークの重みがHugging Faceで公開されているということです。ネットワークをダウンロードして、重みを変更して独自のニューラルネットワークを作ることができます。これは世界初の推論モデルで、自身の重みを公開しているのです。異なる重みで再学習させたり、好きなようにカスタマイズできます。
蒸留の仕組みについて説明すると、本質的には、あるモデルが別のモデルにパラメータを注入でき、それによってコストが大幅に削減されます。論文によると、蒸留はオープンソースのLlamaから行われたとされています。
議論となっているのは、R1モデルに「あなたは誰ですか?」と尋ねると、以前は「私はOpenAIによって学習された言語モデルのChatGPTです」と答えていたという点です。これが証拠だと言う人もいますが、インターネットがChatGPTのコンテンツで溢れているため、理論的にはその情報をウェブから取得した可能性もあります。
インターネット上には次第に合成コンテンツが増えていて、ChatGPTのプロンプトもたくさんありますから。「あなたはどんな言語モデルですか?」という質問をGoogleで検索すれば、そういった情報が出てくるかもしれません。Googleの場合は「私はGeminiです」と答えるでしょう。Googleはそれほど優れていませんから。でも要点は分かりますよね。
私個人としては、彼らがChatGPTを使用した可能性は高いと思います。ただし、それを擁護しているわけではありません。むしろその逆です。しかし、インターネット上のデータは誰でも利用可能で、蒸留は賢明な戦略なので、訴訟で勝訴するには十分な根拠とは言えないでしょう。
そのため、Sam Altmanが苦情を述べた際、多くのメモが出回ることになりました。彼らはトレントから81GBをダウンロードしたと指摘されました。トレントですよ!そして突然、蒸留を行った他者を非難するのかという話になりました。結局のところ、誰も完璧ではないんです。
QuebecのAIについても、許可を得ずに大量の本をダウンロードしたという話がありますよね。この観点から見ると、私はこれが重要な問題だとは思いません。
少し戻りましょうか。ギリェルメが「セルジオはPSを無視した」と言っていましたが、そうではありません。PSについて尋ねられた時、私はこう答えました:まず、ダウンロードできなかったのですが、その後インストールして使ってみました。「PSを使ってどうでしたか?」と聞かれて、最初に気に入ったのは、パルメイラスについて尋ねたら世界選手権を持っていないと答えたことです。素晴らしい回答でした。
その後、私もPSを使い始めました。なぜなら、世界中で無料で利用できますし、より良いものを使いたければお金を払えばいいわけです。私も使っています。
私のAI利用方法について言えば、主に科学論文を読むのを手伝ってもらうために使っています。これが私の日常的な使い方です。ChatGPT、PS、そして現在素晴らしいDoobに論文を入力して使っています。正直なところ、それらの間で大きな違いは感じませんでした。
だから無視したわけではありません。私が使う用途では、と言ったように、コーディングには使っていないので、その面での性能の良し悪しは分かりません。テストする必要があるでしょう。
私はソフトウェア会社を持っていて、10人以上のエンジニアがいますが、シリコンバレー、サンフランシスコで言われているのは、テキストシンボルを扱うための最高のアルゴリズムはClaudeだということです。パラメータは少ないですが、最高だと言われています。私もそう思います。
プログラミングにはChatGPTやOne(GPT-1)が良いですね。とても良いです。PSは...存在的な質問をしてみてください。何か深く考えたいときに。分かりますか?
私はそういった質問はしません。テキストを入力して、テキストと対話するんです。その用途ではClaudeが優れていると思います。サンフランシスコで常に言われているのは、これが本当の意味でのモデルだということです。誇大宣伝の外にいて、議論の渦中にない、本当に優れたものです。
何か書きたい時はClaude。でも私が夢見ているのは、まだどのAIもできていないことですが、科学論文を取り上げて - 例えば昨日Natureに掲載された高エネルギーニュートリノに関する素晴らしい論文があったのですが - それを読ませて、動画用の素晴らしい台本を作ってもらうことです。
まだそこまではできていません。AIは「これについて話し始めて、あれについて話して」とは言ってくれますが、私はそれは気にしません。実際に書いてほしいんです。まだ誰もできていません。もし誰かがそれをやりたいなら、あるいはあなたの会社がやりたいなら、YouTuberの間で人気が出るでしょうね。
冗談はさておき、結局のところ、用途によって異なるモデルが適しているんです。今はそういう面白い時期だと思います。ChatGPTが圧倒的なリーダーだった場合、この議論は異なっていたでしょう。ChatGPTの利点の一つは、あのライブラリやストアにあるGPTsですね。悪魔のようなGPTsがありますから。
でも興味深いことに、一昨日Sam Altmanがロードマップについていくつかコメントを書きました。最近Twitterをよく使っていますね。彼の立場は、すべてを統合するというものでした。GPT-5ですべてが終わり、一つのモデルだけになるというのです。
私が考えるAIの傾向としては、これらのモデルは消えていくでしょう。例えば今、私たちはこの二分法を経験していますが、次回AIについて議論する時 - 武器について話すことになると思いますが - この二分法は消えているでしょう。
なぜなら、考えてみてください。5つのモデルがあって、それぞれが異なる用途に適しているとします。モデルを管理するモデルを作って、質問に応じて最適なモデルを選択させることができないでしょうか?
基本的な質問なら、より速い回答を提供できます。これが利点です。そして、すべてのモデルの中から、速い回答に最適なもの、深い思考に最適なもの、コーディングに最適なもの、その他の用途に最適なものを選びます。
実は、これは常に私の見方でした。フォーリャ・デ・サンパウロに記事を書いたこともあります。ある読者が「未来的すぎる視点だ」とコメントしましたが、そうは思いません。
AIがすべてを考えられるようになるというのが未来的なのです。それには時間がかかります。20個のモデルがあって、それぞれが特定の用途に学習されており、指揮者のように適切なモデルを選択する方が単純です。
あなたの会社でもそれはできますよ。でも、なぜする必要があるでしょうか?そのような機能を持つアプリを作ることはできますが、なぜでしょう?GPTでそれができるなら。それほど難しくないと思いますが、投資する価値はないでしょう。
私の見解では、これらのスタートアップ、「私は独自のモデルを作った」というようなスタートアップは、世界で最悪のビジネスです。
先日、ある投資家と話しました。億万長者で、投資について相談したいと私を呼びました。新しい生成モデルを作っているスタートアップへの投資について、どう思うか尋ねられました。私は静かに聞いていて、こう言いました:「パン屋に投資した方がいい」
次は「宇宙開発に投資してくれ」と言おうと思います。いや、パン屋は世界で最悪のビジネスですから、地球上で最悪のビジネスでさえ、これらのAIスタートアップよりはましでしょう。
技術の変化が速すぎるからです。OpenAIや他社がコンマ一つ変えるたびに、20万の小さな企業を飲み込んでしまいます。例えば今、検索機能を提供すると発表すれば、その上に構築されていた企業はすべて終わりです。これが問題なんです。
では、話を戻しましょう。これが思考の連鎖です。見てください。最初のシンボルがあって、これはダウンロード、つまり他者から盗んだ情報です。その盗んだ情報から大きなモデルを作ります。
各リングは計算の動作を表しています。盗んだ情報で最初のリングを実行すると、処理される最初のトークンの集合が生成されます。例えば、最初に聖書を入力すると、聖書の要約のようなものが生成されます。
これらの歯車があって、その後、推論を選択するための多くの選択肢を持つ分岐が生まれます。最後に...これは元のLLMモデルとは大きく異なります。以前は、インターネット全体を盗んで、質問すると直接結果を出力して終わりでした。
基本的なロジックが変わったんです。そして今、私たちはこの時代を生きています。ただし、実行には時間がかかります。何をするかによって、はるかに時間がかかります。
そして、より多くのサーバー、より多くのリソースを使用することになります。インフラの観点から変わったのは、従来のモデルではすべてのコストがモデルの学習にあったことです。今は回答を提供する部分にもコストがかかります。
これについて、私は何か準備してきました。話したければ...はい、いいですね。では進めましょう。
ここで興味深いのは、現代のトレンドの一つがAIエージェントだということです。これは本当のトレンドだと思いますか?
はい、トレンドだと思います。でも、このトレンドがどのように確立されていくのか、それが重要な質問です。見分ける必要がありますね。
でもその前に、仕組みを考えてみましょう。アルゴリズムがあって、例えば「Decolarなどの航空券サイトに入って、サンパウロからリオデジャネイロまでの特定の日の最安値のチケットを見つけて」というような自然言語での要求をします。
この推論プロセスは行動を分解しますが、異なる方法で適用されます。人々はこれを知らないし、私も誰もこれについて話すのを聞いたことがありませんが、論文を見れば明らかです。AIエージェントは実際には推論AIなんです。推論を別の方向に向けているだけです。
そうです。推論を分割しているんですね。はい、ですが全ての場合において、より良い回答を得るための分割と、行動を実行するための分割では異なります。
エージェントは、まず「では、これには最初にそのサイトにアクセスし、次にこの日付とその目的地を入力し、次にボタンをクリックし、次に価格の出力を比較し、5番目のステップで最安値のボタンをクリックし、6番目のステップでリンクを取得し、最安値を見つけて、メールで確認を送る」というように考えます。
完璧ですね。ただし、これは最適化(optimization)ではありません。落ち着いてください。では説明しましょう。
これらのプロセスはすべて思考の連鎖なんです。ポイントは、アルゴリズムが回答を生成するために内部で行っていた推論が、今やワークフローになって実行されるということです。
そのため、自然言語での入力があり、推論モデルがワークフローを生成し、その後ワークフローのステップを実行して、最終的に結果が出力されます。
これは大きな可能性を持っています。エージェントは実際、アカプルコでマルガリータを飲みながらリラックスするような、チャベスのような仕事の代わりになるでしょう。また、労働の代替にもなります。確かにそうですね。
人を置き換えて、エージェントがその仕事をするようになります。ただし、今日のAIには2つの根本的な問題があります。
第一の問題は、まだ十分に優れていないため、正確性に欠け、自分で作業するよりもはるかに時間がかかってしまうことです。今日のエージェントは優れていません。良いエージェントは存在しません。これが最初の問題です。
機械の限界?インフラ?いいえ、いいえ、純粋に学習の問題です。実は2つの主な要因があります。
新しい技術はすべて、準備にかかる時間とほぼ同じくらいの反復が必要です。事前学習、事後学習、すべてが事前学習から始まりましたが、今日では事後学習が事前学習よりも重要かもしれません。そんな感じです。
これが一つの側面ですが、もう一つ興味深い側面があります。これについても議論されているのを見たことがありませんが、私は大きな問題だと思います。それはウェブサイトとの統合です。
例えば、OpenAIはアメリカのDoordash(日本のUber Eatsのような)と提携を結んでいます。統合されると、はるかに良く機能します。なぜでしょう?
会話のフローを考えてみてください。ページの読み取りを行います。人間がページを読むのは簡単ですが、ソースコードを読むのは難しいです。プログラマーがページをインスペクトして読むようなものです。機械にとっても、人間にとっても、より難しいんです。
しかし、実際に統合があれば、OpenAIはサイトマップを知っていて、すべてが事前に準備されているので、はるかに正確で速くなります。
したがって、エージェントが単純に暴走することはないと思います。それは起こりますが、時間がかかります。事前定義されたサイトで最もよく機能するでしょう。
しかし、もう一つ全く異なる問題があります。例えば、航空券を予約してもらったけれど、予約されたのが私の希望とは違うものだったとします。イライラしますよね。
一般的な人々、つまり世界の中流階級の平均的な人を考えると、自分の生活における行動をチェックしたがる傾向があります。
一方で、億万長者を考えてみてください。秘書が予約してくれたことに満足しています。「自分で選んでいれば違う席を選んだかもしれないけど、まあいいや」という感じです。時間を無駄にしたくないんです。
ポイントは、人々が億万長者のように考えるような文化の変化が必要だということです。「エージェントの選択は私より悪いかもしれないけど、その時間は使いたくない」というように。
この制限のために、私はGoogleをエージェントの大手企業として見ています。なぜなら、Googleの場合、すでにGmailがあり...
Gmailとの強い統合がありますよね。そうです。検索エンジンもあります。Googleの場合、単に「インターネットで何かを検索してメールを送って」という感じで、すべてがGoogleの同じスイートに接続されています。
そして最後に人は一回クリックするだけです。しかし、例えばGmail以外の外部エージェントを使う場合、メールのパスワードを提供する必要があります。
プロセスの途中でそういった手続きが必要になり、クレジットカード情報も登録する必要があります。一方、Googleにはすでにクレジットカード情報が登録されています。
この違いが分かりますか?これは大きな利点です。私たちは目を閉じて「まあ、場合によっては盗まれるかもしれないし、侵入されるかもしれないけど、面倒なことは避けられる」とは考えません。
むしろ世界の平均的な人は、そうする前に百万回考えます。当然です。これが大きな問題です。一方、億万長者は「まあ、時々盗まれることもあるけど、面倒なことは避けたいから」と考えます。
そのため、この初期段階でのエージェント世界の大勝者はGoogleになると思います。理解できました。でも、エージェントは例えば企業内でも機能しますよね。
例えば、この発表のデザイナーはエージェントに置き換えられる可能性があります。そうですね、でもかなり一般的な...例えば、「2025年のAIトレンドについてプレゼンテーションを作りたい。このテーマについて調べて」と言って、別のエージェントに「この人が見つけたことを使ってプレゼンテーションを作って」と指示し、さらに別のエージェントに「すべてが正しいかチェックして」とできます。
このようにサービスを分割できます。そうですね、でも5年以内に実現したら私は驚きます。なぜそう思うのですか?今やろうとすると時間がかかりすぎて、ひどい結果になるからですか?
その背後にある推論が、私が今ここで紹介しているものと同じだからです。「2025年の人工知能の最新状況についてプレゼンテーションを作って」と頼むと、平均的なものができます。
ソーシャルメディアや多くのポッドキャストで見るような、ここではないような...セフィンではない、セルではないような...分かりますか?
機械がまだ基本的すぎるというわけではありません。世界について考える際の最高の推論を持ってきたいのです。アルゴリズムの問題を解決するための最新技術かもしれませんが、それでも世界について考えるという点では明らかにそうではありません。
でも例えば、ここで「これらのサイトに基づいて傾向を調べて」というエージェントを作り、その後別のエージェントにその最初のエージェントの結果を使ってプレゼンテーションを作らせるというように...
これはHAGと呼ばれています。事前定義された情報の集合であるHAGを作成し、「これが私のサンプル空間で、このHAGに入力して、プレゼンテーションを作るという前提のもとで主なアイデアを抽出して」と推論AIに指示すれば、うまくいきます。
そうすれば、別のタイプのエージェントに渡して視覚化させることができます。そうですね、それはできません。そんなことは全くできません。
しかし、「これらの視空間表現のテンプレートを使って、このデータベースにある情報を表現して」というように定義することはできます。テキストをその中に注入するだけです。
つまり、情報のパイプラインと制作のパイプラインを作ることができるということです。知りたかったのはそれですね。できます、できます。
大きな問題は、世界に出て結論を出そうとすると、結論は平均的なものになるということです。愚かではないですが...そして世界は常に愚かさに満ちています。これは自然なことです。
したがって、平均的な知性になり、素晴らしいものにはなりません。例えば、AIで書かれたニューヨークタイムズやフィナンシャルタイムズの記事を読むにはまだまだ時間がかかります。
私はフォーリャ・デ・サンパウロの記事を一言もAIで書いたことがありません。CBNの台本も一度もありません。何も、全く何も。試したことがないとは思えませんが...もちろん試しました。でも私が求めるレベルでは出来ないんです。
先生として言えば、学生のレベルならいいですが、私が求めるレベルでは...もちろんありません。まだ5年はかかるでしょう。いや、それ以上かもしれません。
例えば、現在私は記事を書いています。どの言語でも書かれた中で最高のものにしたいと思っている主題についてです。AIに関するものですが、基本的なことや、私たちが議論していることとは全く関係ありません。
このようなものは、私が言っているような形では10年経っても実現しないと思います。10年後に、偉大な小説家の傑作を取り上げて「これ以上に人々の心を動かす小説を書いて」と言っても、できないでしょう。
一方で、医学、法律、心理学、化学、物理学、あらゆる分野で、人間よりもはるかに優れた生産性を実現するでしょう。それよりもずっと前に。
ポイントが分かりますか?世界全体を見て、そこから何かを抽出しようとすると難しいのです。数学のような分野に限定すると - これは大きなフロンティアですが - 10年後でも世界最高の数学者にはなれないでしょう。
より専門的になればなるほど、AIの応答は良くなり、より早く実現できます。まさにそのとおりです。
したがって、AIは10年以内に最高の哲学者たちに取って代わることはないでしょう。でも10年後にはできるでしょう。というのは、世界は抽象化やサーバー内のトークンの集合ではないからです。
今、私たちはデジタルに夢中になっていますが、世界は物理的なものです。車を運転していて信号で何かを見て心を動かされたり、友人と話をして何かに気づき、別の人と話すと似たようなことを言われて「世界にはある種の流れがあるんだな」と感じたりします。
世界の情報がその場所で、つまりロボット工学やセンサーの段階で捉えられない限り、私たちは非常に限られた切り取り方しかできません。これが大きな問題です。
アルゴリズムの性質でもなく、AIがさらに進化するわけでもなく、インターネット上のテキストを大量に取り込むわけでもありません。外の世界はインターネット上のテキストの集まりではないのです。
人々の心に響く何かを言うとき、それはほとんどの場合、外の世界とは関係のないことです。そうですね、まさにそのとおりです。とても興味深いですね。
でもそれでも、エージェントは強力なトレンドになると思いますか?はい、非常に強力です。すでに多くの人が使っています。
アンドレが昨日私と一緒にいて、彼の認知に関する本を見せてくれました。タイトルを忘れましたが、すべてAIで書かれています。彼はエージェントを使いました。
本の構成を決め、著者のテキストを入れて「これらのテキストを読んで重要なことを抽出して」と指示し、別のエージェントに「これをここに組み立てて」と言い、さらに別のエージェントに「すべてが正しいかチェックして」と指示しました。
このように複数のエージェントを使って作業を進め、最終的に彼の本ができあがりました。すごいですね。
だから私が言っているのは、限定的な範囲で...例えば私の分野で、深海油田の掘削に関する論文を書きたい場合、素晴らしい文献レビューができるでしょう。
30の論文を与えて「これらの論文を要約し、まとめて一つのテキストにして」と言い、別のものにチェックさせる...これはエージェントを使う必要はありません。AIだけでそのパイプラインを作ることができます。
え?エージェントは必要ないんですか?AIだけでそのパイプラインを作れるということですか?エージェントは何をするんですか?外部での行動です。例えば、「このテキストを作成して、ジャーナルのプラットフォームに投稿して」というような実際の行動です。
なるほど、では何が違うのでしょう?Operatorとの違いは何もありませんよね?Operatorとは何か、みんなに説明してみましょう。OpenAIは今日、世界に向けてOperatorを発表しました。ベータ版として既に存在していましたが。
Operatorとは何か。「家族で旅行に行きたいのですが、子供2人、猫3匹、犬4匹がいるので、最適なファームステイを見つけてください」というように依頼します。これはエージェントです。
面白いのは、Operatorは自分が何をしているかを表示することです。まずBooking.comで検索し、次にTripAdvisorで検索し、あるいはその逆で、コメントをチェックして「これはペット向けに良さそうです」というように。
そして予約をして、メールで予約確認を送ります。つまり、あなたが言っているように、すべての外部アクションを実行する場合、それがOperatorです。通常のエージェントと同じです。
Googleが年末にGeminiスイートで公開したものと同じです。私がOpenAIの発表について良いと思うのは...ただし、使用報告を見ると、遅くて多くの確認が必要だそうです。
平均的なユーザーの問題ですね。彼らは大きな問題になることを知っているので、「気にしないで、これを買って」とは言えません。確認を求め続けなければならず、結局自分でやる方が早くなってしまいます。
まだ開発段階です。Googleの場合、大きな利点があります。「○○さんにメールを送って」と言えば、メールとパスワードは既にそこにあります。終わりです。
あるいは、インターネットからレストランのリンクを取得してメールに入れて送る、のように。「こんにちは」と書いて、josilva@uol.comに送るだけ。そこでボタンを押せば...
これは数年前のGoogle Duplexに似ていますね。あのオーディオを覚えていますよね?もちろん、あの電話の...はい、技術史上最大の詐欺の一つですね。
もちろん詐欺ではありませんが...詐欺です。ただし、今でもまだ完全には機能していません。音声もまだそれほど上手くいっていません。5年か7年経っても...
みなさんのために説明すると、Googleは「Google Duplex」という製品を発表しました。広告では電話をかけるというものでした。例えば「サンパウロのFazanoレストランに明日の予約を取って」と言うと、電話をかけます。
「こんにちは、セルジオです。明日の夜4人で予約したいのですが」とレストランに電話すると、Fazanoが「申し訳ありませんが、空きがありません」と答えます。
すると「うーん」と考えるような音を出して...そう、「うーん」という音を出して「では何日なら予約できますか?」と聞き、「2日後ならあります」と言われると「では予約してください」と。
とても人間らしい会話でしたね。そんなものは存在しませんでした。まったくありませんでした。驚きです。今でもできないのに、どうしてその時にできたはずがありますか?
そうですね。実際、Operatorもそれと同じです。まだそこまでは到達していません。音声アルゴリズムはありますが、まだあの嘘のレベルには達していません。
でも、なぜ彼らはそんなことをしたのでしょう?なぜ嘘をつく...イーロン・マスクを見てください。嘘をつくことがどれだけ成功をもたらすか。
ボールを遠くに投げるんです。Neuralinkを覚えていますか?この時点で、みんな脳内プロテーゼを使って思考の力で制御しているはずでした。
でも質問があります。これらの人々は、これらのことが嘘だと知っていたのでしょうか?それとも将来実現できると知っていたのでしょうか?
もちろん嘘だと知っていました。でも将来到達できることは知っていたのでしょうか?いや、いつか到達できることは分かっています。
例えば、脳のための合成プロテーゼを作れることは明らかです。でも、いつ、どのように到達するのか...Transformerの出現のような非常に不明確な部分がありました。Transformer以前に、Transformerが出現することを知ることはできませんでした。
完全な嘘でしたが、予言的でした。そうです、多くの嘘が予言的なんです。イーロン・マスクはその専門家ですね。嘘の中の予言。
Neuralinkにもそういう特徴があります。あまり議論されていませんが、大きな問題があります。人の脳に電極を埋め込むと、瘢痕が形成されます。瘢痕は神経細胞の死を意味します。
したがって、常にコストとベネフィットの関係があります。ベネフィットがあっても、常にコストがあります。必ずしも皮質経由で電極を設置することが、脳や中枢神経系、特に脳に電極を設置する最良の戦略とは限りません。
実際、他の方法を提案している人々がたくさんいます。しかし、それとは関係なく、神経学的疾患の治療や脳機能の強化には2つの道があるという認識は明らかです。
一つは分子生物学的なアプローチ、もう一つは合成的なアプローチです。このアプローチが徹底的に試されることは明らかで、10年か20年後には何かがきちんと機能するようになることも明らかです。
たとえそれが最終的な解決策でなくても。私は脳に物を入れることは廃れると思います。これらすべての未来は遺伝子工学にあります。自然に、とは言っても非常に括弧付きですが、中に何かを入れる編集です。
この遊びの中で、Neuralinkのチーム...もう去りましたよね。でも何らかの解決策は...だから、予言的な意味で投げかけることは...このPublicityがどれだけの良い宣伝をもたらしたか考えてみてください。途方もないですよね。
ここに見つけました。クリス、みんなに見せてください。2018年のGoogle Duplexです。2018年ですよ、みなさん。2018年には皆さんまだ生まれていなかったでしょう。ポッドキャストさえありませんでした。2018年です。
音声を聞いてみましょう。音声を聞くんですね。ここで流しましょう。なんて狂気的なことでしょう。これが2018年です。Google Duplexです。彼らがこれを発表したのが2018年。
つい昨日のようですね。物事は大きく変わりました。ちょっと下げてください、セルジョ。音量が上げられません...
ほら、なんてクレイジーでしょう。「こんにちは、GoogleからGoogleマップの営業時間を更新するために電話しています。自動サービスなので、このお電話は私たちのプライバシーポリシーに従って、サービス向上のためにレビュアーによって録音・モニタリングされています。週7日の営業時間を教えていただけますか?」
「月曜から金曜は朝9時から夜7時まで」「うーん、うーん、土曜は?」「朝9時30分から」「はい」「午後4時まで」「うーん、申し訳ありません。日曜の時間が聞き取れませんでした」
「日曜は休業です」「申し訳ありません。時間を繰り返させていただきます。月曜から金曜は朝9時から夜7時まで、土曜は朝9時30分から午後4時まで、日曜は休業ということで合っていますか?」「はい、その通りです」「ありがとうございました。さようなら」
これは嘘でした。2018年ですよ。あの「うーん」という音が、とても人間らしく聞こえましたよね。「ロボットとは思えない」という感じで。
カンマ、そんなものは嘘だったんですね。その後誰も聞いたことがありません。明らかに嘘でしたね。誰も聞いたことがなく、その後消えました。
彼らはこれを飲み込んで、前に進みました。素晴らしい宣伝でしたね。とても良かったです。2018年ですよ、みなさん。今は2025年で、まだエージェントと格闘しています。
AIの進化を生きているところを見ると...想像してください、これがなかったら。その通りです。ここでコメントを...クリス、次に進みましょう。エージェントについては終わりですね。
はい、では別のことについてコメントしたいと思います。AIモデルについて考えるとき、学習に2つの段階があります。
最初の段階では、インターネット全体をダウンロードして、そこにある言語形式をエミュレートしようとします。TransformerでLLMになるための学習をします。
しかし、その後に2番目の段階があります。これは事後学習です。ChatGPTは、OpenAIが人々を投入する必要があることに気づいた時に生まれました。
「人間によるフィードバックを伴う強化学習」と呼ばれるものを行いました。アジアやアフリカ、インド、アフリカ諸国で、低賃金の下請け労働者、サブコントラクターを大量に雇い、工場のような環境で...選択する工場ですね。
ChatGPTの魔法を作ったのは、オプションを選択する貧しい人々の集団でした。4つの回答から1つを選ぶ。それが構造モデルのポリシーを形成し、それが他のすべてに影響を与えます。
PSが重要なことは、このブロック全体を強化学習で置き換えたことです。PSは人間による強化学習を必要としません。それをスキップします。
しかし、いずれにせよ、見てください。事前学習があり、その後に事後学習の段階があります。OpenAI、Claude、Anthropicなどの場合、人間が回答を選択する学習によって行われます。
そして、デプロイメントの段階があります。デプロイメントとは推論の段階、つまり人々が使用している段階です。
推論では、親指を立てたりすることで、後で事後学習で再び使用されるフィードバックラインを生成するのを助けます。つまり、フィードバックを直接使うのではなく、事後学習に供給するんです。
ChatGPTを使ったことがある人なら分かると思いますが、時々質問すると2つの回答を出して「どちらが良かったですか?」と聞きます。常に「回答は満足でしたか?」と聞いて親指を立てられます。
修正するときも重要ですね。その通りです。はい、すべての修正が入っていきます。これが事後学習を助けるんです。
重要なのは、初期のLLMパラダイムでは、事前学習に大きな投資があり、事後学習への投資は少なく、デプロイメントはほとんどありませんでした。通常はほとんどありません。
推論モデルが登場すると、推論のロジックを作るために事後学習への投資が増えます。例えば、これらの強化パラダイム、検索、ブロックの作成には多くの戦略があります。
基本的にはLLMのままですが、もはやそれほど純粋ではありません。今では技術のミックスがあります。PSが使用した非常に重要な技術の一つを後で見ることができます。
重要なのは、デプロイメントに進むと、以前話したよりもはるかにコストがかかるということです。
しかし、これが何を意味するのか具体的に考えてみましょう。この段階では、処理ボードを考えてください。
みなさんにこれを理解してもらうために...モデルの作成段階であれ使用段階であれ、この処理が物理的な世界のハードウェアで行われる必要があります。
この物理的な世界には2つの要素があります。一つは論理的な処理です。例えば、私が保存したインターネット全体のベースにある言語パターンを見つけることは論理的なプロセスです。
あるいは、コンテキストウィンドウでプロンプトを通じて人が求めたフレーズを構築することも論理的な処理です。
もう一つは、メモリが必要だということです。コンテキストウィンドウを使用するとき、人々に多くの詳細を含む何かを提供するとき、多くのトークン、推論があり、その後長い推論があるので、より多くのメモリが必要です。
ハードウェアの観点から見ると、これは括弧付きですが、このトピックについて本当に学びたい人のために注目に値します。
ブラジルではソフトウェアについてしか話されません。なぜならハードウェアは、基本的にすべての構造がやや難しく、あまり騒がれないからです。
しかし、これは本当に理解する上で非常に重要です。インフラストラクチャについて話すとき、事前学習段階では、ビデオカードの論理的な処理により依存します。
デプロイメントまたは推論段階では、プレートのデラムのメモリにより依存します。これが、NVIDIAの株価が下がった理由です。
なぜNVIDIAの株価が下がったのか?論理的な処理が、推論にはそれほど重要ではなくなったとされるからです。結局のところ、今では推論のコストが少なくて済むようになり、プレートは主に論理的なプレートであってメモリプレートではないからです。
これが本当の説明です。仕組みを理解したいなら、それがこのように機能しているのです。
そしてここで、このモデルに関して非常に重要なことがあります。これが未来なのです。このような傾向を見て、推論モデルが実際にどこに向かっているのかを見ると、まさにこれらの矢印の方向に向かっています。
最初はすべて事前学習でしたが、その後ポスト学習が非常に重要になりました。そして今では、人々により完全な回答を提供することが最も重要になっています。そのため、メモリチップやより多くのメモリを搭載したカードが非常に重要になってきています。
このようなカードで重要なのは論理演算処理です。例えば、5ナノメートル、4ナノメートル、さらには3ナノメートルのチップについて話すとき、ここで話しているのは動画の左側のことですが、この話のリソース集約的な部分について話すとき、私たちはますます右側の話をしているのです。
例えば、H20のようなカードは、中国に対する禁輸措置がなかった(今はありますが)ため、中国が製造できて推論の領域にあるカードです。これらのカードが人々に回答を提供するのです。もちろん、クラスターを組んで全部一緒にすることもできますが、それは効率的ではありません。
最も効率的な方法は、集中的な処理をすべて事前学習とポスト学習の側に集中させることです。これは何を意味するのでしょうか。重要なことですが、DeepMindが600万ドルを使ったという議論があります。
人々は「嘘だ」と言いますが、私はそうは思いません。なぜなら論文は公開されていて、誰でも再現できるからです。これは愚かな憶測で、重要なポイントを見逃しています。
重要なのは、ジャンプの秘訣はどこにあるのかということです。面白いことに、DeepMindの出力のトークンあたりの効率性は、例えばOpenAIのO1よりも低いのです。
つまり、600万ドルを使って、より効率的なモデルを構築し、より効率的な事前学習を行いましたが、推論の効率は高くないのです。そして現在、コストはどこでスケールしているのでしょうか?推論の効率性においてです。
もう一つ重要な点があります。誰もが事前学習とポスト学習について話しますが、「研究」という別のフェーズがあります。研究はここには含まれていません。効率的なモデルを持つために、私は多くの人々に給料を支払っています。その給料の計算はどこにあるのでしょうか?それは600万ドルには含まれていません。
DeepMindはベンチャーキャピタルの一部で、物理学の博士号を持つ天才たち、中国最高の人材に高給を払っているのです。そしてそれは計算に含まれていません。例えば、OpenAIが1億ドルを使ったと言うとき、その1億ドルの大部分は天才的なエンジニアたちのメガ給与を支払っているのです。
これが本当の違いです。なぜなら、人々はこれに焦点を当てますが、それは正当な権利がないからです。しかし、それがそうなのです。
とても興味深いですね。クリス、次に進みましょう。ああ、そうですね。今日アルバロと話していたとき、彼に持ってきてもらいました。というのも、この質問が出てくるからです。「どのモデルが最高で、どれが劣っているのか」というような。
サイトがありますよね。すべてをまとめているサイトで、LLMリーダーボードアリーナと呼ばれています。そこでは様々な指標を測定しています。
ご覧ください。全部で203のモデルがあります。このベンチマークには203のモデルが含まれています。260万人が投票しました。または投票数ですね。一人で複数回投票した人もいます。これは今日の時点のものです。
面白いことに、203のモデルがありますが、私たちが知っているのは50くらいですよね。その多くは関係ありません。今日では、ローカルモデルに大きな傾向があります。
例えば、鉱業専用のモデルがあります。RAGがあり、鉱業の学習データベースがあり、それに特化しているので非常に優れています。鉱業に関わっていなければ、理解できないでしょう。
極端な例を挙げると、幾何学に関するモデルが出ました。Aretaというモデルを見ましたか?蒸留の主な機能は、他のデータを使って大きなモデルを作ることではありません。自分自身のモデルを特化したモデルに蒸留することが機能なのです。
これは、以前お話ししたことにつながります。例えば中国の話をしましたが、インドについても話しました。インドにはないように見えますが、インド人専用の優れたモデルがあるようです。
しかし、誰がヒンディー語を話すのでしょうか?世界で誰も話さないと思うかもしれませんが、実際には世界最大の人口を持つ国です。10億人以上がいて、英語は公用語で学校で学びます。そしてヒンディー語もあります。
ですから、インド人のことを考えると... インド人のリーダーたちはどこにいるのでしょうか?彼らはすべての企業のリーダーですよね。私はリーダーという考えを相対化したいと思います。
インド人のCEOは確かにいます。1960年代にインドでは基礎的なコンピューティング教育の大規模なプログラムがありました。しかし、最終的に私が個人的に中国人に賭ける理由は、リソースへのアクセスは別として、エンジニア、科学者、数学者、コンピュータ専門家などの成功を決定する主な要因は、学校での数学的能力だからです。
大学ではなく、学校でです。例えば、数学的能力を測定するTIMSSテスト、そしてPISAでの成績です。だからブラジルは困っているのです。ブラジルの成績はひどいものです。
私の見方では、ブラジルがAIにもっと投資すべき場所は、学校の数学教育です。それで終わりです。相対化をやめましょう。厳密な科学は他のすべてよりもはるかに重要です。
特定の種類の応用があります。私は最近中国と韓国にいましたが、学校に行くと、その雰囲気を感じることができます。例えば、刺繍の授業を見学しましたが、それは純粋なコンピュータサイエンスの授業でした。
なぜなら、それは単なる愚かな刺繍ではなく、小さな子供たちがルールに従うことを学ぶ、非常に複数な論理的プロセスだったからです。それはアルゴリズムなのです。物理的な要素を持つアルゴリズムです。
メイカー文化のような、物理的な要素を持つ非常に複雑なことを行うという雰囲気、それが飛躍なのです。中国には、アメリカの3倍のプログラマーがいます。3対1の比率です。私は作り話をしているわけではありません。
そして中国はTIMSSでトップにいます。アメリカは中位です。アメリカは数学が特に優れているわけではありません。私は子供の頃アメリカで学びました。平均的です。ブラジルよりは良いですが、ブラジルはひどいものです。
一方、アジアの国では... 韓国も同様です。日本では、多くの学校で人文科学を廃止し、技術教育に焦点を当てています。
私はこれには問題があると思います。他の分野にも多くの価値があると思うからです。本当に多くの価値があります。しかし、根本的な問題は理解できます。国の成功を決定するのは、より厳密な科学だという認識です。
人文科学の人々は私に怒るかもしれませんが、これは事実です。労働生産性を生み出す能力を決定するのは、この境界線なのです。結局のところ、それが重要です。
制度や長期的に絶対的に決定的な他の要因について話しているわけではありません。現在の状況について話しています。国々の真実を大きく決定しているのは何でしょうか?労働生産性です。
労働生産性の主な変数は、アルゴリズム的思考、つまり厳密な科学の習得です。それくらい単純です。
さて、私たちの話題に戻りましょう。現時点で世界最高のモデルはGeminiです。しかし、「でも私が使ったGeminiはそんなに良くなかった」と言うかもしれません。
これは、あなたが知っているGeminiではありません。Flash Thinkingは推論モデルで、インターネット上のユーザーインターフェースでは直接アクセスできません。あなたが知っているGeminiではないのです。
これを使うにはAPIがあります。忘れてください。一般的な評価で最高とされているモデルを使うことはできません。ChatGPT最新版が続き、その後にDeepSeek R1が続きます。
すべてのモデルの得点は非常に接近しています。同等です。私は以前言ったことを繰り返します。どれが最高のモデルかという議論は意味がありません。それは愚かなことです。
大きな専門家たちの見方から見ると、特定のモデルが特定の事に優れているということです。シリコンバレーで一般的に使用される言語処理に最適なモデルは、私も同意しますが、Claudeです。
みなさんのために、Claudeの綴りを言います。C-L-A-U-D-Eです。Claudeはテキスト作成、さらにプログラミングに最適なモデルです。ChatGPTは柔軟性があり、多くの機能があります。インターネットからの最新情報にアクセスできるので、新しい情報で更新されています。
多くの利点があります。DeepSeekは、私の意見では最高の推論力、最高のChain of Thought構造を持っています。その推論過程を最もよく追跡できます。
そして、本当に型破りなことをしたい場合、私の考えでは最高の回答を提供します。少なくとも、私は本当に型破りな実験をしてみました。深い論理的・哲学的な質問を投げかけて、何が返ってくるかを見てみました。
DeepSicからは、私が「うわー、これは少しキャンセル文化的になるかもしれない」と思うような素晴らしい回答が返ってきました。
あなたはほとんどすべてを使用していますね?はい、私は... いいえ、私は... 私は誰よりも上手にテキストを書けると思います。しかし、私の会社では、プログラミングには100%アルゴリズムを使用しています。
アルゴリズムを使わない人は、その日のうちに去ってもらいます。議論の余地はありません。アルゴリズムだけです。他は知りたくありません。人々が「これを作りました、素晴らしいでしょう」と言ってきても、その人を解雇したくなります。
「これとあれを使って、これができました」と言う人には、「すごいね、昇給が必要だね」と言います。効率性だけが重要なのです。そしてここでは、アルゴリズムを使用する効率性には比べるものがありません。
したがって、プログラミングにはアルゴリズムが重要です。ChatGPTの私の使用方法で素晴らしいと思うのは、他のモデルも持っていますが、例えば天文学の雑誌を読むときです。フランス語の雑誌もありますが、私はフランス語を全く知りません。
翻訳が素晴らしいのです。雑誌の写真を撮ってそこに投げ込みます。最高の翻訳者はChatGPTです。Claudeよりも優れています。それは素晴らしいです。時には図を取って、「この図を解釈してください」と送ります。
月の地質図の写真を撮ってChatGPTに送り、解釈を求めました。地質学者よりも美しく解釈してくれました。素晴らしいですよね。ChatGPTはこのようなことに優れています。
このリーダーボードにはQuanが載っていませんでした。最新のベンチマークでは、Quanとは何でしょうか?Quanはアリババのモデルで、私たちが議論しているこれらのモデルとは異なり、Geminiのようなマルチモーダルなアプローチを持っています。
これは始めからマルチモーダルだったということです。つまり、事前学習の段階からテキスト、画像、動画を生成するように訓練されています。これはアルゴリズムの性質を根本的に変えます。
これらのものを混ぜ合わせることができ、応答生成のコストという点で非常に根本的な変化をもたらします。すべてを最適化しようとすると、結局のところ、APIを使用する企業に非常に高額な料金を請求しなければならず、実用的ではなくなってしまいます。
そのため、優先順位をつける必要があり、Quanは動画に優先順位を置いています。その動画は驚くべきものです。つまり、これはすべて、社会で非常に関心の高い別の世界、つまりコピーやその他すべてのための動画の世界に入ることを意味しています。
私はアリババのものを無視しないでしょう。現時点で最高のモデルだと信じています。おそらくすぐに他のものも出てくるでしょう。ByteDanceのモデルも動画で素晴らしい成果を上げています。TikTokを知らない人のために言えば、それがTikTokです。
しかし、Quanは、体系的なテストの観点から見て、現在最高の動画モデルです。中国のものを使ってみてください。オープンソースも素晴らしいです。とても良いですね。
次に進みましょう、クリス。ポイントは、自分のアプリケーションに最適なものを見つけることですね。その通りです。これについては既に話しましたね。
人間の脳がどのように機能するかを見てみましょう。何かを見るとき、網膜は既に神経系の一部です。多くの人が知らないことですが、これらの情報は最終的に光子の変換で、視床の外側膝状体を通って、脳の後頭部領域と呼ばれる領域に送られます。
そこでは様々な処理が行われます。錐体と桿体があり、色を捉え、形を捉え、これらを別々に処理します。これらを多くの方法で組み合わせていき、ある時点で何らかの構造を持つ表現を得て、それを記憶と照らし合わせて何かを認識しようとします。
いわば、タグ付けをするのです。そしてすぐに、それが物体であるという認識や、何であれ認識が得られます。何かを聞く場合も同様のことを行いますが、その場合は蝸牛を通じて、側頭皮質を通じて行います。
つまり、聴神経は別の経路です。私たちの脳は、刺激を受けるたびに全体が活性化されるわけではありません。それは非常に非効率的でしょう。
従来のニューラルネットワークや、例えばLlamaを使用する場合、アルゴリズムはこの非効率な脳のように機能します。プロンプトを書くとき、プロンプトの性質に関係なく、ネットワーク全体が活性化されます。
DeepSeekが行ったことは、「混合エキスパート」と呼ばれるモデルを使用したことです。これは非常に優れており、人間の脳のマルチモーダルな論理をエミュレートし、情報の種類に応じて必要なモジュールのみを活性化します。
これは驚異的な効率性をもたらし、品質を大幅に向上させます。これは定着した別のトレンドであり、みんなが使用しています。OpenAIも混合エキスパートを使用しています。
これはDeepSeekの発明ではありません。DeepSeekは単に混合エキスパートをより良く使用しただけです。しかし、これはアルゴリズムの生産論理と応答生産の論理を大きく変えます。
なぜなら、今や複数のネットワークがあり、サブネットワークを訓練することができ、それらは非常に特化することができるからです。例えば、Quanも混合エキスパートを持っています。
少なくとも、私が見ている仮説では... 先週MITで聞いたのですが... 彼らの混合エキスパートでは、動画に関する部分が優先されているということです。
これが私たちの時代の別のトレンドです。あることに特化したモデル、別のことに特化したモデルがますます現実になっていき、単一の最高のモデルという考えは、混合エキスパートのおかげでより少なくなっていくでしょう。
とても面白いですね。クリス、これについては既に話しましたし、この素晴らしい会話はもう十分だと思います。さて、明日、私たちが目覚めたとき、何が起こっているでしょうか?
DeepSeekレベルの次の大きな爆弾は何だと思いますか?効率性の爆弾について話していますが...クリス、それは消してください。人々が私たちがもう帰ろうとしていると思うかもしれないので。
市場を揺るがすような、彼らが行ったような...ところで、あなたに話したいことがあります。なぜなら、時系列を理解するために... トランプが就任したとき、彼はStargateを発表しました。
Stargateとは何か...それは投資です。彼がそれを行ったのは、そこにすべての人々がいたからです。彼はそれをしなければなりませんでした。それは巨額の資金です。カメラに向かって申し訳ありませんが、背中を向けたくないので...5000億ドルです。
5000億ドル、つまり0.5兆ドルが、主にインフラストラクチャー、データセンターに投資されます。そうですね。そして2日後に中国人がこの爆弾を投下したのです。
これは非常に重要な瞬間でした。同様のことが起こると思いますか?その前にコメントしてもいいですか?次のことを見てください。
DeepSeekが達成した効率性の飛躍は、インフラがより重要でなくなることを示唆しているように見えます。しかし、サティア・ナデラが最初に示唆したジェヴォンズのパラドックスという非常に意味のある議論があります。
これは新古典派の経済学者で、次のように言います:何か重要なものの費用が下がると、その需要は output が減少するのではなく、増加するほど上昇するということです。
つまり、AIサーバーが高価なので、AIの成長も制限され、特定の使用に留まります。例えば、ChatGPT Proは月額20ドルですが、それを支払う意思のある人はわずかです。
しかし、私がそれほどのインフラを持っていて、ほとんど無料で提供できる場合、世界中が使用します。もしそれがAGIであれば...AGIが月額1000ドルだとして、何人の人がそれを利用できるでしょうか?
費用対効果を計算して、本当に生活を変えるほどの価値があると判断する人は少ないでしょう。したがって、Stargateプロジェクトは中国のコスト削減によって陳腐化されるわけではありません。
むしろ逆で、需要の増加は非常に大きくなる傾向があります。私はそれがそのように適用されるとは思いません。
私が見ている非常に繊細なポイントで、誰も議論したがらないと思われるのは、前提がすべてGPUを並べることだということです。しかし、例えばCerebrasという新しいハードウェアメーカーが、4兆のコアを持つチップを生産しました。
これはあまりにも信じられないので、インターネットで確認してください。チップのサイズがどれくらいか分かりますか?つまり、私たちはGPUが大きなパラダイムとして疑問視される時代に生きているのです。
これは単にGoogleがTPUを使用しているという標準的な議論ではありません。GoogleがTPUを使用する理由は、TPUが検索やリレーショナルデータベースでの推奨に非常に適しているからです。つまり、基本的に検索エンジンに適しているのです。
しかし、それは重要ではありません。時々、人々は「見てください、TPUの方が優れています」と言いますが、それは愚かな話です。それは問題ではありません。
しかし、誰もがGPUを使用するこの世界の外では、新規参入者がいます。研究が急速に進んでおり、おそらくGPUに代わる、Googleの典型的なものではない、その特殊性を持たない、AI処理のための代替品を示唆しています。
そして、基本的に利用可能なものを使用する、急速な開発のこのようなプロジェクトに向かうとき、それは多くのNVIDIAカードを意味します。
イーロン・マスクが言ったように、彼は世界最大になる予定の彼のセンターを建設しています。既にそうかもしれません。xAI用のものです。前提は、少なくとも彼が宣言している、または宣伝している限りでは、100万枚のGPUカードを持つことです。
これは他の誰よりもはるかに多いです。10万枚のカードは驚異的な数字です。100万枚は正気の沙汰ではありません。DeepSeekが実際に何枚持っているかについては議論があります。5000枚なのか50枚なのか、最も驚異的な数字でも5万枚です。
一般的には5000枚から3万枚の範囲です。しかし重要なのは、それがはるかに少ないということです。しかし、特にここで見ているパラダイムシフトにおいて、本当に100万枚のGPUカードを互いに接続する必要があるのでしょうか?
これが本当にAIの本質的な未来になるのでしょうか?これについてもっと議論されるべきだと思います。私はこの議論を見ましたが、Stargateの世界ではこのポイントについての議論を見ていません。
私にとって、これが大きなポイントです。なぜなら、例えば、AIチップ、つまりGPUがなぜそのようになっているのか考えたことがありますか?
それはパッケージングと呼ばれるものがあるからです。切断する瞬間です。そして切断機は世界中で同じ方法に設定されています。信じられますか?しかしそれが真実です。それが大きな真実です。
しかし、標準を変える必要がありますね。彼らがこの方法で行うと言っているわけではありません。問題は、もっとPIDを進める時期ではないかということです。
例えば、もし私が政府の観点から考えて、多くの資金を持つ高度な開発国にいたら、私はインフラに直接投資するとは思いません。代わりに、AI処理技術のテストに投資し、GPUを選択する前に技術選択の段階を設けるでしょう。
私はGPUであることをそれほど確信していません。実際、GPUではないと思います。これが私のStargateに対する本当の批判です。DeepSeekが不要だと示したことではありません。
もちろんそうではありません。DeepSeekは以前よりもさらに必要だと示しました。ですから、もしこのようなものを立ち上げれば、世界中のAIインフラを持つことができます。これが地政学的な観点からの大きな夢です。
世界のAIインフラのプロバイダーになることです。これはビジネスをより良くするだけで、悪くはしません。しかし問題は、10万、20万、50万、100万枚のGPUカードで巨大なクラスターを構築するというものです。
本当にこれが物事の進むべき方向なのでしょうか?これについて私はもう少し考えるでしょう。
そしてブラジルはこのすべての中でどうなのでしょうか?完全に外れています。全く外れています。全く外れています。ロペスは言いましたね、私たちには多くの賢い人々がいるので人工知能は必要ないと。
その通りです。人工的なものは必要ありません。自然なものがあるのだから。しかし、ルーラは今日アマパーで、マグネシウムを採掘すると言いました。
彼はそう言いました。彼もそこにいたので、それを言わなければ人々が彼を殴るところでした。しかしブラジルはこれから外れていると思いますか?
もちろんです。全く関係ありません。そして人工知能法案によって、さらに外れることになるでしょう。残念ながら、上に切るか下に切るかという2つの方法があります。
ここで私たちが以前示したように、ネットワーク法案を見ましたね。今回はAI法案です。第一版のAI法案についてお話ししましたか、覚えていません。多くのテーマについて話してきたので。
そうですね、AI法案は示していませんでした。もしよければAI法案について議論できます。これは重要なテーマですから。私はAI法案が永久的に発展途上国の重しを私たちの足に縛り付けることになると思います。
残念なことに、意図は高潔で、懸念も正当だと思います。知的財産権に関する懸念は非常に正当です。規制強化を主張している人々は、ブラジルで最も素晴らしい人々の一部です。
大きな問題は、外の世界が反対の方向に進んでいることです。トランプは既に「中国なんて関係ない」と言いました。イギリス人も同様です。私たちの規範であるAI法、つまり欧州モデルを見てみましょう。
AI法は基本的に欧州産業を破壊し、彼らは既に見直しを始めています。私は議論を追っていますが、AI法は多くの変更を受けることになります。
そして欧州でさえ、もしこの法律がこのような形で可決されれば、高度に規制され、例えばトレーニングセットで使用された自分のものを削除できるような、つまりアルゴリズム全体を再トレーニングする必要があるような、そのようなモデルを持つのは、より小さな国であるブラジルだけになるでしょう。
つまり、ここでは何も作ることが不可能になり、私たちは決して飛躍することはないでしょう。私たちは既に飛躍しないでしょうが、これは私たちを完全に穴に落とすことになります。
AIが唯一重要な技術となる世界で、それは起こるべきことです。最悪なのは、これが非常に繊細な状況だということです。
なぜなら、規制強化の側に座っている人々の善意、知性、良識、倫理、そしてすべての積極的な資質を私は明確に認識しているからです。
彼らは悪人ではありません。むしろ逆で、ブラジルの文化や思想に最も貢献してきた人々です。私は彼らが間違っているとは思いません。
「あなたたちは素晴らしいけど、今回は間違っている」というわけでもありません。さらに悪いことに、彼らも正しいのです。彼らは最も倫理的で興味深い人々です。
彼らは正しいのですが、問題は一人で正しくても何の意味があるのかということです。「私たちだけが環境を守る」というようなものです。
申し訳ありませんが、コモンズの悲劇という人類の不幸があります。それは次のことを意味します:一度みんなが台無しにしてしまえば、あなたが基準を維持しても、あなたは倫理のチャンピオンかもしれませんが、結局は他の人々以上に台無しにすることになります。
だから、みんなが台無しにしたとき、ゲーム理論的には一つの選択肢しかありません。それは、自分も台無しにすることです。
これはすべてに当てはまります。もしアメリカの企業がブラジル人の知的財産権のデータでアルゴリズムを訓練できて、どうでもいいと言うなら...
ちなみに、何にも規制されない非常に良い戦略があります。日本でアルゴリズムを訓練するだけです。なぜなら日本にはそのような規制がなく、世界中のどんなデータでも訓練できるからです。それで終わりです。
もし日本に会社を設立して世界中のデータで訓練できて、どうでもいいというのに、ブラジルですべてが厳しく禁止され、企業にあなたの音楽をデータセットから削除するよう要求できたとして、それで何が得られるでしょうか?
国内産業を破壊することしかできません。なぜなら、他のすべての人々は既に別のやり方をしているからです。
ある時点で、これは悲しいことですが、単に「申し訳ありませんが、言葉は悪いですが、もう終わりです」と言わなければならない時が来ます。
このブレーキをかけることはできません。なぜならそれは、ブラジルが何らかの自律性を持つ可能性のあるこの小さな部分にだけブレーキをかけることになるからです。
他のすべてのブレーキ、重り、そしてバランスは、途中で失われてしまいました。もうどうすることもできません。悲しいですが、そうです。
しかし、私は実を言うとそれほど悲しいとは思いません。私がこのように言うのは、私が敬意を持っているからです。
私は単に、世界がこのように進んでいると思います。そしてこの時点で、音楽に合わせて踊る柔軟性も持つ必要があると思います。
例えば、法案2320では、高リスクと呼ばれるものが誇張されています。実際には、これはブラジルのAIスタートアップがどこにも存在できないことを意味します。
リスクはありますか?はい、あります。私は理解しています。確かにリスクはあります。しかし、次のようなことです:二分法は常にこうでした。AIを進めるか、リスクを避けるか。残りは言い訳です。
今、みんなが「リスクなんて関係ない、私は加速する」と言っているとき、あなたは他の人々と同じくらい加速する必要はありませんが、もし「私はリスクの防止の側に完全に立つ」と言うなら...
申し訳ありませんが、昨日のリオデジャネイロを見ましたか?ヴェルメーリャ線を走ると人々が撃たれる国で...イスラエルではなく、ここでそれが起こっているのです。
少し不条理です。少し矛盾していて、残念ながら国に非常に悪い影響をもたらすでしょう。だから、この話は見直す必要があります。この法案は見直す必要があります。
ここで質問をいくつか見てみましょう。ブルーノ・メデイロスが20レアル送ってきました:「セルジオさん、こんにちは。お元気ですか?DeepSeekについての質問です。ChatGPTの200レアルプランと同じことができますか?」
いいえ、より高価なプランでもできません。両方とも推論モデルですが、ChatGPT Pro、O3モデルの方がはるかに優れています。
なぜ彼らは同じことをしないのでしょうか?彼らは同じことをします。Chain of thoughtを生成します。つまり、画面で見る出力は同じですが、それを作るプロセスが異なります。
DeepSicのモデルは混合エキスパートで機能し、強力な混合エキスパートを持ち、その基礎は蒸留です。O3モデルは強力な人間のフィードバックによる強化学習を持ちます。
言い換えれば、数千万ドルが費やされてモデルの出力を洗練し、特にARCadyと呼ばれるテストでうまく機能するように特別に調整されました。
これは創造性と外挿のテストです。ちなみに、これは「人工知能は知的ではない」という話はもう存在しないという証拠です。
なぜなら、ARCadyは、インターネットにない回答を生成する能力、つまり相関物のない全く新しい問題を測定するテストだからです。そしてその性能は驚異的です。
したがって、知性は証明されています。概念をすべて再発明したい場合を除いて、もう議論の余地はありません。一方、DeepSeek R1のARCadyでの性能は低くなっています。
O3のテストでの性能は78%に達します。みんなAGIが何を意味するか知っています。78%です。一方、DeepSeekは記憶していませんが、50%程度です。
これらの28%の差は絶対的に区別的です。良いですね。次に彼は「今や選択肢があります。どれを選ぶべきでしょうか?」と言っています。
私たちはこれについて既に話しました。それぞれが異なる用途に適しています。話題を変えて、ヘンリ・クリストに会えて良かったです。彼との会話は本当に素晴らしかったです。
彼は自分のスペースにいます。アルド・パイがコメントしています:「セルジオさん、ブラジルのロケットの父、教授を招待してください。」ああ、アグナルド・プランディーニですね。彼と話してみましょう。
「すべての中から」が2レアル送ってきました:「私は地質学を専攻する予定です。AIは役立ちますか?」非常に役立ちます。私の分野、石油分野では、特に地質学は基本的にパターン認識と岩石分類です。
多くのことがあります。そして既にこれらのモデルがありますね。貯留層特性評価など、とても素晴らしいです。その通りです。
ブルーノ・メデイロスが20レアル送ってきました:「この前、リンがAIについて言っていました。AIの専門家と言う人は、AIが数学的にどのように機能するかを知っている必要があります。」
同意します。この文脈では、論文が読めないなら、AIの専門家ではありません。それくらい単純です。この文脈では、ChatGPTのような言語モデルは単なる単語の計算機ではありません。
これは既によく議論されています。単語の計算機ではありません。なぜなら、計算機で計算するとき、正確な答えがあります。32×25など、そういったものです。
言語のパラダイムは、異なる単語が正確ではないということです。それらは正しさの地平線上にあり、いくつかはより良い、またはより正しく見えます。
結果は正確ではなく、まさにこの言語の柔軟性によって、GPUを使用することができます。なぜならGPU自体が基本的に行列を解いて単語を選択する操作を行い、いわば「誤り」も生じるからです。
GPUでの操作はCPUと違って完全に正確ではありません。GPUの方がはるかに精度が低く、ノイズが多いのです。したがって、これは単語の計算機ではなく、確率的推論システムです。それがこれなのです。
注意とは基本的にそれです。確率的推論システムです。見ることができる空間があります。今日では、アルゴリズムのブラックボックスに入ろうとする研究が多くあります。
そして何が分かるかというと、例えば事前学習の過程で、フェーズ1、フェーズ2、フェーズ3と進むにつれて(事前学習も一度では終わりません)、単語の選択がどのように変化するかが分かります。
文を完成させるとき、選択する可能性のある単語の確率バーを生成することができます。そして訓練を進めるにつれて、バーの高さが均等から不均等になっていきます。
言い換えれば、単語の選択においてより大きな確信を得ていくのです。計算機のように100%正しい答えがあるわけではありません。これが実際の仕組みです。
ロック・アンド・ロードが9.99レアル送ってきました:「こんにちは、セルジオさん。私はアメリカのトラック運転手です。アリゾナ州フラッグスタッフの隕石クレーターで夜を過ごすことがよくあります。」
フラッグスタッフはよく知っています。近くのセドナのような小さな町が大好きです。ロック・アンド・ロード、あなたもアルバロもトラック運転手なら、ローウェル天文台に行ってください。
冥王星が発見された場所を訪れることができます。それがヒントです。エドゥアルド・パド・ヴィレラが質問しています:「セルジオさん、Akinatorアプリは現在のAIと同じように機能しますか?」
長いことAkinatorを使っていません。単に推測しているだけです。Akinatorを知っていますか?背後でAIを使用していると思いますが、確信は持てません。同じラインにはないと思います。
フェルナンド・サンパイオが10レアル送ってきました:「エドゥアルドさん」エドゥアルドは私のフォロワーで、SpaceXで働いています。先週、私はカリフォルニアのホーソーンにいて、SpaceXで素晴らしいツアーをしました。
施設を見学し、彼がツアーに同行してくれました。とても良かったです。彼はここで、私がカリフォルニアのビーチを楽しんだかと聞いています。エドゥアルド、あなたも見ていたように、私たちは雨をもたらしました。そのため、ビーチには行けませんでした。太平洋に手を触れることもできませんでした。天気が非常に悪かったのです。
しかしエドゥアルド、ありがとう。コリンチャンスのファンであるブラジル人で、SpaceXのITで働いている、とても良い人です。SpaceXで接続の問題があるとき、エドゥアルドに電話します。私のメールの調子はちょっと良くないですが...
SpaceXのツアーはとても素晴らしかったです。残念ながら何も撮影することはできません。全く何も、何も撮影できません。
フェルナンド・サンパイオは、番組を見るたびに何か飲み食いしています。今回は何を持ってきたか見てみましょう。「私の妻はデプロイのテクニックを持っています。とても冷たいビールを飲んでいます。コロッケ、コシーニャ、チーズを注文しました。彼女は怒っています。」なぜ怒っているのでしょうか?乾杯です。フェルナンド、一緒にいましょう。
ユーリ・クリスチャンが20レアル送ってきました:「こんばんは。独自のモデルを構築するのと、既存のモデルや事前学習済みモデルを使用するのと、どちらが有効だと思いますか?ガレージで始めた起業家の夢は可能でしょうか?」
素晴らしい質問です。今日、独自のモデルを構築するのは無意味だと思います。非常に強力な体制がない限り、DeepSeekのような場合は価値があります。
数理計算の天才を教えていて、周りに多くの天才がいない場合は、忘れてください。だから、ブラジルで「ポルトガル語のためにモデルを構築している」という企業を見るたびに、私は無意味だと思います。忘れてください。
しかし、例えば特定の分野に特化したモデルを構築する場合、独自のモデルではなく、誰かのモデルを蒸留して特定の領域に特化させるのは、完全にお勧めです。
つまり、これが違いです。例えば法律事務所がモデルを作成する...そうですね、でもそれは独自のモデルを構築しているわけではありません。モデルを作成したわけではなく、サブモデルを作成するために蒸留したのです。
だから、彼への回答としては、それが良いでしょう。自分の関心分野のためにモデルを蒸留することは、完全にお勧めです。他のものは基礎モデル、ファンデーショナルモデルと呼ばれています。
現時点では、DeepSeekのようなチームがない限り、それを作る価値はありません。その場合は、億万長者になれるだけでなく、世界に貢献することができます。
しかし、あなたの見方では、例えば私の場合ではありませんが、仮に法律分野のモデルを作成した場合、それを法律事務所に販売する市場はあると思いますか?それとも各事務所が独自のものを作れるので、市場はないと思いますか?
市場はあると思います。ただし、正確にはモデルではありません。モデルを作成すると、すぐに別のより強力なAIが登場し、私のトレーニングを持っていなくても、脳自体がより優れている可能性があります。
より多くのことを知っている人と、より知的な人、どちらを選びますか?一般的により知的な人を選びます。そうすると、すべてを失ってしまいます。
だから、正確にはモデルを作成するのではなく、更新する必要があります。常に更新し続けなければならず、それは上手くいきません。
しかし、やり方はあります。私はそれを行っています。ブラジルで今まで最大のソフトウェアプラットフォームを立ち上げる予定です。Meta Humanと呼ばれ、企業のパラダイムを変えるものです。
基本的に、AIの大きなプレイグラウンドです。しかし、基礎となるのは単一のモデルではありません。私はすべてのモデルを持っています。
ポイントは、その使用事例に応じてすべてのモデルを常にルーティングするチームを持つことです。これは先ほどの話のようなものです。そうすれば問題ありません。
最先端の最高のものを、各分野に特化したものと組み合わせたラッパーを持つことができます。これは素晴らしいビジネスです。私がこれに大きく賭けている理由です。
世界にとって良いことだと思います。どの分野でも入って、「ここには絶対的な知識を持つアシスタントがある」と言えることは良いことです。
しかし、モデルを固定することはできません。だから大きなチームが必要で、単純なことではありません。毎月50万レアルから100万レアルを投資することを想定する必要があります。簡単なことではありません。
リカルド・エリックが質問しています:「サム・アルトマンが社会の社会契約を再考する必要があると言った発言について、どう思いますか?」
少し大げさだと思います。彼は多くを話しすぎています。友人たちよ、これらの人々の言うことをフィルタリングし始めましょう。これは良いマーケティングの話です。
彼はイーロン・マスクから多くを学びました。マスクと喧嘩をしましたが、マスクが話すのを見て学んでいます。フィルタリングする必要があります。これらの人々の言うことを少しフィルタリングする必要があります。
アルヴァロ・マシャド・ディアスさん、いつもご参加いただきありがとうございます。サンパウロ州アシス出身のレイナルドさんからの質問です。
サム・アルトマンがChatGPT 4.5を3月に、そしてGPT-5を今年中に発表するという話がありましたが、全モデルを統合するということについて、どう思われますか?
そうですね、私はそれほど大きな変化はないと思います。私の見立てでは、これは段階的な進化に留まるでしょう。anthropicの件で彼が圧力を感じて、急いで何か発表しようとしているのではないでしょうか。
その通りですね。間違いなくそうだと思います。私も、これが4.5になるのだと思います。そして人々は「大したことない」と言うことになるでしょう。例えば、anthropicのClaudeに匹敵するような革新的な変化はないと思います。
ただし、Claude 3は既にanthropicよりも優れていると言えます。世界に与えるインパクトという意味では、私の考えは以下の通りです。歴史的な大きなインパクトはChatGPTでした。ChatGPTの前と後では、世界が変わりました。
ChatGPTの次の大きなインパクトはGPT-4でした。GPT-4も社会に大きな衝撃を与えました。その後がanthropicのClaude、そしてGPT-1です。GPT-1はあまり知られていませんが、専門家たちの間では衝撃的でした。
ちょうどサトシ・ナカモトのブロックチェーンの論文を読んだ人たちが驚いたように、GPT-1も限られた人々に大きな衝撃を与えました。ただし、その人々は影響力のある重要な人たちでした。優秀な教授陣などです。
そういった評価の高い人々を通じて情報が広がっていったのです。ChatGPT、Claude、GPT-4、この3つが大きな転換点だったと考えています。GPT-4.5やGPT-5がそのような役割を果たすとは思えません。
次の大きな変化は、おそらくAGI(汎用人工知能)と呼ばれるものになるでしょう。それまでは大きな変化はないと思います。もしかしたら何か別の展開があるかもしれませんが...
AGIについて、OpenAIはすでに持っているとお考えですか?
いいえ、明らかにそんなことはありません。OpenAIも何度も否定していますし、持っているはずがありません。例えば、誰かが家に宇宙人を隠しているようなものです。もし本当に持っているなら、最初にすることは宇宙人を撮影することでしょう。
私がいつも言うように、彼らのエゴを考えれば...イーロン・マスクと議論している人が、家に秘密を隠しているでしょうか?その日のうちにTikTokに投稿するはずです。「宇宙人を見つけた!」と。
もし本当にAGIを持っているなら、ホワイトハウスでデモンストレーションをするでしょう。大統領の隣で披露するはずです。
つまり、GPT-4.5は来ますが、大きな変化にはならないということですね?
その通りです。次の大きな変化はAGIだと言いましたが、実は違うかもしれません。これは完全な推測になりますが...
私は通常、完全な推測は避けるようにしています。私は「未来学」と呼ばれる分野で働いていますが、それは単なる空想ではありません。多くの企業が、投資の方向性やイノベーションについてのアドバイスを求めてきます。
私のイノベーション・コンサルティング会社であるWeMindは、そういった分析に特化しています。どこに投資すべきか、どのような変革が起こるのかを真剣に分析します。
だから軽々しい推測は避けたいのですが、この場合は純粋な推測として申し上げますと、次に来るのは「ビデオ」の分野だと思います。より現実的で関連性の高い、4-5分程度の短いビデオです。
あなたが言ったように、「このテキストを脚本にして、その脚本をビデオにしたい」というようなことができるようになります。それが次のブレークスルーになると思います。
でも、それは私たちの仕事を奪ってしまいますね。
はい、でもこれはAGIの前に来ると思います。脚本がビデオになる技術です。実際、既にある程度はありますよね。
ええ、多くの人がそれで稼いでいます。以前ライブ配信で話したのですが、例えば「エジプトのピラミッドについて書いて」と入力し、簡単な脚本を作り、それを音声に変換し、画像を組み合わせてビデオを作る...
そうしてYouTubeで「ダークチャンネル」と呼ばれる、誰も顔を出さないチャンネルを作って収益化する人がいます。本と同じで、クオリティは中程度ですが、お金は稼げます。
でも、どのくらい稼げるのでしょうか?
YouTubeの収益は良くないですが、月に5000レアル(約15万円)くらいは稼げます。
それは大したことないですね。何もない人にとっては良いかもしれませんが...我々は数十億規模の革命的な変化について話しているのです。それは単なるアルバイトのレベルです。
しかし、本当にテレビCMが作れるようになれば、広告代理店の在り方が変わります。ブルーノ・ボ氏が来て、その話をしました。彼は今、AIベースのビデオクリップ制作会社を立ち上げています。
でも、まだ実用的なレベルには達していませんよね?
彼は私たちにクリップを見せてくれました。良い出来でしたが、トークンを使うように、ビデオ制作にもお金がかかります。
私は業界をよく知っていますが、まだそのレベルには達していません。Googleデュプレックスのレベルです。短いビデオは作れますし、撮影したビデオを改善することもできます。
カメラの位置など、パラメータをわずかに変更することはできます。しかし、プロフェッショナルなレベルでは、4K解像度でのビデオ制作など、まだまだ多くの課題があります。
4K出力ができるツールは少なく、できたとしても短い時間のビデオに限られます。一般的には議論されていませんが、これは基本的な問題です。1080pでは不十分です。
2分以上のビデオを作ることもできません。それでは実用的ではありません。こういった基本的な課題があるため、まだ実用化には至っていないのです。
しかし、近い将来、脚本を書いてビデオを作り、「カメラをこう動かして」「このキャラクターを変えて」といった指示を自然言語で出せるようになるでしょう。
実際、最初のそういったCMが作られています。ただし、コカ・コーラの1年分の予算よりも高くついています。概念実証としては多くのスタッフが関わっており、1人がコンピュータに向かって作ったわけではありません。
なるほど、自然言語で指示を出してフィルムを作る...「2分の地点でカメラを上から」といった具合に書いていけば、AIが実行してくれると。
その通りです。そうでなければ、どんなCMや映画になるでしょう?ディレクションがなければ、ただの駄作です。
「このレンズを使って」「ニコンのあのレンズに変えて」といった指示が必要です。16mmで撮って、24Kで見たいとか...そういった指示がなければ映画は成立しません。
それが次の大きな転換点になると思います。ただし、私が言った通り、これは推測の域を出ません。ロードマップ上にあるものについて話すのは良いのですが、ここでは純粋な推測です。
しかし、この分野には大きな価値があります。ゲーム業界でも使えますし。
その通りです。Unreal Engineもそうですね。私のプラットフォームでは多くの採用プロセスにUnreal Engineを使っていますが、まだまだです。
Unreal Engine 6のベータ版が出て、4月に6.1の正式版がリリースされますが、より深いレベルでの知能を備えているという証拠はありません。
プログラミングができると主張する人がいますが、彼らは何も分かっていません。ゲーム制作の観点からすると、まだまだ遠い未来の話です。
通常のビデオが先に来て、その後にUnrealなどのゲームエンジンが続くと思います。ただし、これは確信のない推測です。
AGIの前に来るかもしれません。次のanthropicのような驚きは、ビデオの分野から来るかもしれません。
それはいつ頃だと思いますか?
来年ではないでしょうか。もしかしたら年末までに...anthropicのような驚き、ChatGPTのような驚きです。
次の大きな驚きはビデオの分野から来ると思います。来年半ばまでには何か大きなことが起こるでしょう。
ジョアン・フランシスコ教授から質問です。AIによる職業の代替について、まだ混乱が続いているようですが、現状はどうでしょうか?
まず、すべてのテクノロジーは仕事を代替します。コンピュータサイエンスの話をすると、「コンピュータ」は元々人間のことを指していました。
彼らはスイッチを操作し、カードを処理する機械を扱っていました。半導体やチップの出現により、電子機器が人間のコンピュータを置き換えました。
つまり、この産業は人を置き換えることから始まったのです。小さな細部ですが、多くの人が忘れています。
私は仕事の代替は現実であり、加速していくと思います。「幻想だ」という話ではありません。仕事の代替は確実に起こります。
しかし、それは単独では存在しません。仕事の洗練化も進み、面倒な部分が排除されていきます。
例えば、Excelが登場した時、多くの人が「会計士は消えるだろう」と言いました。会計士を不要だと考える人が多かったのです。税金の話をする厄介な存在だと思われていたからです。
しかし、会計士は消えませんでした。むしろ、会計士の仕事から面倒な部分がなくなりました。
プログラマーが消えることもありません。もちろんありません。これは明らかです。
でも、何も消えないというわけではありません。50年という長期的な視点で見れば、今日我々が知っているすべての職業が消えるかもしれません。
それは素晴らしいことかもしれません。なぜなら、機械が資源を生み出してくれる間、我々はゆっくりできるということですから。
そうはならないと思いますが、それほど暗い未来ではないということを言いたいのです。
より近い5年というスパンで見ると、代替よりも能力向上の方が多いと思います。本当の意味での代替は、3人分の仕事ができる人が出てきた時に起こります。
30人のプログラマーの代わりに10人で良いのなら、なぜ30人も必要でしょうか?10人の給料を3倍にした方が良いでしょう。給料の高い人の方が幸せに働きますし、より良い仕事をします。
だから、30人の代わりに、給料の高い優秀な10人を雇う方が良いのです。
これがAIの論理です。あるツールをマスターして、より速く、より良い仕事ができるようになれば、他の人を代替できます。
でも、そのようなことはAIがなくても、単に優秀であれば可能でした。優秀な人が最終的により価値を生み出すのです。
実際には、多くの場合これが現実的なプロセスです。その過程で、中間的な職業がエージェントによって淘汰されていきます。
残念ながらパンデミックで亡くなったデビッド・グレーバーという素晴らしい経済学者がいました。彼は「クソどうでもいい仕事」(Bullshit Jobs)という傑作を書きました。
彼は厳密な研究を行い、企業には「クソどうでもいい仕事」が多くあることを示しました。ディルバートの漫画のように、5人で会議ばかりしている人たちがいて、1人去るたびに会社の生産性が上がるのです。
私は率直に言って、人を解雇することに賛成です。私が投資している企業を見て「この人を辞めさせれば...」と考えます。家でゆっくりしてもらえれば良いのです。会社の邪魔をしなければ。
このような人々は、中間管理職のような中間的な立場にいることが多いです。なぜなら、規模の経済により、企業は成長のために中間的な階層を作っていくからです。
例えば、ヘンリー・フォードの時代は、全員が生産ラインにいて、お互いを知っていました。しかし、企業が巨大化すると...「ここに5つの部門があって、生産ラインがあり、各分野にスペシャリストがいる。少なくとも1人はこの5つの部門を見る人が必要だ」となります。
「でも、各部門が大きくなりすぎたので、各サブ部門に1人ずつ必要だ」という具合に。「今や2つの事業部があるので、5つのサブ部門を見る人が必要で、各部門には管理者がいる」
結果として、各企業に部長がいて5つのサブ部門...というように、巨大な階層構造ができあがります。その過程で、一時的には意味のある中間階層が生まれます。
例えば、「グロース担当が必要だ。マーケティングとは別のグロース部門を」という具合です。時にはそれが正しい判断の場合もあります。
このような管理職の階層を作っていくわけですが、グレーバーが指摘したのは、そのような「クソどうでもいい仕事」の多くは、もはや存在しない何かを管理している場合に生まれるということです。
公務員制度を見れば分かります。つい最近まで「タイピスト」というポジションがありました。ブラジル宇宙機関にさえ、つい最近までタイピストのポジションがあったのです。
これは完全に「クソどうでもいい仕事」です。このような非効率は消えていく運命にあります。「インディアンの数に対してチーフが多すぎる」というやつです。
面白いことに、我々は生産と生産に関する思考が再び近づくモデルに収束しつつあります。時計の針を逆に回すようなものですが、新しいアプローチです。
現代的な経営モデルは、世界のベンチマークとなっているビジネススクールのモデルですが、それは基本的にあらゆる場所に管理職を置くものです。
イーロン・マスクの批判は正しく、この点で彼は間違いなく生きている中で最も優れた天才です。彼は何をするか?全員を解雇します。
「この仕事をする人が必要で...」「いや、その人を管理する人も必要で...」「両方解雇だ。問題は分かった。両方いらない」というわけです。
なぜなら、ツールと頭脳があれば、自分の仕事を自分で管理できるからです。考えてみてください。誰かに「これをしなさい」と言われる必要のある世界とは?
まるで誰かに「ベッドから起きて、歯を磨いて、トイレに行きなさい」と言われる必要があるようなものです。そんなことはしません。管理者は必要ありません。
私はAIがこのような中間管理職を強力に代替していくと考えています。「これとあれの管理をしています。たくさんの会議に出ています」という人たちです。
一方で、実際に何かを作っている人は、それほど心配する必要はありません。むしろより良くなります。
アンドレ・メロさんから50レアルの投げ銭とともに質問です。「会話型AIエージェントと自動化を組み合わせた場合、どの分野が恩恵を受けるでしょうか?」
最も明らかなのはカスタマーサービスですね。これは既に現実のものとなっています。5年前の単純なEコマースのチャットボットは最悪でしたが、それが置き換えられつつあります。
今日では、人間以上に専門的なテクニカルサポートができるようになっています。これは大きな変化です。
例えばAppleは高価ですし、企業としては独占的です。AirPodsが売れる理由の一つは、デバイスに隠された独自のプロトコルです。オープンと言いながら実は偽装的なオープンさです。
ザッカーバーグもこれについて正しい指摘をしています。箱から出してすぐにAirPodsが接続されるのは、実際には良いことです。独占的な要素はありますが...
それはさておき、Appleのカスタマーサービスは素晴らしい。電話すれば人が対応してくれます。Macに問題があれば電話一本で、彼らは問題を理解し、リンクを送ってあなたの画面を共有し、問題を解決してくれます。
これは現実世界での対応の仕方です。起業家の方々へアドバイスですが、1000個のチャットボットを導入しようと考えているなら、ベンチマークとなるAppleを見てください。
問題があれば電話で人が対応し、画面共有のリンクを送って問題を解決する...これが現実の世界の仕組みです。
しかし、技術的な問題を解決する優れたアシスタントが登場しています。私自身、ある学術機器のサポートを受けた時、人間のオペレーターはいましたが、遺伝的なアルゴリズムを使用した支援ソフトウェアがありました。
それを見て、5人の専門家チームが必要な問題を解決できるような印象を受けました。それがソフトウェアだったのです。
カスタマーサービスには、明白ではない自動化の可能性があります。より複雑なテクニカルサポート、例えば電気自動車のサポートなどです。
メカニックが使用するBMWのサービスなどは、生成AIを使用した驚くべきソフトウェアです。問題について話し、議論できるシステムがあり、それは人間以上の知識を持っています。
「オン/オフのボタンを押してください」とか「ルーターの電源を切って20秒待ってください」といった単純なものではありません。
本当に人々の平均的な知識を超えるような問題が発生した時、機械による支援の方が優れている傾向があります。
自動化の観点からもう一つ強く来ている分野は、コーポレートメールと予定表の対応です。エージェントを通じてシステムがあなたの代わりに行動する...これは成長している傾向です。
まだ初期段階ですが、例えば誰かが仕事の予定を依頼してきた場合...あなたには予定表があり、デモをしたい企業があるとします。
現在のやり方は、CRMが自動メールを送信する...というものです。フォームを送って...といった具合です。
しかし、将来的な正しいモデルは、多くの質問を含むメールを送り、その人とのやり取りを始めることです。相手が返信すると、LLMが応答します。
なぜなら、そのやり取りに必要なロードマップやトレーニングされたルールがあるからです。そして実際の会議の日には、「この人との会話の要約です」といった情報も提供されます。
会議の計画に関しても同様のことが起きています。LLMを使った自動化です。例えば、企業の取締役として会議に参加する際、すでにブリーフィングされた状態で臨めます。
これらは、自動化とLLMを組み合わせた観点から見て、うまくいくと思われる分野です。
ルイス・フェリペさんから質問です。「シリコン半導体から超伝導チップの時代へ...」という話はすでにしましたね。フリオ・セザールさんからの10レアルの質問とも関連していますが、彼は「次の大きな変化はビデオだと思う。ブラックホールのビデオを作って、アニメーションを生成する...」と言っています。
素晴らしいですね。私も同じことを考えています。科学論文を取り上げて脚本に変換し、カメラの前で話すだけ...そこまででいいんです。
それだけでも価値があります。私にもできますが、時間がかかります。毎週たくさんのクリエイティブな仕事をしているので...
例えば、エレトロミディア向けに4つのアフォリズム(警句)を作り、4つの全く新しいアイデアのビデオを作ります。誰かが以前に言ったことは使いません。
2週間に1回、フォーリャ・デ・サンパウロ向けの記事を書きます。2週間かけて考え続けます。CBNのために全く新しい脚本も作ります。
これらはフォーリャ、CBN、エレトロミディアという最高レベルの仕事です。その他は二次的なものです。その合間に製品を作り、コンサルティングの方向性を決め、講演の脚本も作ります。
講演は今や私の生活で重要な役割を果たしており、週に3-4回は行っています。
このようにたくさんのクリエイティブな仕事があり、ソースの使い方が上手くなり、理解が早くなっていくと...AIと比べても非常に高い生産性を達成できます。
私の音声メッセージを録音して脚本を作る...というレベルに達するには、まだ5年はかかるでしょう。
本当ですね。10時間...私たちは気づいていませんが。
だから私はAIに任せても「これは弱すぎる」と感じ、自分で座って作る方が良いと思うのです。
この賞は5年後に提供した方が良さそうですね。
10年間ビデオを作り続けないと...10,000時間の法則ですね。
そう、10,000時間です。10年というのが一般的です。
ジョアン・フランシスコ教授から質問です。「企業環境でAIを使用する場合、機密性は保たれるのでしょうか?」
多くのアルゴリズムは、クライアントのデータをトレーニングに使用しないと主張しています。それは疑問に思うかもしれませんが、オープンソースモデルを見つけてローカルで実行することもできます。
その場合、情報が外部に漏れる心配はありません。これは解決不可能な問題というよりも、過度に警戒されている問題です。
Llamaをダウンロードして、自分のインスタンスで実行し、物理的なサーバーを購入して部屋に置き、鍵をかければ終わりです。
アジリティ・ドッグ・ブラジルから質問です。「人間の指揮官が不要な職業、例えばパイロットや外科医について、代替にはどのくらいの時間がかかるでしょうか?」
2つの事を分けて考える必要があります。
第6世代の戦闘機は既に自律的です。一方で、民間航空機の場合、人命に関わる責任があるため、パイロットをすぐに排除することはないでしょう。
航空機全体のコストから見ると、パイロットのコストはそれほど大きくありません。法的な観点から考えてみてください。
何か問題が起きた時、自律システムだった場合、航空会社は10億ドルの訴訟を起こされる可能性があります。パイロットがいれば、責任は相対的に軽減されます。
ビジネスモデルの観点から見ると、必ずしもパイロットを排除することが良いとは限りません。法的リスクが大きすぎるのです。だから、パイロットが消えることはないと思います。
外科医も同じです。医療の多くの分野で、機械は確かに人間を超えつつあります。しかし、それは医療が代替されることを意味するのでしょうか?
特にブラジルでは、それは決してありません。なぜなら、連邦医療評議会があるからです。
手術用ロボットは既に多くありますが、例えばDaVinciという優れたラインがあります。しかし、ロボット手術があるからといって、医療チームの責任者である医師が不要になるとは考えられません。
20年経っても、患者の安全性の観点から、制度的な観点から、そして議会には多くの医師がいるという政治的な観点から...様々な理由でそうはならないでしょう。
法律も同じです。AIは確かに弁護士の仕事をこなせますが、OABの認証がない機械の認証で申立てができると思いますか?20年経ってもそんなことは起こりません。
なぜなら、ブラジルで最も強力な権力の一つ、多くの人が最強と言う司法権力があるからです。判事をAIに置き換えるなんて...冗談でしょう?
我々はともにいるよ、判事さん!
フラヴィエラさんから質問です。「データ保存分野でAIをどのように応用できるでしょうか?量子物理学はこれにどう影響するのでしょうか?」
それは量子コンピューティングの話になりますね。物理学者の話をしましたが...データ保存に関しては、サーバーの最適化プロセスなどでAIが役立つと思います。AIは既に最適化を支援しています。
エリックさんから「将来、AIが専門分野でより優れるようになった場合、代替されないためには、ジェネラリストになるべきか、スペシャリストになるべきか?」という質問です。
それは状況によりますが、一般的にAIはより専門的になっていくでしょう。しかし、専門家であれば、AIをより上手く使うことができます。それが重要なポイントです。
私にとって、これが重要なルールです。自分の仕事でAIを最大限活用できる人...私はAIをツールとして捉えています。AIを効率的に使用できれば、より生産的になれるからです。
そうすれば、AIに代替されることも、他の人に代替されることもありません。なぜなら、AIを味方につけているからです。ただし、これは人員削減が必要ないということではありません。
他の人がAIを使うため、より少ない人数で済むようになります。椅子取りゲームのようなものです。椅子の数が減るのです。
あなたは椅子に座れるチームの一員でありたいはずです。より生産的である必要があります。
これは労働の観点からは苦い見方かもしれません。しかし、2つの道があります。AIに文句を言い続けるか、それとも自分の分野でAIを活用することを学ぶか。
ジャーナリズム、法律、工学、医学...どの分野でも、AIの活用を学ぶ必要があります。そうでなければ、AIがあなたを乗り越えていくでしょう。
もう一つの視点を提案します。従来の意味での労働者としての未来を考えるのか、それとも...これだけの技術があるのだから、ついに起業できるのではないか、と考えるのか。
あなたにとって不利に見えたすべてのこと...解雇される可能性やその他のリスクが、突然あなたの味方になるかもしれません。
プログラミングの知識がなくてもウェブサイトを作れるようになり、デジタルコンポーネントを含む製品を考えついた場合、20分の1のコストで100分の1の時間で製造できます。
マーケティングやコミュニケーションの課題があっても、自動化できます。そして近い将来、ビデオも作れるようになります。
雇用の観点から見た現実は、起業の観点から見た現実とは異なります。
これは私の考えであり、私と職業的な関係のある全ての人に伝えたいことです。人々がそのような機会を見つけられる時が来ると思いますし、私もその一員でありたいと思います。
私のところで働いている人が新しい道を見つけるのは素晴らしいことです。私を誘ってくれれば、喜んで参加します。
つまり、将来は「仕事の代替」「失業」という観点だけでなく、「AIを使って仕事を維持する」「製品を作る」「起業する」という可能性もあるということです。
ツールは既にそこにあるのです。雇用があるかないかという二者択一だけで考えないでください。これは聞いている方々へのメッセージです。
さて、そろそろ締めくくりましょう。最後の質問です。「AIは天文学的データの分析にどのように貢献していますか?」
天文学ではずっと前からAIを使用しています。1980年代から系外惑星の発見やギャラクシーの分類にAIを使っています。
私の分野である石油産業でも、長年AIを使用しています。ただし、それは生成AIではなく予測AIです。確率や異なる種類の予測が必要なのです。
アルヴァロさん、3時間を超えてしまいましたね。
そうですね、2時間10分になりました。このような話は長くなりがちです。
アルヴァロさんには近々また来ていただく予定です。武器に関する非常に興味深いテーマについて議論する予定です。AIだけでなく、多くの事柄が関係してきます。
数週間後にはアルヴァロさんが戻ってきます。今年はもっと頻繁に登場するでしょう。年はカーニバル後に始まると言いますから、まだ始まっていないのにこれだけの騒ぎです。
1週間後にはフローにも出演します。イゴールとの対談です。面白いことに、最初の対談はフローでした。
デジタルツインについて話しましたね。今では少し下火になっているテーマです。
開発は止まっていますね。しかし、ホログラフィック投影やメタバースのようなものは、必ず強力な形で戻ってくると思います。
ケンさんが最初に来た時、メガネを持ってきましたよね。今では持ち歩いていません。昨日話しましたが、もう持ち歩いていないと。
このような変化を見守るのが面白いですね。我々自身も変化していきます。それが重要なことです。
アルヴァロさん、ありがとうございました。フォローの方法を教えてください。
InstagramかLinkedInで@alvaromachaddyasをフォローしてください。オリジナルコンテンツのみを投稿しています。無駄話はありません。本当に丁寧な内容です。
フォーリャ・デ・サンパウロの購読をお勧めします。ブラジルのマスタークラスであるカーサ・フォーリャに私も参加しています。
最近、ライ選手も加わりました。スポーツにおけるリーダーシップについて話すためです。ライはブラジルのアイコン的存在で素晴らしい人物です。他にも素晴らしい人々がいます。
カーサ・フォーリャの購読を強くお勧めします。私は未来を考えるための原則について、非常に凝縮されたコースを提供しました。
これは初めての試みでした。なぜなら、これらの原則は、米国や欧州の同分野の専門家たちの研究を読み、クライアントとの関係の中で抽出されたものだからです。
本当にオリジナルな内容で、ありきたりなものではありません。
フォーリャ・デ・サンパウロのデジタル版、アプリで私の記事を読むことができます。日曜日は隔週で掲載され、火曜日に印刷版やPDFで配信されます。
デジタル版で十分です。印刷版は必要ありません。印刷版付きの購読料は高いので、デジタル版で問題ありません。
CBNでは、毎週水曜日の午後3時5分に放送しています。今週はスタジオで「悪意」について話しました。人々が悪意を持つようになる理由について。
視聴率が急上昇しています。CBNでは本当に注目を集めています。是非聴いてみてください。
メッセージには必ず返信しています。対話が大好きです。皆さんのことも大好きです。ありがとうございました。
素晴らしい対談でした。3,500人以上の視聴者がいましたね。
インサイダーがスポンサーです。フューチャーフォームは、インサイダーのTシャツに使われている全ての技術を詰め込んだパンツです。
12%割引コードは「CSF」です。画面に表示されています。リンクは説明欄にあります。
アルヴァロさん、素晴らしい対談をありがとうございました。
皆さん、ありがとうございました。おやすみなさい。また会いましょう。