
E11: DeepSeek-R1: シリコンバレーに衝撃を与えた5百万ドルのAIモデル | Leaders Of AI
19,376 文字
明らかにR1は世界を席巻しています。Nvidiaは1日で177%も株価が下落し、私たちは文字通り何でもやる覚悟のある国を目の当たりにしています。これは本当に5百万ドルだけだったのでしょうか? 盗まれたのか、それとも中国が賢かっただけなのか。彼らはこれを基本的に西洋と東洋の戦いだと考えています。
正直何を考えればいいのかわかりません。誰が作ったのかと尋ねると、「OpenAIが作りました」と答えるので。Metaはllama 4を破棄して「私たちが開発していたものはこれと比べるとゴミだ、最初からやり直さなければならない」と言いました。
こんにちは、リーダーズ・オブ・AIポッドキャストにお戻りください。私はデイビッド・シャピロです。今日はジュリアの代わりを務めていますが、素晴らしいゲストをお迎えしています。ジョン・ギブスさんです。私は彼のポッドキャスト「Dr knowt all」に出演したことがあります。詳細は説明欄にリンクがありますが、本当に注目すべきはR1についてです。
ジョン、DeepSeek R1についてどう思いますか? 最初の印象を聞かせてください。
ええと、これは少し変な話なんですが、私はそれが登場したときに見ました。実際、アンドレ・カーパシーが言及した1ヶ月前にV3を見ていて、この中国企業が比較的少ない予算で作ったモデルとしては、かなり良いものだと思いました。しかし今回のものを見て試してみると、素晴らしく動作していました。
そこで技術的に深く掘り下げた50分程度の動画を作りました。非常にニッチな内容だったので、数千回程度の視聴回数を期待していたのですが、突然viral的に広がり始めて「一体何が起きているんだ?」と思いました。調べてみると、この週末でバイラルになっていたんです。
ここ数日の出来事ですが、明らかにR1は世界を席巻しています。少なくとも昨日の株式市場は不安定でした。今日の状況はまだ確認できていませんが、回復があったかどうかはわかりません。特にNvidiaは昨日大きな打撃を受けていました。
そうですね。株式市場を細かくチェックしていない視聴者のために補足すると、Nvidiaは1日で177%も株価が下落し、時価総額ベースで見ると1日の下落額として過去最大規模でした。5,000億から6,000億ドル規模だったと思います。
そうですね、スターゲイト1つ分を失ったと言えますね。5,000億ドルを1日で失ったということです。その後少し回復していますが、明らかに世界中に衝撃が走りました。
ゲイリー・マーカスが色々なところで発言しているのを見ましたか? R1について私の見解を述べさせていただき、どこで意見が一致するか、あるいは異なるか、何か思うところがあれば教えてください。
まず、実際に5百万ドルしかかからなかったのか、盗まれたのか、などの陰謀説がありますよね。正直何を考えればいいのかわかりません。誰が作ったのかと尋ねると、「OpenAIが作りました」と答えるので。
ちなみに、それは今では修正されていて、「私はR1です」と答えるようになっています。
なるほど、そうですか。当初は「私はOpenAIのChatGPTです」と答えていたので、重みが盗まれたのか、合成データや盗まれたデータを使用したのかと考えられていました。多くの人が「データセットに合成データが大量に含まれていたからだろう」と言っていましたが、私はそれを完全には信じていません。
あなたの見解としては、本当に5百万ドルだけだったのか、盗まれたのか、それとも中国が賢かっただけなのでしょうか?
はい、私はそのすべてだと思います。論文を読んで、詳細な動画も作りましたが、深く掘り下げていくと「ああ、これが進むべき道なんだ」と思いました。強化学習とセルフプレイを使用していますが、R1モデル(R10ではなく)については、約80万件の推論サンプルをコールドスタートとして与え、目指す方向性を示しています。
そのデータの多くは古いV3モデルから生成したと思われますが、他のソースからも取得しています。その中にはOpenAIのものも含まれている可能性が高く、R1のベースとなったV3もOpenAIの訓練データを使用していた可能性があります。
確かに、誰もがOpenAIに大きな恩恵を受けていると言えます。基本的に訓練データとして使用したわけですから。
予算の少なさについては、理解が難しい部分があります。データセンターを運営したことがないので、1万台のGPUを1週間動かすのにどのくらいコストがかかるのか、100万ドルなのか1,000万ドルなのか、正直よくわかりません。
これらの企業が大量のGPU、いわゆるグレーマーケットのGPUを持っているという点については、私は多くのGPUを持っているけれど、公には言えないのだと思います。なぜなら別の会社を通じて購入し、そこからNvidiaから入手しているからです。
公表している以上のGPUを使用していると思いますが、オープンソースで、推論エンジンは無料で、APIにレート制限もなく、100万出力トークンあたり214ドルか218ドルという信じられないような価格設定です。
中国共産党が完全にサポートして、他社を下回る価格で提供できるよう資金を注入しているのでない限り、彼らは本当に安価に実現しているのでしょう。
その通りですね。この分野の専門家と話をし、GPT-3の時代からこれらを使用してきた経験から、トークンコストは年々10分の1になっていっています。当初GPT-3では1,000トークンあたり5ドルくらいだったと思います。
トークンコストは指数関数的に下がっていて、それはより良いモデル、規模の経済など、様々な要因が組み合わさった結果です。だから彼らが「よし、これを今解決しよう」と言ったとしても不思議ではありません。
一歩下がって考えてみると、私の興味は地政学的な側面や経済的な側面にあります。これは中国のスコープなのか、それとも単なる良い意味での競争なのか、軍拡競争なのか、その観点からどう見ていますか?
私は陰謀論者ではありません。むしろ反陰謀論者です。だから最初の印象は「これは陰謀論ではない、スコープをやっているわけではない」というものです。しかし、可能性の範囲外というわけでもありません。
私たちが見ているのは、勝つためには文字通り何でもする覚悟のある国です。彼らはこれを基本的に西洋と東洋の戦いだと考えています。
ある人がこれはスプートニク・モーメントのようだと言っていましたが、完全にそうとは言えません。私たちも何もしていなかったわけではなく、多くのものを持っています。しかしシリコンバレーや米国、西洋には「私たちが先行している、よかった、誰も追いつけない」という一種の安心感がありました。そして「なんてこった」となったわけです。
スコープかどうかということについては、政府が巨額の資金を注入して、無料で提供できるようにし、コストがほとんどかからないように見せかけているとすれば、それがスコープということになります。まるで中共が「気にしない、サイドプロジェクトだ」というような感じです。
しかし、これは正当なプログラムで、素晴らしく動作し、重みなども公開されていて、人々が検証もしています。私は自宅のMacでは実行できないほど大きなものですが、広告通り動作することが確認されています。
つまり、スコープという意味では、彼らが言っているよりもはるかに多くのコストがかかっているかもしれませんが、正当な競争があり、特に強化学習の側面、セルフプレイの側面については、これはダムが決壊したようなものです。もう制限はありません。
あなたはAGIやASIがどれくらいの速さで来るかについて話すのが好きですが、突然10倍くらい速度が上がった、あるいはウィンドウが縮まったような感じです。予定よりも早くなったということですね。
そうですね、指数関数的な加速の性質として、これらの出来事は予想よりも常に早く起こります。そして枠組みが上がると、また上がります。なぜなら私たちは数年後までは3090で動くようなAGIを見ることは予想していなかったからです。しかしこれはかなり近いものです。
ファンや他の人々から「小さいバージョンをダウンロードして、Nvidia 3090や4090で問題なく動作している」という連絡を受けています。彼らは「これはクラウドなしでも実際に役立つ」と言っています。
商業的な観点やビジネスの観点から見て、これは今後の兆候だと思いますか? コモディティハードウェアで必要なモデルをローカルで実行できるようになるのは時間の問題でしょうか?
はい、そう思います。モデルの階層化が進むと思います。常にフロンティアモデルがあり、それを実行するには相当なハードウェアが必要になりますが、そういったモデルはますますニッチになっていくでしょう。
実際、それらは主に小さなベビーモデルを訓練するために使用され、そのベビーモデルは電話やラップトップ、デスクトップなどで実行できるようになります。私たちが主に使用するのはそういったモデルになるでしょう。
重要なのは、サム・アルトマンに敬意を表して言うと、彼は「最終的にAIは測定するのが無駄なほど安価になる」と言いました。これはその大きな一歩です。私たちはその急降下を始めています。
これは非常に興味深い問題を生み出します。市場が動揺したのは、この研究のためにシリコンバレーの企業に数百億ドルの資金が流れ込んでいて、「それは本当に価値のある投資だったのか、それともお金を無駄遣いしていただけなのか」と考えたからでしょう。
今日公開した動画で、私はこれを「モーツァルトのパラドックス」と呼びました。私は音楽、特にクラシック音楽の大ファンで、AIが登場する遥か前から、モーツァルトが最も天才的で創造的な作曲家だと主張してきました。
なぜなら、彼が生きていた時代の作曲のルール、つまり古典音楽の箱は非常に厳格でした。誰かを小さな箱の中に入れると、その中にとどまって退屈なものを作るか、箱から飛び出す方法を見つけて、より創造的になるかのどちらかです。
オンラインでも多くの人がこれについて話しているのを聞きました。アメリカが、これらの企業がNvidiaやAMDからハイエンドGPUを入手する能力を制限したことで、基本的に彼らをより創造的になることを強制したのです。
そして見てください、彼らは創造的になりました。どうして驚くのでしょうか? 諦めるか、「待てよ、このクールな新しいことを考えられる」と言うかのどちらかです。「自分が何にアクセスできるか」を考えたのです。
実際、私が考えた言い回しは「必要は発明の母だが、制約は創造性の父である」というものです。
その通りですね。制約は、より賢くなるか、すでに持っているものを再利用するかを強制します。
あなたが以前言及したことで、私にとって十分に意味が通じていなかったことの一つは、これらの推論データセットは一度生成されれば、それで十分だということです。今後はすべてのモデル、すべての企業がそれを使用できます。
この知識とデータの蓄積が公に行われていて、新しい世代のモデルが登場するたびに、次の世代のモデルが使用できる大量の合成データが生成されます。これは雪だるま効果のようで、本当に止めることができません。また、まったく堀はありません。これがあなたの見解ですか?
その通りです。以前に堀があると思っていた人がいたとしても、今は明らかにないですね。これがそれを完全に証明しました。そして彼らがそれを無料で提供したという事実。
実際、これは完全な噂の段階ですが、Metaは第一に、llama 4を破棄して「私たちが開発していたものはこれと比べるとゴミだ、最初からやり直さなければならない」と言い、第二に、トップ研究者13人がそれぞれR1の公表された訓練コストよりも高い年収、つまり一人500万から600万ドル以上を稼いでいるそうです。
「この人たちにそんなお金を払って何をしているんだ?」という話です。これは業界全体に破壊的な影響を与えました。だから株式市場にも反映された「世界を震撼させた」瞬間だったのです。
R1について他に一般的な話題はありますか? それとも、R1が生成した素晴らしい質問に移りましょうか?
いいですね、R1が私たちに何を質問するのか見てみましょう。
質問1: artomaticのSkinerツールは3Dアニメーションの面倒な作業を自動化することで革新を目指していますが、AIの効率性とデジタルアートにおける人間の創造性をどのようにバランスを取っていますか?
おお、これは本当に良い質問ですね。R1、いい仕事をしました。あるいはperplexityか、どちらかですが。
これは私たちがよく考えていることです。実は今、あるプロジェクトに関わっています。興味深いことに、政治的な話題に少し触れることができますが、政府の助成金支出の凍結が私たちに直接影響を与えています。今日それが停止されたことを知って「おっと」という感じです。
元々の製品は、2020年のコロナ禍の年に大学院生と行った授業プロジェクトがベースになっています。私個人の痛みポイントだった3Dモデルのウェイトペインティングに取り組んでいました。
簡単に言うと、私のような人物をモデリングしても、動かすためには骨格を入れる必要があります。しかし骨格を入れた後、腕や足を動かすときに皮膚を骨の上で適切に動かすのは非常に複雑で面倒な作業で、時間もかかります。
そこで「これを自動化できないか」と考えました。実際に授業の中で実現し、その後それを商用製品に転換してきました。
AIの恩恵と創造性、あるいは人的資本を無駄にしないことのバランスについて、とても良い質問だと思います。私たちは市場調査を行い、この仕事をしている人々と話をしました。
誰一人としてこの仕事だけをしている人はおらず、これは彼らの仕事の一つで、最も好きではない仕事でした。「この仕事を取り除いてくれるなら、ぜひお願いします」と言っていました。昔のCalgonの広告のように「これを取り去ってくれ」という感じでした。
だから私たちは嬉しかったです。誰も怒らせることなく、むしろ彼らが嫌がっているこの作業を取り除くことで喜んでもらえるからです。これは目に見えない、しかし必要な、感謝されない仕事なのです。
一方で、他にも開発中のものがあり、それらは雇用により劇的な影響を与える可能性があります。それは常にバランスを取らなければならないものです。それは目的地ではなく旅路なのです。
なるほど、それは理にかなっていますね。ところで、少し触れかけた話がありましたが、雇用により直接的な影響を与える可能性のある開発中のものとは何ですか? これはグラフィックアーティストを失業させるような仕事の代替ツールなのでしょうか?
実は、それは全く異なる領域のものです。現在、Fortune 500企業と契約を結んでいます。契約上の理由で詳細は話せませんが、製品がリリースされれば公表できます。あと数週間でリリース予定です。
Fortune 500企業には多くの従業員がいて、「どこでAIに仕事を任せて従業員を減らせるか」を検討しています。公式な立場としては「人を置き換えようとしているのではなく、より多くの仕事ができるように改善しようとしている」というものです。
正直なところ、この会社は今の時点では本当にそうしようとしていると思います。しかし6ヶ月後、1年後はどうなるかわかりません。大きく変わる可能性があります。
現時点では、従業員は仕事量が多すぎて、彼らの仕事の一部を取り除くことは、アニメーションの例と同じように、誰も本当にやりたくない仕事を取り除くことになります。彼らは他のことに集中したいと考えています。この段階ではそれは問題ないと感じています。
AIコンサルティングをしていた時、企業が「AIをどう活用できるか」と来たら、「どこが痛いですか?」と、まるで医者のように「痛いところを見せてください」と言っていました。そこの痛みを和らげることができれば、すぐに投資回収が見込めるからです。
素晴らしい、良い質問でしたね。質問2: NSF SBIRグラントは創造的なワークフローのためのAIに焦点を当てていますが、芸術的なコンテンツを解釈するモデルの訓練において、どのような技術的な障壁に直面し、それをどのように克服しましたか?
おお、これも良い質問ですね。SBIRについては、今日以降それらの資金にアクセスできるかどうかわかりませんが、大きな問題は、数年前に私たちが始めた時には、3Dの標準化された...そうですね、画像を例に取ると、JPEG画像やPNG画像があり、1000×1000ピクセルの各ピクセルに色があり、それを解釈するのは比較的簡単です。
しかし3Dにはそれに相当するものがありません。データ構造自体が大きな課題です。授業バージョンでは特許を取得しましたが、特定の状況で動作させる程度でした。しかし、任意の状況で動作するように拡張するのは、正直に言って最大の課題でした。
データ構造とそのデータ構造で正しい結果を得るための訓練方法、しかも比較的小さなデータセットでの訓練が大きな課題でした。そんな大きなデータセットは持っていませんでしたから。
理解を確認させてください。基本的に画像は非常に標準化されたフォーマットで、離散的な位置と色ベクトルがありますが、3Dデータには空間情報を表現する多くの異なる方法があります。
ソリッドオブジェクトがあったり、環境があったり、デカルト座標系を使用したりと...それが直面した主な問題だったのですね?
はい、そしてそれは任意に大きな環境になり得ます。画像は1920×1080のHDですが、3D環境のサイズはどうでしょう? キャラクターかもしれないし、ブロックかもしれないし、World of Warcraftのような巨大なオープンワールドかもしれません。
写真のサイズが小さいものから都市規模まであるようなものを扱うようなものです。これは大きな課題です。文献でも多くの研究者がこれに直面し、適切な分割方法を見つけようとしているのが分かります。
なるほど、それは確かに大きな課題ですね。取り組まなければならない課題としては羨ましくないですが、とても面白そうです。
はい、本当に面白いです。
次の質問3: AIスタートアップのCEOとして、投資家の要求などの商業的な実現可能性と、AI研究やイノベーションの限界に挑戦することの間で、どのように優先順位をつけていますか?
SBIRは実際に大きな利点でした。知的財産を商業化するためのものだからです。基本的に研究プロジェクトを商業プロジェクトに転換することが目的です。これはフェーズ1で、フェーズ2、フェーズ3もあります。
これにより多くのプレッシャーが軽減されましたが、それでも特定の日までにマイルストーンを達成しなければならないという圧力はあります。現在私たちが直面しているのは、品質保証のために製品を引き渡すところです。
これは重要なことで、引き渡した時に正しく動作しなければなりません。バグリストがショーストッパーになるようなものであれば、製品は市場に出せません。3Dアニメーションのことについては助成金のおかげで少し楽になりましたが、それでもこの課題に直面しています。
そうでなければ実行可能な製品にはなりません。この製品が人々にとって有用であるか、現在の方法よりも面倒なものになるかのどちらかです。正直なところ、現在の方法の10倍良くないと、人々は「まあ、今やっている方法で十分だよ」と言うでしょう。
なるほど、そうですね。選択的なプレッシャーや選択プロセスが少し異なっていても、やはり製品市場フィットに到達しなければならず、説得力のあるユースケースでなければならないということですね。
その通りです。イーロン・マスクもそのことについて話していたと思います。「ガソリン車と同程度の車を市場に投入するだけでは不十分で、ガソリン車よりもずっとクールなものでなければならない」と。人々に「これはガソリン車よりもずっとクールだから、追加のお金を払ってでも欲しい」と思わせる必要があります。当初は非常に高価でしたから。
実は私は、Beyond MeatかどこかのビーガンミートオルタナティブラボのCEOから、そういった考え方を初めて聞きました。研究を通じて、代替品は味が良く、より健康的で、より持続可能で、より安価でなければならないことに気づいたそうです。
すべての指標でより良くなければ採用されないのです。そこから私はAI採用のための「より良く、より速く、より安く、より安全に」というマントラを思いつきました。人間や他の製品よりもこれらすべての面で優れていれば、それは必然的になります。
そうですね、それは重力のようなものです。人々が何を望もうと、結局は落下するのと同じです。より低いエネルギー状態がデフォルトになるということですね。
質問4: AIエンジニアとデジタルアーティストを組み合わせたチームを率いていますが、これらの分野間の協力をどのように促進し、チームを管理する上で最大の課題は何ですか?
実は教授であることの方が難しいと思います。教授は常に猫の群れを追いかけているようなものですから。会社の方が...安心とは言いませんが、さわやかな変化だと感じています。
教室には20人以上の学生がいて、能力レベルに大きな幅があり、それに対処しなければなりません。会社では、これは質問に正しく答えているかわかりませんが、必要に応じて人を雇用したり解雇したりできます。
素晴らしい人でも、何らかの理由でうまくいかない場合は、次の仕事に移ることができます。それはより制御された環境を提供します。
これが第一点です。第二点として、私個人はその両方の立場にいます。創造的でありながら高度に技術的な人生を送ってきました。
私の博士号は実は英文学ですが、90年代にコンピュータを使用して言語のモデリングを行っていました。当時は「何をしているんだ」という感じで、指導教官も「何をしているの?」と言っていましたが、私は「信じてください、これは上手くいきます」と。
それは素晴らしいことでした。25年後には...それはバッグ・オブ・ワーズのようなものでしたか?
いいえ、それは実際に単語の軌跡を追跡していました。順序に注目していたのです。AIとは呼べないかもしれませんが、言語のモデリングのような感じでした。とても原始的で、今振り返ると笑ってしまいますが、それをやっていたのです。
3Dアニメーション、サウンドデザイン、ビデオポストプロセッシングなどの分野でデザイナーとしても活動してきました。常にその境界線上を歩く必要があります。クリエイティブな人間でありながら、ツールや技術を知り、技術についていく必要があります。アーティストとしてそれは必須のことです。私はそのスペースに住むことが大好きなので、それほど難しくは感じません。
なるほど、つまり両方の分野に精通しているので、両方のチームと話ができるということですね。実は私はちょうどオリジナルのスター・ウォーズ三部作を見直したところですが、技術的な熟練と物語作りの両方ができたジョージ・ルーカスを思い出させます。彼はチーム全体と話ができました。
素晴らしいですね。次の質問です: DalleのようなAIツールは、オリジナリティと著作権について議論を巻き起こしています。artomaticは、特に帰属に関して、AI生成アートに関する倫理的な懸念にどのように対処していますか?
これは実際に私たちにとって大きな問題です。私たちのケースから始めましょう。私たちは小さな例に過ぎませんが、多くのデータを合成的に生成するか、自分たちで購入することで回避してきました。私たちは手がきれいだと感じています。
より大きな観点から見ると、Dalle、Runway、Midjourney、あるいはSora、Anthropic Labsのビデオなど、これらすべての企業は公開されているデータで訓練を行っています。理想的な世界では、私や私たちのビデオを含め、クリエイティブなアーティストは全員、いつかは取り込まれ訓練に使用されることに対して補償を受けるべきです。
しかし現実には、それは絶対に起こり得ません。馬は厩舎から出てしまいました。実際、あなたも覚えているでしょうが、90年代後半から2000年頃のLimeWireやNapsterの話を思い出します。
CDやテープを買って家に持ち帰り、Counting CrowsやDave Matthews Bandなどを聴いていました。しかし突然、ストリーミングやトレントが可能になり、Napsterは訴えられて基本的に廃業に追い込まれましたが、その間にLimeWireや他のトレント、The Onion Routerのような、捕まえられないものが登場しました。
制約があったために、訴訟問題に対する創造的な解決策を見つけたのです。この時点で、OpenAIを訴えたければどうぞ、勝てるかもしれません。素晴らしい。でも意味がありません。すでに終わっているのです。被害は発生してしまいました。
技術は抑制不可能です。「Serenity」の人物が言ったように「信号を止めることはできない」のです。
あるいは先ほど言ったように重力のようなものです。基本的に、より良く、より速く、より安価な段階に達しました。安全性については...
そうですね、安全性の部分はわかりませんが、残りの部分は間違いなくその通りです。
人々がPandoraやSpotifyに登録したのと同じ理由です。月額3ドルで音楽をストリーミングできるなら...当初はその程度でしたが、もちろん今はもう少し高くなっています。しかしライブラリを管理したり、音楽の海賊版の法的リスクにさらされたりする必要がないのなら、この新しい技術を活用した消費者にとってより良い選択肢を提供すればいいのです。
では次の質問に移りましょう。リーダーシップと倫理に関する最後の質問です。YouTubeチャンネルでAI開発の透明性を強調されていますが、特に非技術系のステークホルダーにAIの決定を説明する際に、artomatic社でこの価値観をどのように実践されていますか?
ああ、これは面白い質問ですね。実は今日まさにそういう問題がありました。詳細は話せませんが、リーダーシップに関する質問で、彼らが全く理解していないことが示されました。私たちは「はい、2ヶ月と数百時間の開発時間をいただければできます」と答えましたが、彼らにとってはとても簡単なことに思えたようです。
透明性は重要だと思います。私は透明性を重視していますが、言語の問題があります。中国語と英語の違いという意味ではなく、デザイナーとしてよく話すことですが、技術的な言語、クリエイティブな言語、そしてビジネスパーソンのためのビジネス言語が必要です。言語を使い分ける必要があるのです。
単に透明性を保つだけでなく、「320億パラメータのモデルで、1秒あたりXYZトークンを生成する」といった説明をしても、彼らの目は glazing over してしまいます。ビジネス言語で話す必要があります。「これだけのコストがかかり、レイテンシーはこれくらいで、これらがあなたが気にする指標です」というように。
これは透明性以上に重要です。透明性を保ちながらも不透明になることがあります。スタートレックの大ファンだと思いますが、これは典型的なスタートレックのようなものです。「これはどういう意味ですか?」と聞かれて数学的な説明をすると、トイレの水が流れ落ちるようなものだと例えを使って説明します。人々が理解できるような例えを使わないと、うまく伝わりません。
2023年と2024年によく質問されたのは、「アプリケーションにRAG(検索拡張生成)を実装したい」というものでした。私は「RAGで何ができると思いますか?それを説明してくれれば、なぜ有用なのかを説明します。ただ新しい便利なものだと聞いただけなら、何を話しているのか確認する必要があります」と答えていました。
プロンプトエンジニアリングについても付け加えたいことがあります。長い間冗談だと思っていましたが、近日公開予定の動画でより詳しく説明する予定です。プログラミングを学ぶ必要がなくなるという意見には賛成できません。Andre Karpathyは正しかったのですが、彼の言ったことと逆です。彼は「英語が新しいプログラミング言語になる」と言いましたが、英語がプログラミング的な考え方に適応する必要があるのです。
コンピュータと会話はできますが、単に「ウェブページが欲しい」と言うだけでは不十分です。何かは生成されますが、それはランダムなウェブページで、あなたが望むものではありません。より具体的になればなるほど良いのです。プログラミングは私の考えでは構文が最も重要ではありません。考え方が重要なのです。
どれだけ具体的に考えることができるか、どれだけ体系的に考えることができるか、コンテキストは何か、企業の状況ではこれとこれとこれを望む様々なステークホルダーにどう対応するか、それらがプログラミングであり、エンジニアリングなのです。
ええ、私の妻はプロダクトオーナーを最近まで務めていましたが、まさにそれがPOの仕事です。全てのステークホルダーと話をして、何を望んでいるのか、なぜそれを望むのか、デザインの機能と要件は何かを明確にすることです。それは簡単な仕事ではありません。
自分を明確に表現することを学ぶのは、過去3-4年間毎日AIと働いて学んだ最も良いことの一つです。この機械から望むものを正確に得るために、必要なコンテキストとその他全てを提供してどうすれば良いか考える必要があります。まだ英語ですが、おっしゃる通りプログラマーのように考える必要があります。
英語は漸近的にプログラミングに近づいていくと言えます。実質的にはまだ英語を話していますが、現時点での従来のプログラミング言語にどんどん近づいていきます。数年後にはそうでなくなるかもしれませんが、現時点ではもっと緩やかになることはありません。
さて、残り2セクション、5つの質問に進みましょう。ジェパディーにいるような気分です。
では、業界の洞察とトレンドについて、質問7です。テスラのAIデー2で、完全自動運転は数年で解決されるだろうと指摘されましたが、自動運転車からの教訓は、artomaticのAIの信頼性とクリエイティブツールへのアプローチにどのように影響していますか?
私の会社に限らず、テスラの完全自動運転からの最大の教訓は、世界はエッジケースだということです。80-20の法則がこれほど明確になったことはありません。最初の80%は...実際には誰かが90-1と言っていましたが、最初の90%に90%の時間がかかり、残りの10%にも90%の時間がかかると言われています。テスラの場合はおそらく900%の時間がかかっています。
完了間近だと思っても、「あと5つだけ」と思っても、その5つが信じられないほど複雑なのです。私はテスラを2台所有していて、常に完全自動運転で運転していますが、「これは初めて見た」ということがよくあります。先日は風が強く、ゴミが道路に吹き飛ばされてきました。これは新しいケースでした。コーナーケースですね。
以前オートメーションエンジニアとして働いていた経験から、主要なゲートなどをコントロールできると仮定すれば...しかし、人生はすべてエッジケースとコーナーケースにあります。これは生きていく上で良いマントラですね。
ニューラルネットワークが美しいのは、任意の関数を近似できるからです。ある時点で、何でもヒューリスティックにコードできます。私たちが使っているコンピュータの多くは主にヒューリスティックにコードされています。人間が経験則に基づいて、これが正しいやり方だと判断したものです。
しかし、運転についてこれを行うと、停止標識の例を考えてみましょう。「もしこれならこう」「もしこれならこう」「でもこれならこう」と続きます。異なる照明条件、異なる角度、木に半分隠れているかもしれない...次から次へと条件が出てきます。停止標識かどうかを判断するために、何百万もの if-then 文を通過する必要があるでしょう。
そのため、決定論的なものではなく、より任意の関数を近似できるものが必要になります。だからこそテスラは約30万行のコードを削除し、ニューラルネットワークに置き換えたと言っています。
しかし、トレードオフとしてトレーニングが必要です。最初から人間の知識を使用しないことを補うために、多くのデータと多くのトレーニング時間が必要です。人間の経験ではない経験から一般化するので、メカニズムが異なります。
2007年か2008年頃、ノースカロライナ州立大学で、友人たちがダッシュボードにウェブカメラを設置してデータを収集し、停止標識を認識するモデルをトレーニングしていたことを思い出します。もう20年近く前のことですね。
次の質問に移りましょう。AIがアートを民主化する可能性について書かれていますが、AIツールへの過度の依存にどのようなリスクを見ていますか?また、クリエイターはどのように独自の声を維持できますか?
まず、perplexityとR1が私の人生をこれほど深く掘り下げているのは驚きです。素晴らしいですね。perplexityに質問してみる必要がありますね。
リスクについて、1-2年前ほど心配はしていません。リスクは、AIが支配的になり、AIのものにしか注目せず、私たちが魂のない抜け殻になってしまうことです。AIが生成したコンテンツばかり見るようになるということです。
しかし、チェスや囲碁などのゲームのおかげで、もはそれほど心配していません。20年前...いや30年前、1990年代半ばには、最高の人間プレイヤーを打ち負かすコンピュータがありました。Stockfishなど、今ではさらに良くなっています。ELOスコアは人間をはるかに上回っています。囲碁も同じです。
しかし、2つのAIが対戦するのを見るためにお金を払う人はいません。それはつまらないのです。私たちが見たいのは人間のドラマです。あなたと私がチェスボードを出して対戦を始めたら、まず私は下手ですが、人々はそれを見るでしょう。次にどんな手を指すのか、というドラマを見たいのです。ChatGPTとClaudeがチェスをするのを誰も気にしません。
これが救いだと思います。全ての創造的な活動についても同じことが言えることを願っています。人々は人間性を求めるでしょう。AIだけで2時間の映画を作ったという時期が来るかもしれません。それは一時的な流行になるでしょうが、その後、人々は「人が欲しい。これには興味がない。人が気になる」と思うでしょう。
良い点は、必ずしもお金に依存する必要がなくなるかもしれないということです。クリエイティブなプロジェクトにかかるコストが少なくなるかもしれませんし、UBIなどによって人々はより多くの時間とお金を持つことになるかもしれません。これをさらに追求し、より多くのクールなものを作れることを願っています。
質問から外れますが、AIがほとんどまたは主に作成したハリウッドのブロックバスター級の映画が登場するのはいつだと思いますか?
1年前なら2025年と答えていたでしょう。今はもっと先だと思います。Soraを使ってみましたし、多くのビデオジェネレーターを試しましたが、ひどいものです。視覚的には問題ありませんが、コントロールができません。ナラティブを理解していませんし、物事をつなぎ合わせる方法を知りません。
唯一の方法は、人々と一緒に作ることです。AIで大量の短いクリップを生成し、それらをつなぎ合わせて何かを作る。しかしそれはまだ人間の仕事です。PhotoshopやAfter Effectsのようなツールになるだけです。編集者のバスケットやクイバーの中の道具の一つになるだけです。
今のところ、そのような大規模なものを扱えないと思うので、まだまだ先のことだと思います。ソフトウェアエンジニアリングのタスクと同じで、ウェブページを作るのではなく、完全なSaaSプラットフォームやCRMを作るようなものです。確かに部分的には作れますが、全体を作ることはできません。しかし、6ヶ月後には最初のAI映画が登場するかもしれません。
そうなりがちですね。小説を書く人として、AIはたくさんのテキストを出力できますが、必ずしも一貫性があるわけではないということも理解できます。
ありがとうございます。あなたの小説も大好きです。AIで生成したカバーを使用していることも透明性があって興味深いと思いました。
カバーは良いですね。それは小さな完結したプロジェクトです。ChatGPT-3.5が登場した時、最初にしたことは...まあ、馬鹿な質問もしましたが、2年前の11月に衝撃が走った時、「小説を書こう」と言いました。「いいですね、アウトラインを...」と言って、それから完全に崩壊しました。2-3ページ進んだところで使い物にならなくなり、「だめだ」と思いました。
新しいバージョンが出るたびに試していますが、R1はまだ試していません。しかし、そのような大規模で創造的なものを扱うことはまだできないと思います。大きな絵を描くことができないのです。
最新のモデルは、シーン全体ではなく、パッセージを書くのには十分な能力があります。「このようなパッセージが必要だ」と言えば、実際に書くよりも説明に時間がかかることもあります。
これは先ほど話した言語とプログラミングが融合しているということに関係しています。プログラミングを非常に一般的な意味で捉えると、非常に具体的な出力を得るために非常に具体的な方法で話しかけているのです。
古典的な例として、3Dアニメーションでよく話題に上がる「ピクサー映画を作って」というクリックは存在しません。数年前は「近づいているかもしれない」と思っていましたが、今は違います。パーツをつなぎ合わせる能力がないと思います。
私の妻と私は執筆コミュニティを持っていて、あるメンバーが「Claudeに受賞作品を書かせるための最高のプロンプトは何ですか?」と質問してきました。そのようなプロンプトが存在するなら、私たちは...でもそれは存在しないのです。
次の質問です。これは方向転換になりますが、このカーブボールにどう対応するか見てみましょう。EUのAI法や同様の規制が登場する中、AIリーダーたちはイノベーションを抑制することなく、どのようにコンプライアンスに備えるべきでしょうか?まあ、トランプが当選したので、アメリカではそれほど問題にならないかもしれませんが。
そうですね、彼はバイデンの巨大なAI法案を覆しましたから。実は違う視点から見てみたいと思います。このポッドキャストを見ているEUの担当者全員に向けて...全員見ていることは知っていますが...お願いがあります。
どうか規制を緩和してください。ASIに最初に到達した者が勝者になると確信しています。他に何が起こっても関係ありません。規制はいくらでも設けることができますが、世界の無関係な部分になってしまいます。
できる限り早く規制を緩和することを提案します。EUではそれについて話し合う委員会を設置するまでに、おそらく3-4年かかるでしょう。残念ながらそれがEUの現実です。良いことも多くありますが、過剰規制は大きな欠点です。
官僚主義は更なる官僚主義を生みます。「これについて決定を下すためには別の委員会が必要だ」となり、官僚主義的な広がりができてしまいます。
C++でコーディングをされていましたよね?そうですね、長い間...ガベージコレクション。ああ、まさにこれです。規制のガベージコレクションを行う巨大なフーバーが必要です。
アメリカの西部のAI、アメリカのAIを借りて、全てを見直すことができるかもしれませんね。アメリカも同様にガベージコレクションが必要です。多くの規制があります。法律制定者は、必要かどうかに関係なく、新しい法律を作るのが大好きです。
私の文明に関する理論を聞きたいですか?これは最近気づいたことですが、文明はゴミがどれだけ効率的に、どれだけ遠くまで運ばれるかで判断できると思います。
初期の頃を考えてみてください。木の上から排泄していて、それはそこにあるだけです。今ではそういったものを気にする必要がないところまで来ています。これは実際のゴミから比喩的なゴミまで当てはまります。
ゴミがあなたから遠くに、より効率的に運ばれるほど、文明が発達しているということです。必ずしも良いことばかりではありません。巨大なゴミ捨て場ができ、それは1000年後には非常に興味深い考古学的な遺物になるでしょう。人々は「これらは何なのか、なぜ巨大な山になっているのか」と疑問に思うでしょう。
人々が残すものは非常に興味深いです。妻は大学時代に一時期考古学者でした。「これはライオンの骨だ」と思っていたものが実は犬の骨だったなどの話をよく聞きました。
残り2つの質問です。質問10です。あなたのキャリアは学術界、コンテンツ制作、起業家精神にまたがっています。これらの役割は、あなたのAIリーダーシップスタイルの形成にどのように相乗効果を発揮していますか?
「相乗効果」という言葉を使ったことで台無しにしましたね。アントラージュ効果ですか?これは二分法ではなく、誤った三分法だと思います。
これらは全て必然的に相互に影響し合っていると思います。学術界での経験と、時にはシンプルで、時には非常に複雑なアイデアを様々な聴衆に伝える方法を理解する必要があったことが、YouTubeでより広範な層に向けてそれを行う能力に影響を与えています。
そして、それら全てが会社でのリーダーシップの役割にも影響を与え、それがまた教育に還元されます。学部生だけでなく、プロフェッショナルとして世界に出ていく大学院生も教えているので、「卒業後に何をするにしても、このリーダーシップの役割をどのように担っていくか」ということを教えることができます。
大きな円のように、全てが相互に影響し合っているように感じます。テクノロジーは25年前にはYouTubeをする環境が存在しなかったので、学術界が最初でしたが、それは徐々に構築されてきました。それは素晴らしい循環になっていると思います。自己完結しているんです。
ウロボロスですね。そうです、ウロボロスです。あなたも同じようにクリエイティブな人なので、共感できます。小説を書いていて認知アーキテクチャの初期研究をしていた時、「小説で行き詰まったので、少し研究をしよう」という段階を経て、AIについての新しい洞察が得られ、また創造性が戻ってくる、そういう良い循環を私自身も感じています。
最後の質問です。MITの専門教育コースでメンターシップの重要性を指摘されていましたが、今日の急速な技術変化の中でAIリーダーを目指す人々へのアドバイスを1つお願いできますか?
実は、MITのコースは教えていません。教えることができたらとても素晴らしいと思いますが。ああ、そうですね。最後についにR1の誤りを見つけましたね。
しかし、メンターシップは本当に重要だと思います。いくつかのレベルがあります。人々は教師をよく批判しますが、実際に試してみてください。何かを知っていると思っている人は、それを知らない人に教えてみてください。その人に教えるのは思っているよりも複雑かもしれません。
それが伝統的な教育です。もちろんメンターシップの形を取ることもできます。教室の外で、より創造的な環境で、プロジェクトを組み立て、一生懸命働き、締め切りがあり、コンテンツを教えるだけでなく、行動のモデルを示すということです。
ストレスの多い状況への対処方法など、行動のモデルを示すことは非常に重要です。そのような教え方は、一日中話すことはできますが、「ああ、彼らはこのように対処している」というように、時には優雅に、時には私のように小さな混乱を起こしながら...そう、そうしないようにしましょう。
それでも素晴らしい答えです。行動のモデルを示すことは、仕事とメタワーク、つまり構造を作る方法、自己調整や全体への向き合い方など、本を与えることは素晴らしいですが、実践的な経験に代わるものはありません。
それ以上に、ある種のライフスタイルの選択もあります。キャリアの初期には、毎日ジムに行って運動していることを人に言うのを恥ずかしく思っていました。時間を無駄にしているように感じたからです。
今では誇りに思っています。あなたも健康上の苦労を経験し、精神的にも肉体的にも回復する場所を見つける必要があったことを理解してくれると思います。
一日中プログラミングをしたり、ストレスの多い創造的な仕事をしたりしているので、ジムに行くのです。実は最も創造的な時間です。スマートフォンのメモアプリで「これは良いアイデアだ」と考えています。動画のアイデアのほとんどはジムで生まれます。
運動をしながら他のことをしていると、脳が働き始めます。体にも脳にも良く、毎日リセットできます。多くの人は楽しみにしていないかもしれませんが、不思議なことに楽しみになります。あなたは森の中を歩くことができますが、私は都会に住んでいるのでそれほど簡単にはできません。
素晴らしい、ジョン。素晴らしい会話をありがとうございます。また話ができて良かったです。最後に、2025年の残りの期間について、あなた自身または世界に対する希望や願望は何ですか?今、特に心に響いていることは何ですか?
私は一般の人々のことを心配しています。私たちもその中に含まれます。この変化があまりにも急速に起こり、従来の仕事や労働市場、そして金銭的な面を超えて人々の自尊心にまで大きな混乱が起こることを懸念しています。
私を含め、多くの人が自分の仕事に強く同一化しています。人類として、それに対処することが非常に困難になると本当に心配しています。リーダーシップの立場にいる人々は注意が必要です。
私たちは一般の人々であり、下っ端です。しかし、私たちが集まれば、これが革命を起こす方法です。注意しないと危険です。「パンを食べればいいじゃない」というのは、自分の最後の言葉として知られたくない言葉です。マリー・アントワネットはそれで知られていますが、そのように知られたくはないでしょう。
とても賢明なアドバイスですね。
皆様、Leaders of AIポッドキャストをご視聴いただき、ありがとうございました。本日のホストはデビッド・シャピロ、ゲストはDr John Gibbs、Dr. Know-it-allポッドキャストなど多くの活動をされている方でした。ジョン、ありがとうございました。また近いうちにお話できることを楽しみにしています。
ありがとう、バイバイ。