AI界隈の先週のニュース #182 - Alexa 2.0、MiniMax、Sutskeverの10億ドル調達、SB 1047の承認
28,017 文字
アンドレイ: みなさん、こんにちは。今回のエピソードの冒頭でちょっとお知らせがあります。前回お伝えしたように、ちょっと追いつくのに時間がかかっておりまして、今回のエピソードは1週間半前に録音したもんです。ですので、ちょっと古い情報になっております。数日後には先週録音したエピソードをお届けする予定で、OpenAIの新しいモデルについての話題なんかも含まれてますんで、楽しみにしててください。
遅れてすんまへんな。金曜日に録音して日曜日に公開するようにしてるんですけど、時々うまくいかんこともあるんです。それと、ここ何回かお聞きの方はご存知かもしれませんが、ジェレミーが次の数回、共同ホストとして参加できひんかもしれません。赤ちゃんが生まれる予定なんで、忙しくなるみたいです。
最後にもう一つ。しばらくスポンサーがなかったんですが、また協賛をいただくことになりました。今回と今後数回、スポンサーについて触れることになると思います。ビタミン剤なんかは宣伝せえへんで、AIやテクノロジーに興味ある方に関係のあるものだけにしますんで、ご安心ください。
今回はagent.aiというサービスを紹介します。ここではAIエージェントを雇うことができます。エージェントができる仕事には、ワークフローの強化、定型作業の自動化、コードベースの複雑な問題のデバッグ、技術ブログやSNS用のミーム作成、企業や技術に関する詳細な調査などがあります。
agent.aiはビルダーのために作られました。実際、HubSpotの共同創業者兼CTOのDharma Shahが作ったんです。エージェントとそれを作る人間のための最高のグローバルマーケットプレイスです。AIエージェントを見つけて、仕事を効率化できるプラットフォームですな。agent.aiを使うことで、単にAIを使うだけやなく、その成長の最前線にいることになります。
今日からagent.aiに登録すると、100クレジットが無料でもらえて、すぐに始められます。ぜひ試してみてください。
もう一つ紹介させてもらいます。AIに関する別のポッドキャストとクロスプロモーションしてまして、「Pioneers of AI」っていうんです。AIの革命が仕事や子供たち、人間関係、日常生活にどんな影響を与えるか探る番組です。
ホストのRana L. Kalyubiさんは、AIの科学者、起業家、作家、投資家で、AIがもたらす様々な可能性や疑問について探っていきます。新しいエピソードは毎週水曜日に配信されますんで、興味のある方はぜひ聞いてみてください。
それでは、本編に入りましょう。
アンドレイ: はい、こんにちは。Last Week in AIの最新エピソードへようこそ。ここでは、先週のAI界隈の動向について、最も興味深くて影響力のあるニュースをお話しします。
いつも言うてるんですけど、lastweekin.aiっていうウェブサイトで、ここで取り上げへん他のニュースも読めますんで、ぜひチェックしてみてください。ニュースレターを購読すると、各ポッドキャストエピソードのメールも届きますし、そこにはすべてのストーリーやリンクも含まれてますんで、それもおすすめです。
さて、私はホストの一人、アンドレイ・クレンコフです。去年スタンフォード大学で博士号を取得して、今は生成AIのスタートアップで働いてます。
ジェレミー: もう一人のホスト、ジェレミー・ハリスです。AI国家安全保障会社のGladstone AIの共同創業者です。よろしくお願いします。今日は時間が遅いんで、いつもより短めにしようと思います。
アンドレイ: そうですね。最近のエピソードは長くなりがちやったんで、今回は短くしましょう。Apple Podcastsでいくつか素晴らしいレビューをいただいてます。今213件もあるんです。すごいですね。200件目指して頑張ってって言うたら、みなさん聞いてくれたみたいです。ありがとうございます。
あるレビューでは「毎回アンドレイが短めのライトニングラウンドって言うてるのに、結局他のセグメントと同じくらい詳しくなる」って書かれてました。確かにそうなんですよね。だから2時間近くになってしまうんです。今回はもう少し短くできるかもしれません。
他にも地政学的な話題やジェレミーのハードウェアに関する視点を評価するコメントもありました。ありがとうございます。中国の話題は入れすぎないようにしつつ、技術的な詳細にも触れていきたいと思います。
あ、ジェレミー、パパになるのおめでとうっていうコメントもありましたよ。
ジェレミー: ああ、みなさんありがとうございます。優しすぎますね。あ、ちょっと気になるコメントがありましたね。「ジェレミーがAIの黙示録を一人で止めようとしすぎてる」みたいな。確かに、一人で頑張りすぎるのはよくないですね。他にもたくさんの人が取り組んでるわけですから。
アンドレイ: そうですね。Anthropicとかもやってますしね。
ジェレミー: そうそう。一人で抱え込むのは大変すぎますからね。でも、本当にありがたいコメントです。
アンドレイ: では、今回は短めのエピソードにしましょう。ライトニングラウンドも手短にいきますか?
ジェレミー: そうしましょう。各話題について5分も話さんようにしましょう。
アンドレイ: では、ツールとアプリのセクションから始めましょう。今回は2つだけです。
最初の話題は結構大きいですね。AmazonがAnthropicと提携して、Alexa 2.0を開発するそうです。10月にリリース予定で、月額5〜10ドルのサブスクリプション制になるみたいです。面白いのは、AmazonがClaudeを使うって言うてることですね。自社で技術開発せずに、Anthropicのモデルを使うんです。
Amazonは既にAnthropicに投資してて、AWSでClaudeを提供してるんで、この提携は自然な流れかもしれません。でも、これを見ると、Google、Meta、OpenAI、Anthropicみたいに最先端のモデルを持ってない企業は、既存のモデルと提携する方が簡単なんやなって思います。
ジェレミー: そうですね。Googleでさえ、OpenAIやAnthropicよりも計算リソースがあるのに、モデルの性能では負けてるんです。Gemini 2とかで変わるかもしれませんけど。
これを見ると、モデルのアーキテクチャ設計や最適化の方法にまだまだ改善の余地があるってことですよね。ハードウェアを効率的に使いこなすのも難しいんです。
Amazonはクラウドのパイオニアやったのに、AI分野では出遅れてしまった感じです。だからAnthropicとの提携は理にかなってるんでしょうね。ハードウェアの最適化でも協力できそうです。
Amazonは投資対効果を重視する文化があって、顧客が本当に求めてるものを作ろうとします。AGIみたいな仮想的なものよりも、今すぐ価値を生み出せるものを追求するんです。それが、AI業界でちょっと遅れをとった原因かもしれません。
Alexaはしばらく苦戦してたんで、Anthropicの技術を取り入れることで活気づくかもしれませんね。月額5〜10ドルの新しいバージョンが、Claudeの力を借りて登場するわけです。
アンドレイ: ROIって略語使わんといてください。投資収益率のことですよね。スタートアップの世界に長くいすぎたみたいですよ。
でも、確かにAmazonは他のテック企業に比べて倹約家ですからね。投資収益率を重視してます。
有料版のAlexaは、ChatGPTやClaudeみたいに会話ができて、買い物のアドバイスをくれたり、複雑な要求にも応えられるみたいです。食事の注文やメールの下書きもできるそうです。
現在のAlexa利用者は約1億人らしいんで、その10%が有料版に移行するだけでも、Amazonにとっては数億ドルの収入になりますね。
これとSiriの進化を見てると、みんながスマートチャットボット機能付きのアシスタントを欲しがるのか、それとも必要ないと思うのか、わかりそうです。
ライトニングラウンドの話題は1つだけです。本当に短くしようとしてるんですよ。
ジェレミー: ほんまや。これがライトニングラウンドを短くする方法か。
アンドレイ: そうそう。次の話題はMiniMaxという新しいAI動画生成ツールについてです。これは中国発で、アリババとテンセントが出資してます。
デモとトレーラーを見せてもらったんですけど、最新のRunway Gen 3やDreamやFlingには及ばないかもしれません。まあ、スタートアップやし、そこまでのレベルに達するのは難しいでしょうね。でも、それでも印象的な動画を作れてます。
YouTubeに投稿する時は、もう少し編集して、この話題に関連する動画クリップも入れるようにします。
ジェミー: 面白いですね。スタートアップやのに、もう20億ドル以上の評価額がついてるんです。アリババが3月にリードした資金調達ラウンドで、20億ドルの評価額がついたみたいです。
生成AI時代になって、若いスタートアップがこんな crazy な評価額をつけられるようになったんですね。
動画については、記事に書いてある通り、テストをしたみたいです。でも、ちょっと物足りない感じもしますね。生成できる動画の長さは最大6秒で、他の業界トップの製品に比べると短いです。解像度は1280x720で、まあまあ良いですけど、短い動画ですからね。
面白いのは、人間の動きをうまく生成できるみたいなんです。手の動きや歩く動作なんかがよくできてるらしいです。
でも、中国国内でも既にテキストから動画を生成する競合がたくさんいるんで、すでに混んでる市場に見えますね。
MiniMaxという会社自体は面白いです。中国のAIユニコーン企業の1つで、生成AI製品を作ってる有名企業です。よく話題にするJerpooもその1つですね。
これがMiniMaxの動画生成分野への初めての挑戦みたいなんで、これからクオリティは上がっていくんでしょうね。
アンドレイ: 次はアプリケーションとビジネスのセクションです。今週一番エキサイティングなニュースかもしれません。
イリヤ・サツケバーのスタートアップ、Safe Superintelligence (SSI)が10億ドルを調達したそうです。これがニュースの全容です。
ちょっと背景を説明すると、サツケバーはOpenAIの創業者の1人で、主任科学者でした。AIの最近の歴史で非常に重要な人物です。
去年のOpenAIの騒動で、サム・アルトマンが一時解任された時、サツケバーは間違った側についてしまって、しばらくしてOpenAIを去ることになりました。
その後、ダニエル・グロスらと一緒にSafe Superintelligenceというスタートアップを立ち上げると発表しました。
そして今回、SSIに関する追加のニュースとして、大手テック投資家のA16ZやSequoia、そしてダニエル・グロスの投資会社から10億ドルを調達したということです。
ジェレミー: 本当に面白い資金調達ですね。報道によると評価額は50億ドルらしいです。正式な確認はまだないみたいですけど。10億ドルを50億ドルの評価額で調達したってことですね。
投資家のラインナップもすごいです。ここには面白い裏話がいくつかあるんです。まず、これはOpenAIのライバルになる可能性が高いですよね。同じことを目指してるわけですから。安全性をより重視するかもしれませんが、基本的には同じ方向性です。
ダニエル・グロスは以前Y Combinatorのパートナーでした。実は私がYCに応募した時の面接官の1人やったんです。サム・アルトマンがYCの社長やった時に一緒に働いてたんですね。今はサムがOpenAIのCEOになってますけど。
YCの人脈がここでも生きてるわけです。ダニエル・グロスはAppleのAI部門のトップも務めてたことがあります。
アンドレイ: YCがシリコンバレーのスタートアップ界隈で大きな存在やってことを知らない人もいるかもしれませんね。過去10年間で最も有名な新興企業の多くがYCから生まれてます。
ジェレミー: そうそう。最近ではAI安全性に関する法案についても意見を表明してますね。SB 1047に反対してましたよね。
AI業界の人間関係って複雑ですね。みんなどこかでYCと繋がりがあるみたいです。
さて、SSIの戦略についてはまだわからないことが多いです。10億ドルって聞くとすごい額に聞こえますが、OpenAIやMicrosoft、Googleと競争するには全然足りません。次世代のクラスターを作るのに1000億〜1250億ドルかかるとされてます。2027年から2028年頃のクラスターですね。
10億ドル調達しても、OpenAIと同じ道を歩むには全然足りないんです。前にも話しましたけど、SSIが発表された時、どうやってOpenAIやGoogleみたいな巨大資本と競争するんやろって疑問がありました。莫大な規模の学習を行うには、資本が必要なんです。
イリヤは何かしらの方法で、OpenAIよりも効率的にスケーリングする戦略を考え出さないといけません。スケーリングの必要性を回避するか、もしくは彼が言うように、何か違うものをスケーリングするんでしょうね。
言語モデルを学習させる時、膨大なスケールで自己回帰的な言語モデルを学習させてますよね。でも、イリヤは最適化の対象を見直そうとしてるみたいです。モデルの学習方法を根本から考え直してるんじゃないかな。
ただ、具体的な詳細はまだ明らかになってません。採用に力を入れてるみたいですけど、中身はよくわかりません。
一つ興味深いのは、Safe Superintelligenceがカリフォルニア州パロアルトとイスラエルのテルアビブに拠点を置くことです。優秀な人材を集めるためかもしれませんし、単一の管轄区域でのAI規制リスクを回避する狙いがあるのかもしれません。
今のところ、10億ドルじゃ足りないように思います。従来のスケーリング路線を取るなら、100億ドル、2000億ドル、5000億ドルのクラスターを作ろうとする巨人たちと戦わないといけません。
イリヤの頭の中にある何かがブレイクスルーにならないと厳しいでしょうね。彼には良いアイデアが必要です。
アンドレイ: 私も同じ反応でした。10億ドルは大金に聞こえますが、ハードウェアを買うだけでもそれ以上かかるんです。数億ドルの学習を行うためのハードウェアをレンタルすることもできません。
自前のGPUがないと、そういう大規模な学習はできないんです。
おそらく、LLaMA 2のような既存のモデルをベースにするしかないでしょうね。研究の観点から何か賢いことをしようとしても、スケーリングは避けられません。
この額のお金でどうやって大きな進歩を遂げるのか、本当に興味深いです。OpenAIの歴史を見ても、スケーリングが進歩の鍵だったわけですからね。
ジェレミー: そうそう。イリヤ自身が初期のOpenAIでスケーリングを推進してた人なんです。だから、今になってスクリプトが逆転してるのが皮肉ですよね。
10億ドルじゃ足りないんです。インフレがひどくて...
アンドレイ: 次の話題に行きましょう。これもOpenAIに関するもので、かなり重要です。
TSMCが新しいA16プロセスを開発中で、これは次世代の超小型トランジスタ用チップになります。OpenAIがこの生産能力を確保したそうで、ハードウェア生産に乗り出す可能性を示唆してます。
A16プロセスはまだ初期段階で、量産は今年後半か来年になる見込みです。
ジェレミー、ハードウェアに詳しいあなたはどう思いますか? OpenAIが自社のハードウェアを製造しようとしてるってことですか? それはかなり大きな話ですよね。
ジェレミー: そうなんです。実はもっとクレイジーなんですよ。業界筋によると、OpenAIは最初TSMCと専用のファブ(半導体製造工場)の建設について話し合ってたらしいんです。
ちょっと背景を説明すると、NVIDIAみたいな会社はGPUを設計しますが、実際の製造はTSMCみたいな会社に外注します。
半導体の製造プロセスは、人類が今まで成し遂げた中で最も技術的に複雑なものの1つです。7nm、5nm、3nmという超微細な解像度でチップを作るのは、信じられないほど難しいんです。
ファブを建設するのも大変です。新しい半導体ファブを建てるには、航空母艦並みの資本が必要です。約500億ドルですよ。しかも、これはリスク資本です。つまり、最終的に価値ある製品が出来る保証はないんです。500億ドル使って、全部無駄になる可能性もあるんです。
TSMCは台湾が本拠地ですが、北米にファブを建設しようとしてます。中国が侵攻した場合に備えて、台湾以外での製造能力を確保したいんです。でも、これがめちゃくちゃ難しいんです。
昔、Intelがファブで苦労してた時の有名な話があります。新しいファブを建てる時、古いファブの細部まで完全に再現しようとしたんです。なぜうまく行ってるのかわからなかったからです。
ファブは500個のダイヤルがついた機械みたいなもんです。誰も正確にはわかってません。試行錯誤で、何百人ものPh.D.を持つ高給取りの人たちがダイヤルを調整してるんです。だから、トイレの壁の色まで同じにしたんです。どの細部が重要なのかわからなかったからです。それくらいデリケートなんです。
だからOpenAIが専用ファブの建設を検討してたってのは、めちゃくちゃ野心的なんです。すごく意欲的な会社だってことがわかりますね。
今はその計画から一歩引いて、次のNVIDIAになろうとしてるみたいです。BroadcomやMarvelみたいな会社と提携するそうです。
これらの会社はNVIDIAみたいにチップを設計します。でも、カスタムASICsや特定用途向けの集積回路を作ります。GoogleのTPUみたいなものですね。TPUは大規模な深層学習モデルのトレーニング専用のチップです。
つまり、OpenAIは独自のTPUを作ろうとしてるんです。これは大きな投資になります。時間とエネルギーを大量に使うことになるでしょう。
A16プロセスを使うみたいです。これは16オングストローム、つまり1.6nmのプロセスです。今は3nmが最先端ですが、次は2nm、そして1.6nmと進化していくんです。
BroadcomやMarvelと提携して、これを実現しようとしてます。めちゃくちゃ資本集約的なプロジェクトです。
面白い戦略的パートナーシップですね。BroadcomとMarvelは今まではASICsを設計してたので、NVIDIAと直接競合してませんでした。でも、この提携でOpenAIはNVIDIAのGPUと競合するチップを設計してもらうことになります。BroadcomとMarvelをNVIDIAとの競争に引き込むわけです。
チップ設計業界にとって大きな影響がありそうです。これからもっと詳細が明らかになるでしょうね。このA16ノードは、チップ設計の競争の場になりそうです。
アンドレイ: TPUについて補足すると、BroadcomはGoogleがTPUを開発する上で重要な役割を果たしました。TPUはテンソル処理ユニットで、GPUほど汎用的ではありませんが、AI向けにより効率的で強力です。
ASICは特定用途向けにカスタマイズされたチップです。Googleの大きな強みの1つは、2015年頃から TPUを開発し続けていることです。今や第5世代か第6世代まで来てます。
こういうチップを設計するのは簡単じゃありません。Broadcomはそれをやってのけて、Googleとの提携で何十億ドルも稼いでます。GoogleはTPUを自社開発したいみたいですけどね。
OpenAIが同じように独自のカスタムハードウェアを開発できるか、見ものです。成功すれば、業界の勢力図が変わるかもしれません。例えば、MicrosoftのAzureへの依存度が下がるかもしれません。OpenAIはまだ自社で大規模な学習を行えないと思うので、独自チップを持てば状況が変わるでしょうね。
ちょっとオタクっぽい話題ですけど、すごく興味深いです。
ライトニングラウンドに移りましょう。最初の話題はまたOpenAIについてです。OpenAIが企業構造の変更を検討しているそうです。
前回か前々回のエピソードで話したように、OpenAIは新たな資金調達を計画してて、1000億ドル以上の評価額を目指してます。AppleやNVIDIA、そしてMicrosoftや既存の投資家らが参加を検討してるみたいです。
成功すれば、OpenAIはシリコンバレーの歴史の中で最も価値の高いテクノロジースタートアップの1つになります。Stripeが非公開での資金調達で950億ドルの評価額をつけたのを超えることになりますね。
そのくらいの規模になると、投資家はもう少し普通の企業構造を望むかもしれません。
ジェレミー: そうですね。ある意味、これは予想できたことです。
OpenAIの企業構造については、最初からどれだけ真剣に考えられてたのか、疑問に思う人もいるでしょうね。サム・アルトマンが当初の理念からどんどん離れていってるように見えます。
最初は、AGIの成功による収益を独占する企業が出ないようにするために、変わった構造を作ったんです。非営利の取締役会が営利企業のOpenAIを所有する形にして、営利企業への投資収益に上限を設けたんです。
たとえば、Microsoftが100億ドル投資しても、最大で100倍、つまり1兆ドルまでしか儲けられないようになってました。それ以上の利益は、OpenAIの非営利親会社に還元されて、より広く分配されるはずでした。
OpenAIの人たちは、コリン・オキーフという人が提案した「windfall clause(臨時利益条項)」みたいなアイデアも考えてました。これは、莫大な収益が出た場合に、事前に決めたスキームで再分配するっていう約束です。
こういった考えが全部、取締役会の構造に組み込まれてたんです。企業価値が急上昇した時のために用意されてたわけです。
でも今、「あ、やっぱりそれはなしで」って感じになってるんですよね。色んな解釈ができると思います。
あなたが言ったように、投資家からの強い要望があるんでしょうね。収益に上限があるのは困るってことで。
まだ最終決定はされてないみたいですけど、営利に上限を設ける構造を取り払うことを検討してるみたいです。まだ何も確定してないですけどね。
こういう変わった構造って、AI業界ではよくあるんです。AnthropicはBコーポレーションって形態を取ってて、株主じゃなくて広く一般の人々への義務を負うようになってます。
実際に構造が変わるかどうかはわかりませんが、もし変われば、OpenAIの初期の約束に反するって批判の声が上がるかもしれませんね。
アンドレイ: 次の話題はまた最近よく見るトレンドに戻ります。Amazonが別のスタートアップの創業者たちを雇ったそうです。今回はCovariantっていうAIロボティクスのスタートアップです。
Covariantは2017年から、製造業や物流向けの先進的なロボティクスを開発してきました。ピーター・アビールという有名なAI研究者と教授、そしてピーター・チャンとロッキー・ドワンが共同創業者です。
この創業者たち全員がAmazonに移ることになって、従業員の4分の1もAmazonに行くそうです。
Character.aiとGoogleの件や、AmazonとAdeptの件と似てますね。これで5、6例目くらいになるんじゃないでしょうか。正式な買収じゃないけど、人材を獲得するみたいな変な取引です。
製造業や物流向けの先進的なロボティクスの分野で、Covariantは2017年からやってきたわけですが、聞いた話では、この分野の企業はなかなかうまくいかなくて、スケールするのに苦労してるみたいです。
Covariantは「ロボティクス基盤モデル」や先進的なAIを持ってるって言ってましたけど、この動きを見ると、ビジネスとして成功させるのは難しいのかもしれませんね。少なくとも今のところは。
ジェレミー: そうですね。すごく変な取引ですよね。逆アクイハイアって呼ばれることもあります。会社の中身をごっそり持っていって、殻だけ残すみたいな。
Covariantの士気はどうなるんでしょうね。経営陣全員が船を降りるわけですから。暗に「Amazonの方が可能性がある」って言ってるようなもんです。
CEOが去るってのは、会社にとって大きな課題になります。特に長年やってきた会社ならなおさらです。
これを見ると、他の似たような買収を思い出しますね。規制当局の監視を避けるためにこういう形を取ってるんでしょう。独占禁止法の観点から、業界の企業を統合するのは良くないって見られるから。
でも、実際にそうなるかどうかはわかりませんね。
アンドレイ: この取引についてもう一つ言えば、Covariantの人材を雇うだけじゃなくて、CovariantのAIモデルをAmazon内で使う非独占的ライセンス契約も結んでるんです。
Character.aiとGoogleの件なんかと似てますね。人材を獲得する一方で、パートナーシップも結ぶみたいな。
Covariantにとっては良いことなのかもしれません。でも、こういう取引がテック業界で一般的になったのは今年からですよね。
ジェリー:ライセンス契約の部分は、パートナーシップに見せかけるための演出かもしれません。「ほら、規制当局の皆さん。私たちは一緒にリスクを取ってるんですよ」みたいな。技術を買収してるわけじゃないって。
アンドレイ:なるほど。そういう意図があるかもしれませんね。
次の話題に行きましょう。中国のGPUメーカー、XCTが崩壊の危機に瀕してるそうです。以前は21億ドルの評価額がついてたのに、今は株主が創業者を訴えてるんです。
湘仙計算技術集団(Xiangxian Computing Technology Group)っていう会社で、かつては「中国のNVIDIA」と呼ばれてたんです。
デスクトップ用のGPUを2モデル、ワークステーション用を1モデル生産してましたが、財務的に期待を下回ってて、大きなプレッシャーにさらされてるみたいです。
創業者の湯継民(Tang Jimin)は、700億ドル以上のCSP(契約サービスプロバイダー)融資の調達に失敗したとして訴えられてます。
ジェレミー:私も700億ドルのシリーズB資金調達に失敗しましたが、約束はしてませんからね。
アンドレイ:そうそう。約束してないのが重要です。
ジェレミー:これは中国の半導体設計・製造業界の広範な問題の症状ですね。汚職がめちゃくちゃ蔓延してるんです。何十億ドルもドブに捨ててるようなもんです。
でも、AIレースで先に立つことが国家安全保障の優先事項だと考えれば、お金を無駄遣いする覚悟はあるんでしょう。時々は成功もしてますからね。
この件では、創業者か幹部が資金調達で集めたお金をポケットに入れちゃったみたいです。R&Dに使わずに、自分のものにしちゃった。これは違法ですよね。
中国企業が直面してる大きな課題の1つが、歩留まりの悪さです。中国の会社が新しいGPUを発表して、tear downしてみたら本当に良さそうに見えても、常に疑問に思うべきなのは実際の歩留まりです。
中国では歩留まりがひどいことが多くて、国の補助金なしでは経済的に成り立たないんです。補助金で産業を支えてるんですね。
汚職絡みのこういった崩壊は、中国の半導体業界ではよくあることなんです。今回もその一例ですね。
アンドレイ:このセクションの最後の話題です。TSMCがAI向けの次世代シリコンフォトニクスを5年以内に準備するそうです。
シリコンフォトニクスチップの需要が高まってて、主に光ファイバーネットワークの容量を増やすための高データレートモジュール用です。GPU間で高速に通信するのに不可欠なんです。
私はあまり詳しくないんですが、記事によると、このシリコンフォトニクス技術はまだ大規模に開発されてないみたいです。AIクラスターに役立つので、かなり注目されてます。
TSMCは今後数年でこの種のチップの生産能力を拡大すると言ってます。
ジェレミー:そうですね。たくさんのメリットがあります。今はGPU間やデータセンター内でデータを送る時、主に電線やケーブルを使ってます。データセンター間では光ファイバーを使ってますが。
でも、電線は例えばエネルギー効率が悪いんです。光インターコネクトの方がずっと効率が良くなります。
今後5年くらいで、光インターコネクトが主流になるだろうって見られてます。特に「co-packaged optics(コパッケージド・オプティクス)」って呼ばれる技術が注目されてます。これは光インターコネクトをチップにできるだけ近づけるんです。
つまり、全てのGPUを光インターコネクトで接続して、チップ上でも可能な限り配線を光インターコネクトに置き換えるんです。
これによって、全てがより効率的に、より高速に動作するようになります。光は超高速で動くし、電子のように回路内で衝突して熱を生み出すこともないんです。
今のところの問題は、一部でこういった「co-packaged optics」の導入が始まってるんですが、量がすごく少ないんです。
大きな課題は、業界がこの技術に十分投資して、5年後に実用化できるようにすることです。膨大なR&Dが必要なんです。
だから、一種の業界連合が形成されて、この新技術の実用化プロセスを実質的に補助してるんです。短期的には採算が取れないかもしれませんが、この先行投資をしないと永遠に実現しません。
MetaやMicrosoftがこの「co-packaged optics」技術を支援してます。AppleとTSMCの関係に似てますね。Appleは通常、TSMCの最先端のノード、つまり最も解像度の高い超微細なノードをiPhone用に注文します。これは実質的に、TSMCの最新ノードの研究開発を補助してるようなもんです。
その後、他の企業がより成熟したノードの恩恵を受けられるようになるんです。
「co-packaged optics」でも業界レベルで同じようなことが起きてるんです。
これから5年くらいの間に、チップの設計や製造レベルでますます重要になってくる分野ですね。
アンドレイ:プロジェクトとオープンソースのセクションに移りましょう。今回は1つだけです。
アリババが最新のオープンモデル、Qwen-VL 2をリリースしました。VLはVision Language(視覚言語)の略だと思います。このリリースは視覚的理解、動画理解、多言語テキスト画像処理の強化を目指してます。
いくつかのバリエーションがあって、720億パラメータのモデルが最大です。これはかなり大規模なモデルですね。メタの400Bを除けば、ほとんどの大規模オープンソース言語モデルはこの規模です。
70億パラメータと20億パラメータのモデルもあります。これらは完全にオープンなApache 2.0ライセンスで公開されてます。720億パラメータのモデルは公開されてなくて、おそらくAlibaba CloudのAPIを通じて使うことになると思います。
ベンチマーク結果も発表されてて、かなり印象的です。70億パラメータのモデルが、推論や視覚タスクでGPT-4Vを上回ってます。特に動画に関しては、同じサイズの他のオープンソースモデルよりも優れた性能を示してます。
「また新しいモデルか」って思うかもしれませんが、視覚言語モデルとしては、まだそれほど多くないんです。LLaMAは主に言語だけですからね。これは大きな進展かもしれません。
ジェレミー:そうですね。特に興味深いのは、Apacheライセンスで公開されてることです。Jerpuのような他の中国企業の大規模リリースとは違います。Jerpuは特別なライセンスを使って、「このモデルの使用に関して争議が生じた場合は中国の法制度で裁定される」みたいなことを言ってました。エンドユーザーを中国の法律に縛り付けるような感じでした。
これは一種のオープンソース戦争みたいなものですが、Qwen-VLはそうじゃありません。普通のApache 2.0ライセンスです。本当の意味でのオープンソースですね。
いくつか興味深いイノベーションがあります。「naive dynamic resolution support」というのがあって、これはモデルがあらゆる解像度の画像を入力として受け取り、動的にトークン数にマッピングします。つまり、様々な形や大きさの画像に対してより頑健になってるんです。
もう1つ面白いのが「multimodal rotary position embedding (MROPE)」です。回転位置埋め込みという概念は昔からありましたが、これを拡張してます。
簡単に言うと、入力トークンの上に信号を重ね合わせて、モデルがそのトークンの位置を学習できるようにするんです。トランスフォーマーは本来、トークンの順序を気にしないので、こういう工夫が必要なんです。
Qwen-VLでは、3つの異なる信号を同時に重ね合わせてます。画像のx軸、y軸、そして時間軸です。これらを組み合わせることで、モデルは「このトークンは画像のどの部分に対応していて、動画のどの時間スライスなのか」を理解できるんです。
標準的な回転位置埋め込みの考え方を一般化してるんですね。これはかなりクールだと思います。
結果も本当に印象的ですね。Qwen-VL、期待できそうです。
アンドレイ:次は研究と進歩のセクションです。最初の論文は、ジェレミーが興味深いと思うはずのものです。タイトルは「Firefly AI HPC: 深層学習のためのコスト効率の良いソフトウェア・ハードウェア協調設計」です。
これはDeepSeek AIから出てます。DeepSeekは以前、特にコーディングに関して強力なモデルをリリースしたことがあります。
この論文では、彼らが開発したトレーニングシステムのアーキテクチャについて詳しく説明しています。Fireflyer 2というシステムを1万台のPCIe A100 GPUで展開したそうです。
NVIDIAのより強力な製品と同等の性能を、コストとエネルギー消費を削減しながら達成できたと言ってます。
その後、どうやってそれを実現したかについて、たくさんのオタク向けの詳細が書かれてます。通信技術に取り組んだみたいですが、正直私の専門外なんで、ジェレミーに解説してもらいましょう。
ジェレミー: 確かに、あなたが強調した部分が一番重要ですね。これは技術論文なんで、かなり細かいところまで踏み込んでます。
ただ、聞き手の皆さんにも興味深いかもしれない点がいくつかあります。
彼らがやったのは、基本的に1万台のA100 GPUのクラスターを取り、それらを「ポッド」にまとめ上げ、さらにポッド同士を接続して、全体が統一的に機能する巨大なクラスターを作り上げることです。
その過程を詳しく説明してて、最終的にコストを半分に、エネルギー消費を40%削減できたと言ってます。
特に強調したいのは、論文の図2です。時間の経過とともに、GPUの様々な構成要素がどのように進化してきたかを示しています。
大規模な計算クラスターを作る時、よく注目されるのは「ロジック」、つまりGPUが実行できる演算の数(FLOPs)です。これは確かに重要ですが、それだけじゃないんです。
FLOPsの効率は毎年約3倍ずつ向上してます。でも、実際に大規模なモデルを学習させる時、モデルを分割して各GPUに送り、各GPUで計算した勾配(重みの更新)を集めて、また全GPUに新しい重みを配布する必要があります。
これには膨大な帯域幅が必要なんです。だから、GPU間の相互接続帯域幅や、GPU上の高帯域幅メモリがとても重要になります。
でも、これらの帯域幅の向上速度は、FLOPsほど速くありません。その結果、私たちはFLOPsではなく、帯域幅によって制限されるようになってきてるんです。これを「メモリの壁」と呼びます。
つまり、チップに論理回路を増やすだけじゃダメなんです。GPUにデータを十分な速さで送れないと、その計算能力を使いこなせないんです。
ちなみに、ロジックとFLOPsは年3倍、高帯域幅メモリは年1.6倍、相互接続帯域幅は年1.4倍くらいの成長率です。指数曲線上ではかなり大きな差ですね。
ムーアの法則をより詳細に見た感じです。面白いですよね。
アンドレイ: そうですね。AI業界の外の人には見えにくい部分かもしれません。OpenAIやAnthropicみたいな会社で、最も複雑な技術的課題の多くは、こういったインフラや学習クラスター、スケーリングに関するものなんです。
アルゴリズムの問題じゃないんです。もちろん、最適な言語モデルの学習方法や学習の設定に関する細かい部分はありますが、多くはハードウェアとその活用方法に関するものなんです。
ジェレミー: そうそう。結局のところ、トレーニングの効率が全てなんです。大量の計算能力を、知能を生み出すのに最も効率的な方向に向けたいわけです。
モデルアーキテクチャの設計や最適化の工夫は、レモンからより多くの果汁を絞り出す一つの方法です。でも、より大きなレモンを作る(より多くの計算能力を得る)か、その計算能力を最適化することもできます。
だから、Googleみたいな会社が構造的に大きなアドバンテージを持ってるんです。彼らはスタック全体を所有してて、それを全体的に最適化できるんです。
これが、さっき話したOpenAIが独自チップの設計を試みてる理由でもあります。スタックのより多くを所有して、システム全体の計算効率を向上させたいんです。
アンドレイ: 2つ目の話題に移りましょう。これは実際にはブログ記事で、タイトルは「1億トークンのコンテキストウィンドウ」です。
Magic社からの発表で、4億6500万ドルの資金調達のニュースと一緒に出されました。研究とPRの混ざったものですね。
このブログ記事は、長文脈推論という話題について触れています。例えば、10冊の本分のテキストを入力として与えて、モデルがそれを理解して推論できるようにするという課題です。
これは、AIと言語モデルのスケーリングにおける課題の1つでした。10万語を与えた時に、その内容を効果的に使えるかどうか、ということです。
このブログ記事で主張されているのは、まず現在のベンチマークに欠陥があるということです。これは一般的に認められている問題です。よく使われる「干し草の山の中の針」テストは、基本的に長い文書の中に挿入された小さなテキストを見つけられるかというもので、挿入されたビットは元の文脈に合わないものなんです。
これはベンチマークの問題点として指摘されてきました。新しいアプローチもいくつか見られますが、ここでは別の評価方法が導入されています。
基本的にランダム化されたデータを使用し、目立つ「針」がないようにしています。ランダムなペアのものを使って、本当に効果的な記憶力がないと問題を解決できないようにしています。
彼らは、この新しい手法が非常に効果的だと主張しています。でも、実際にどう機能するのかについての詳細がないんです。これは少し残念でしたね。
ジェレミー: そうですね。これが今の標準になってしまってるんです。昔は技術報告書があって、「論文じゃないけど、少なくとも技術報告書はある」って文句を言ってた時代がありました。でも今は、それすらないんです。
計算のインプットすら教えてくれないことが多いです。運が良ければ、何台のH100を使ったかくらいは教えてくれるかもしれません。でも、それ以上の詳細はほとんど得られません。
この論文も同じです。「針の山」の議論は面白かったですね。彼らは「hash hop」という新しい評価方法を作ったんです。
ハッシュというのは、基本的にランダムな文字や数字の文字列です。重要なのは、これがランダムだということです。
例えば、ハッシュがたくさん並んだ文書があるとします。ランダムな数字と文字の塊がいくつも並んでるわけです。その中から特定のハッシュを思い出せって言われたら、本当に文書全体を覚えておく必要があります。
ランダムなハッシュだらけの文書から特定のハッシュを正確に選び出すには、ショートカットは使えません。例えば、AnthropicがKPI in a haystackテストをした時、シェイクスピアの作品集の中にピザのレシピを入れたそうです。これは目立ちすぎます。
モデルはすぐに「あ、これは明らかにおかしい」って気づくでしょう。文書の中で場違いなものを見つけろって言われても、全部注意深く読む必要はないんです。ざっと目を通して、「ピザのレシピ?ここにあるはずないな」って思えば、それが答えだってわかります。
これは、モデルの実際の能力を過大評価してしまいます。一方、完全にランダムな文字列を使えば、モデルは全体を覚えておく必要があります。
さらに、彼らは「論理的なホップ」もさせています。これが「hash hop」の由来です。あるハッシュを別のハッシュにマッピングして、そのハッシュをまた次のハッシュにマッピングする、といった具合です。
そして、「この巨大な文書に基づいて、このハッシュに繋がるハッシュは何か」とか、「このハッシュから5つ目に繋がるハッシュは何か」といった質問をします。
これは、人間が長い文書を読む時の推論に近いものです。文書全体から情報を統合して、その上で推論するわけです。
これは本当に興味深いアプローチだと思います。今後、こういったアプローチがもっと増えるかもしれません。
彼らが測定しているのは、基本的に「induction heads(誘導ヘッド)」の出現です。これは機械解釈性の分野で最近発見された、言語モデル内の構造です。
簡単に言うと、現在のトークンに対して、以前のシーケンスを振り返り、「以前にこのトークンが出てきた時、次に何のトークンが来たか」を見て、次のトークンを予測するんです。
これらの「誘導ヘッド」は、言語モデルの驚異的なメタ学習能力の主な要因だと考えられています。これがどう出現するかについては、興味深い研究があります。
実際、どの学習曲線にも「誘導ヘッドのこぶ」と呼ばれる小さな bump があります。モデルが突然誘導ヘッドを学習して、損失が急に下がるんです。
とにかく、メタ学習のこの重要な要素を調べる面白い方法だと思います。でも、内部で何が起こっているかについては、ほとんど何も教えてくれてませんね。
アンドレイ: 確かに、これを論文と呼ぶのは少し大げさかもしれません。良いブログ記事ではありますが。
この程度の詳細さなら、これが本当に良いベンチマークなのか、少し疑問に思います。確かに、目立つ部分を取り除いたけど、今度はただハッシュを見るだけになってしまった。これは完全にランダムで、モデルが実際に必要とすることを何もモデル化してないんじゃないでしょうか。
ジェレミー: 「針の山」テストと組み合わせれば面白いかもしれません。「針の山」テストが見逃してる部分を補完できますが、言語の意味は捉えられてないんです。
アンドレイ: そうですね。一理あります。
彼らは自分たちのベンチマークを設定して、LTE(1億トークンのコンテキスト)モデルを学習させたと言ってます。1億トークンのコンテキストは約750冊の小説に相当します。
彼らが言うには、「デコードされた各トークンに対して、LTM2ミニシーケンス次元アルゴリズムは、LLAMA 3.14または5Pよりも約1000倍安価」だそうです。
これを読んでも、これが1000億パラメータのモデルなのか、1億トークンを処理できるアルゴリズムなのか、よくわかりません。それは全然違う話ですよね。
とにかく、長文脈推論の進歩は期待できそうです。Magicの大型資金調達と強力なモデルの学習、おめでとうございます。
さて、ライトニングラウンドに移りましょう。最初の話題は「Smaller, Weaker, yet Better: Training LLM Reasoners via Compute-Optimal Sampling」です。
合成データを生成してモデルを学習させる時、強力だけど高価なモデルを使うか、弱いけど安価なモデルを使うかというトレードオフがあります。弱いモデルなら多くのデータを生成できますが、強力なモデルならより良質なデータを生成できます。ただし量は少なくなります。
この論文は、計算最適化サンプリングの問題を扱っています。知識蒸留や自己改善など、様々な設定で適切なバランスを見つけられることを示しています。
弱いモデルからもっと多くのことを引き出せて、強力なモデルだけに頼る必要がないことを示しているんです。
ジェレミー: これも「なぜもっと早くやらなかったんだろう」と思わせる、シンプルだけど重要な論文の1つですね。
振り返ってみれば当たり前のように思えますが、重要な結果だと思います。普通、合成データを生成する時、「最高のモデル、例えばGPT-4 Turboとか、Claude 3.5 Sonnetを使って、自分のモデルが学習するテキストを生成しよう」って考えがちです。
でも、この論文の結果を見ると、高品質だけど量の少ないテキストよりも、中程度の品質で大量のテキストの方が良いことが多いようです。
学習するモデル(生徒モデル)の容量も大きな要因になりそうです。つまり、GPT-4みたいなモデルから生成したデータで学習させるモデルの容量のことです。
生徒モデルがすごく小さければ、高度なモデルの微妙な特徴を全て学習できないかもしれません。そうなると、最初から時間の無駄になってしまいます。
5歳の子供に数学を教えるようなもんです。複雑で厳密に正しい例を少し見せるより、単純な数学の問題をたくさん見せた方が良いでしょう。
論文ではこの点について直接触れてませんでしたが、生徒モデルの容量がこの全体にどう影響するか、調べてみたいですね。
アンドレイ: 最後の話題は「AnyGraph: An Effective and Efficient Graph Foundation Model」についてです。
AIと深層学習の分野では、グラフ学習にグラフニューラルネットワークというものがあります。グラフは他のモダリティとは違います。
ノードがあって、それを点だと思ってください。別の点があって、それが線でつながっています。これが複雑なネットワークになるわけです。
この不均一な構造のため、通常はグラフを扱うには特別なアーキテクチャが必要です。一般的に、グラフからの学習は難しいとされています。
その結果、ここで言う「基盤モデル」を作るのが難しいんです。基盤モデルというのは、例えば任意のテキストを受け取って何かをするモデル、任意の画像を受け取って何かをするモデル、といったものです。
グラフではこれが難しいんです。グラフごとに構造が違い、ノードの内容も違います。エッジ(線)に方向があるかもしれないし、ないかもしれない。エッジに特徴があるかもしれないし、ないかもしれない。テキストや画像にはない変動があるんです。
この論文で、香港大学の研究者たちが「AnyGraph」というグラフ基盤モデルを紹介しています。グラフ混合エキスパートアーキテクチャを構築して、様々なグラフを扱えるようにしたそうです。
技術的な詳細には立ち入りませんが、38の多様なグラフデータセットで実験を行い、どのデータセットでも学習せずに汎化して良い性能を出せることを示しました。これが基盤モデルに求められることです。
次は政策と安全性のセクションです。最初の話題は、また SB 1047 についてです。ここ数週間、ずっと話題になってますね。
今回のニュースは、カリフォルニア州議会で承認されたということです。
これは予想されてたことですが、次はギャビン・ニューサム知事のところに行きます。知事は拒否権を行使するかもしれません。
まだこの法案に対する立場を表明してないんです。拒否権が行使される可能性はありますが、おそらく可決されるでしょう。
民主党の取り組みで、ニューサム知事も民主党員ですからね。でも、まだ確定じゃないです。
ジェレミー: そうですね。PolyMarketという予測市場があるんですが、今ニューサム知事が法案に署名する確率を38%と予想してます。
大手テック企業やYコンビネーターなんかが、この法案に反対するロビー活動をしてるんです。
色んな方向から誇張された主張が飛び交ってて、法案にないことをあるように言う人もいます。これが繰り返し問題になってるんです。
だから、予想以上に不確実性が高いんですね。政治的な構図を見れば通りそうですが、意外と不透明な状況です。
アンドレイ: そうですね。ちょっと訂正させてください。党派で見れば可決されそうですが、そう単純じゃないんです。
ニューサム知事はAIの経済的可能性を支持する立場で、AIの味方みたいな存在です。カリフォルニア州知事として、ここ数年大きな経済の原動力となってきたAI産業を怒らせたくないでしょう。
まだわからない部分が多いです。ニューサム知事は9月30日までに署名するか拒否権を行使するかを決めなければいけません。
何が起こるか、もうすぐわかるでしょう。きっとすぐに話題にすることになると思います。
次の話題は安全性に関する研究論文です。「Tamper-Resistant Safeguards for Open-Weight LLMs」というタイトルです。
オープンウェイトモデル、つまりモデルの重みを公開するタイプのモデルについて、これまでも触れてきました。一般的に、モデルがジェイルブレイク(制限の解除)されにくくしたり、悪用されにくくしたいわけです。
でも、Metaのように重みを公開してしまうと、本当にどうしようもなくなるんです。重みにアクセスできれば、安全性のために行った学習を元に戻せてしまいます。
ジェイルブレイクする必要すらなく、好きなように再学習できてしまうんです。
この論文は、「TAR」という手法を紹介しています。これは、敵対者が長時間学習を行っても、安全性の仕組みを取り除けないようにする試みです。
評価とレッドチーム分析の結果、この手法は効果的で、モデルの能力も維持できることがわかったそうです。これも重要な点ですね。
ジェレミー、詳細を掘り下げてみてください。
ジェレミー: ありがとうございます。オープンソースモデルに対する懸念が多い中で、興味深い論文だと思います。
もしGPT-5やGPT-6クラスのモデルがオープンソースで公開されて、武器化されたりジェイルブレイクされたりしたら大問題ですからね。
彼らのアプローチは面白いです。昔の敵対的生成ネットワーク(GAN)を思い出させます。GANは以前、生成画像モデルの学習に使われてましたが、今は拡散モデルに取って代わられましたね。
似たような考え方で、2段階の学習を行います。まず言語モデルがあって、そこに安全性の仕組みを組み込みます。人間のフィードバックによる強化学習や、危険な知識を忘れさせる仕組みなどです。
そして、繰り返し学習を行います。最初の反復では、自動的なジェイルブレイク技術、つまりモデルを微調整して安全な振る舞いを忘れさせたり、危険な能力を再学習させたりする攻撃を行います。
例えば、指示に従うようにファインチューニングされたモデルが、爆弾の作り方を教えるような危険な指示を拒否するように学習してるとします。そのモデルに、危険な指示とその実行例を使って追加学習させるんです。
「やっぱり危険な質問にも答えよう」って学習させるわけです。
これが最初のステップです。安全性を組み込んだベースモデルがあって、それを壊そうとする段階があります。
次に、その対抗策を組み込もうとします。安全性の仕組みを再び組み込むんですが、そうすると本来持っていた能力を忘れてしまうリスクがあります。
安全性を学ばせつつ、危険な知識を忘れさせる。でも良い能力は失わせたくない。この緊張関係があるんです。
外側のループでは、モデルに能力を思い出させようとします。これが「能力保持」です。
実行方法は非常に興味深いんですが、ここで詳しく説明するには長すぎます。
他の手法と比較すると、能力の保持と安全な振る舞いの両面で、かなりの成功を収めています。
敵対者が安全性を取り除こうとファインチューニングしても、安全性を保ちつつ能力も維持できるんです。
ただし、重要な注意点があります。これは、学習プロセスで考慮した攻撃に対してのみ有効です。
まだ発見されていない攻撃はたくさんあって、将来それらが見つかれば、このモデルでもうまくいくかもしれません。
オープンソースモデルの問題は、公開した瞬間から時計が動き始めることです。いつか誰かが、モデルの開発者が思いもつかなかった攻撃を考え出すでしょう。
だから、これは将来を見据えた堅牢な技術とは言えません。でも、モデルのジェイルブレイクをより難しくするのに役立ちます。
パラメータ効率の良いファインチューニング攻撃には、あまり効果がありません。モデルパラメータの一部だけを戦略的に再学習させる攻撃には弱いんです。
まだ穴はありますが、これまで見てきた技術よりは確実に優れています。
不可能だと思われていたことを、ある程度可能にしたんです。オープンソースモデルの安全性を高める能力が向上したと言えるでしょう。
論文の冒頭で示唆されてるほどすごいものではないと思いますが。オープンソースの安全性に新時代をもたらすとまでは言えません。
段階的な進歩とそうでない進歩の間くらいでしょうか。確かに興味深いですが、将来に向けてより堅牢になる必要があります。
アンドレイ: ライトニングラウンドに入りましょう。わぁ、今回は結構早く進んでますね。
次の話題はハードウェアと中国に関するものです。いつもの話題ですね。
中国のチップ製造能力が、TSMCの3年後を行くという記事が出ました。東京を拠点とする半導体研究会社TechInsightsによる分解調査の結果です。
3年というのはそれほど長くないように聞こえるかもしれませんが、この業界のサイクルを考えると、数年後には中国が現在作られているような最先端のAIコンピューティングインフラを製造できるようになるということです。
ジェレミー、これまでの推定や一般的な見方と比べて、この結果はどうなんでしょうか?
ジェレミー: そうですね、色んな数字が飛び交ってます。5年後、3年後、1年後とか。本当によくわかりません。
中国から出てくる実際のモデルを見る人もいます。確かに印象的なモデルもありますが、Claude 3.5 Sonnetみたいなレベルのものは見られません。
だから、不確実性が高いんです。ここでは触れられてませんが、中国のチップに限らず、どのチップについても常に考えるべきなのは「歩留まり」です。
見た目は素晴らしいチップでも、それが大量生産できないなら意味がありません。1枚のチップを見て「おっ、中国はかなり近づいてるな」と思っても、生産ラインから出てくるチップの50%が使い物にならないなら、経済的に成り立ちません。
それで中国政府が補助金を出さないといけなくなるんです。
今回の場合、TSMCの5nmプロセスと、HiSiliconの7nmプロセスを比較してるようです。
おそらく、HiSiliconはマルチパターニングという技術を使ってるんでしょう。解像度の低いプロセスを何度も重ねることで、高解像度の5nmプロセスと同じ結果を得るんです。
でも、何度も重ねるってことは、コストが高くなって歩留まりも下がります。
まだ不確実な部分が多いです。Huaweiとその子会社HiSiliconが活発にやってるってことはわかりますね。
アメリカの輸出規制の影響は、これからどんどん出てくるでしょう。中国は徐々に遅れをとっていくかもしれません。
でも今のところ、多くの人が予想してたよりも進んでるみたいです。でも、やっぱり重要なのは歩留まりです。
中国の場合、政府が補助金を出す意思があるので、経済的な歩留まりはそれほど重要じゃないかもしれません。
アンドレイ: 関連する話題がもう1つあります。中国がアメリカの新しいチップ規制に対抗して、ASMLを排除すると脅してるそうです。
オランダのチップ製造装置メーカーASMLが、中国に売却したDUV(深紫外線リソグラフィ)装置のメンテナンスと部品販売を禁止する最新のアメリカの輸出規制を実施すれば、ASMLを永久に締め出すと言ってるんです。
ASMLは超複雑なリソグラフィ装置を販売してるんですが、販売後も継続的にメンテナンスする契約を結んでます。こんな先端技術なんで、メンテナンスは本当に重要なんです。
中国がこれを阻止しようとするのは、ある意味当然ですね。でも、ASMLを締め出すのは大きな影響がありそうです。ASMLは最先端のUV装置を作れる唯一の会社だと思うんで。
ジェレミー: そうそう。面白いのは、中国がこれを伝える方法なんです。中国政府や習近平国家主席が直接言うんじゃなくて、国営メディアのGlobal Timesを通じて言ってるんです。
これはよくある戦略で、Global Timesに意見記事が載ると、ある程度政権が承認してるってことがわかるんです。直接言わずに言う方法で、ある程度の柔軟性を残せるんです。
「これが起これば、ASMLは中国市場へのアクセスを永久に失うリスクがある」って言ってるんです。
でも、ASMLが最新の米国輸出規制を実施するかどうかは、完全にASMLの選択じゃないんですよね。オランダ政府に強制されるかもしれません。オランダ政府がアメリカの要請を受け入れるかどうかはわかりません。
ASMLを駒のように扱って、この脅しを通じてオランダ政府に圧力をかけようとしてるんでしょうね。
まあ、チップと地政学の世界では日常茶飯事ですね。あ、これについて話すなって言われてましたね。
アンドレイ: いや、むしろ人々はこういう話を求めてると思いますよ。
さて、ハードウェアと製造に関する最後の話題です。今度はアメリカの話です。
サム・アルトマンのインフラ計画が、アメリカで数百億ドルを費やそうとしてるそうです。
今年の初め、AIハードウェアの製造と先進的なAI開発のためのインフラ構築に7兆ドルを投じる計画があると報じられましたよね。それがだんだん形になってきてるみたいです。
この記事では、その7兆ドルへの最初のステップの詳細が明らかになってきてます。
アメリカ政府の許可を得て、様々な投資家を巻き込んで、AIの学習に必要な機械やシステムの構築を始めようとしてるんです。数百億ドル規模になりそうです。製造設備や関連施設のためでしょうね。
これは「事情に詳しい人物」からの情報なんで、まだ進行中の話し合いについての報道です。まだ何も署名されたり合意されたりしてないみたいですが、具体的なニュースが出てきたら、おそらくこんな感じになるでしょう。
ジェレミー: 「事情に詳しい人物」って、本当に何でも知ってるみたいですね。
これは、OpenAIのかなり賢い動きだと思います。規制当局やアメリカ政府全体が厳しい態度を取る可能性があることを知ってるんです。
特に中東のソブリン・ウェルス・ファンドや中国との関係が懸念されてます。UAEなんかとも関わってきましたからね。
だから、先手を打って、まずアメリカ政府と話をして承認を得てから行動しようとしてるんです。
面白いのは、このインフラプロジェクトはOpenAI以外の企業にも利益があるって言ってることです。
議会が承認した「CHIPS and Science Act」(半導体と科学法)の40〜50億ドルのパッケージを補完するものになりそうです。国内のAIチップ製造のためのものでしたね。
こっちはもっとGPU寄りで、AIに特化した感じです。
OpenAIは具体的に国家安全保障会議と会談してるんです。これは大統領に国家安全保障について直接アドバイスする人たちの集まりです。
行政の最高レベルに直接アプローチしてるわけです。
サム・アルトマンの得意技ですね。アメリカ政府との付き合い方が上手いんです。
アンドレイ: 最後のセクション、人工メディアとアートに移りましょう。あと少しです。
最初の話題もまた、アートコミュニティ内の対立とAI利用に関する様々な見方についてです。
「NaNoWriMo、AI執筆ツールを擁護した主催者の発言で混乱」というタイトルです。
NaNoWriMoは「National Novel Writing Month(全国小説執筆月間)」の略で、長年続いてるイベントです。1ヶ月で小説を書くという企画です。
この運営団体が、AI執筆ツールの使用に反対することは「階級主義的で能力主義的だ」と発言したんです。
ChatGPTのようなAIアプリを使って書いた小説の参加を制限したくないと言ってます。
ちなみに、NaNoWriMoは11月に開催されて、参加者は5万語の原稿を書くことが課題です。
主催者は、AIを使って全文を書くのは企画の趣旨に反すると説明しました。
でも、予想通り、一部の作家コミュニティからこの立場に批判が出てます。こういったツールは、使う人よりも業界の方が恩恵を受けると主張してます。
NaNoWriMoは批判を受けて、投稿を更新し、生成AIツールが執筆業界に与える影響についての懸念を認めました。
ジェレミー: うわ、業界に投入される執筆量がすごいことになりそうですね。AI執筆ツールを使えば...人間の作家は本当に大変になりそうです。
正直、これについてどう感じるべきかわかりません。読者としては、最終的には恩恵を受けるでしょう。AIは人間よりも上手に小説を書けるようになるかもしれません。もしかしたら、かなりの割合の作家に対しては既にそうなってるかも。
でも同時に、人間が書くということに魅力があるんですよね。正解がわかりません。
maybe別々のコンペティションを作るとか...何言ってるかわかりませんが、アイデアを投げてみただけです。
アンドレイ: 次の話題は、トム・ハンクスがAIを使って自分の姿を勝手に使った詐欺的な広告に注意するよう、フォロワーに警告したというものです。
これは彼のInstagramへの投稿です。ハンクスは、みなさんご存知の通り、非常に有名なアメリカの俳優です。
オンラインで奇跡の治療法や驚異の薬を宣伝する広告がたくさんあるけど、自分はそういった投稿や製品とは一切関係ないから気をつけてって言ってます。
以前にも似たようなニュースがありましたね。確か、トム・ハンクスが何かの歯科製品を宣伝するのに使われたって話を取り上げたことがあります。
これは本当に続いてるトレンドで...私は幸運にも、有名人のディープフェイク広告を見たことがないんですが、確実に存在してるし、トム・ハンクスみたいな人は本当に迷惑してるんでしょうね。
ジェレミー: あ、ごめん。「自分が広告の対象になるのを避けられた」って意味かと思った。このポッドキャストも結構人気出てきてるけど、そこまでじゃないよね。
そういえば、イーロン・マスクがこういった詐欺的な暗号通貨広告の80%くらいに使われてるって話を以前取り上げましたね。記憶が正しければの話ですが。
有名人によって得意分野があるみたいで、イーロンは暗号通貨系の詐欺によく使われるみたいです。
かわいそうにトム・ハンクスは、これから法的な頭痛の種になりそうです。こういうものを作ってる会社や人々を訴えて回らないといけないんでしょうね。
アンドレイ: 最後の話題は、実際には意見記事なんですが、読む価値があると思います。
タイトルは「Why AI Isn't Going to Make Art(なぜAIはアートを作らないのか)」です。
これはテッド・チャンという、過去20年ほどの間、特に短編小説で注目を集めてきたSF作家によるものです。
彼の意見では、アートを作るプロセスの一部、あるいはそれをアートたらしめているのは、実際に何千もの小さな選択を行うという意思決定のプロセスだと言ってます。
だから、AI生成画像の場合、あなたの選択がプロンプトの言葉遣いだけだとすると、たとえ出力がアートのように見えても、この哲学や枠組みの下では、それはアートとは見なさないということになります。
AIが作るものはアートなのか、そうでないのかという議論の中で、これはかなりニュアンスのある、よく考えられた意見だと思いました。
興味があれば、私たちの要約を聞くより、直接読んでみることをお勧めします。
ジェレミー: そうですね。Xでかなり話題になってました。正直、私はまだ読んでなくて、フィードに何度も出てくるのを見てただけです。
AI業界からかなりの反発があったみたいで、その理由もわかる気がします。
あなたが共有してくれた定義を基にすると、結局、誰が決定を下しているかという問題になりますよね。
確かに、画家やアーティストとして、あなたは何百万もの決定を下しています。でも、機械解釈可能性を使えば、ニューラルネットワークの回路で暗黙のうちに行われている、同じくらい、あるいはそれ以上の数の決定ポイントを特定できるかもしれません。
それに、アートについてのこういった考え方を主張することはできますが、結局のところ、みんなアートに対して異なる考え方を持ってるんです。
実際にこれが、何かを楽しむべきか楽しまないべきかにどう影響するのか、はっきりしません。
maybe「アート」という言葉をもっと細かく分ける必要があるのかもしれません。AI生成アート、人間生成アート、その中間のものとか。
より詳細な解像度を得るために。一部の人々は、その背後にある意味や、人間が作ったという事実、これらの決定が有機的な基質で行われたことを重視します。それが彼らにとって重要なんです。
私もある程度それに共感します。でも、正直なところ、この議論をよく理解できてるか自信がありません。何か見逃してる気がします。
結局のところ、アートに何を求めているかを知る必要があるんです。
ただ驚きたいなら、美しいものを家に飾りたいなら、AIで生成してもいいでしょう。
でも、その背景にあるストーリーや生成プロセスが重要なら、別のアプローチを選ぶべきです。
アンドレイ: よし、これで終わりです。短いエピソードにするつもりが、結局90分になってしまいました。
いつもより5つくらい少ない話題しか扱ってないのに、1話題あたりの時間で見ると、あまり印象的じゃないですね。
でも、楽しいエピソードでした。ここ数週間、残念ながらちょっと同期が取れてなくて、エピソードの公開が遅れてました。
今回のエピソードは、前回の公開からほんの数日後に聞けるかもしれません。追いつこうとしてるんです。
ジェレミー: 一つ言わせてください。毎週やるたびに、私の妻が赤ちゃんを産む確率が上がってるんです。
来週は参加できない可能性が高いです。わかりません。
みなさん、聞いてくれてありがとうございます。優しいコメントもありがとうございます。特に、赤ちゃんの誕生を祝福してくれた人たちに感謝します。
何て言おうとしたのか、自分でもわかりません。とにかく、ありがとうございます。
アンドレイ: そうですね。ジェレミー、頑張ってください。おそらく間もなく起こりそうですね。4〜6週間後くらいに、また普通の人間として戻ってこられるんじゃないでしょうか。まあ、どうなるかわかりませんが。
本当にありがとうございました。いつも通り、聞いてくださってありがとうございます。レビューもシェアもありがとうございます。
それでは、このAIソングをお楽しみください。