
Google DeepMindのバーチャルセル・プロジェクト!DeepSeek AIが再び登場、人類最後の試験
9,397 文字
Google DeepMindのCEOであるデミス・ハサビスは、今年中にAIが設計した薬剤の臨床試験が実施されると述べています。彼によると、Alphabetの子会社であるIsomorphic Labsは、これまで10年以上かかっていた創薬プロセスを数週間から数ヶ月に短縮することを目指して取り組んでいます。また、最近のインタビューで言及されたバーチャルセル・プロジェクトについても後ほど詳しく説明します。
次に、ご存知の通り、中国のDeepSeek AIが新しい無料のオープンソースモデルR1でOpenAIのo1モデルのベンチマークを上回り、米国のテック業界に大きな動揺を与えています。彼らは今回、Janis Pro 7Bと呼ばれる新しいモデルをリリースしました。これも無料のオープンソースで、他のモデルと比較した性能を見ていきます。
最後に、「人類最後の試験」と呼ばれる新しいAIベンチマークが登場しました。このベンチマークは数百の科目にわたる数千の難しい問題で構成されており、まだどのモデルも10%のスコアを達成できていません。また、このベンチマークはモデルの誤認識に関する重大な懸念も提起しています。
約1週間前、Bloombergは「DeepMindのハサビス、今年中にAIが設計した薬剤の臨床試験を予測」という記事を発表しました。既に述べた通り、彼は今年末までにAIが設計した薬剤の臨床試験が実施されることを期待しており、GoogleのDeepMindのスピンオフ企業であるIsomorphic Labsは、創薬プロセスを数十年から数週間または数ヶ月に短縮することを目指しています。これは非常に野心的な目標と言えます。
記事ではさらに、AIが大量のデータを処理する能力が創薬のスピードアップに貢献する可能性があると述べていますが、大手製薬会社の多くはこの新興技術の活用に慎重なアプローチを取っているとしています。しかし、全ての企業が慎重なわけではありません。記事によると、テクノロジー企業と製薬大手の提携は増加傾向にあり、昨年Isomorphic Labsは、イーライリリー・アンド・カンパニーおよびノバルティスAGと戦略的研究提携契約を締結しました。
ここで記事は少し方向性を変え、ハサビスがAI企業は人工汎用知能(AGI)、つまりアルゴリズムが多くのタスクで人間を上回るベンチマークの達成まで、おそらく数年かかるだろうと警告したと述べています。「おそらく少数の大きなブレークスルーが必要です」と彼は言います。「ブレークスルーは必要ないかもしれません。ここからは単にスケールアップするだけかもしれません。しかし、私は1つか2つ欠けているものがあり、それには5年程度の時間スケールが必要だろうと考えています」
ハサビスは5年以内にAGIが実現すると予測しており、これは彼のDeepMindのバーチャルセル・プロジェクトに関する予測とも一致します。これは非常に興味深いものです。ハサビスがこのプロジェクトについて語っているクリップをお見せしますが、その前に少し背景説明をさせてください。ノーベル賞を受賞したAlphaFoldチーム、つまり科学界で知られているほぼ全てのタンパク質の構造を予測したDeepMindの革新的なAIプログラムAlphaFoldを開発したチームが、現在このプロジェクトに取り組んでいます。
「バーチャルセル・プロジェクトは、完全に機能する細胞のシミュレーション、AIシミュレーションを構築することです。おそらく酵母細胞から始めることになるでしょう。酵母生物の単純さを考えると、それが適切だからです。これが重要な理由は、仮説を立て、栄養変化や薬物の注入などの変化を加えた場合に細胞がどのように反応するかを検証できるからです。
実験室での検証は何百万倍もコストと時間がかかりますが、その代わりにin silicoで行うことができます。これは、ゲーム環境で私たちが行ったことを科学と生物学の分野に応用するようなものです。モデルを構築し、それを使って推論と探索を行い、その予測は完璧ではないかもしれませんが、実験者が検証するのに十分な精度を持っています。
もちろん、薬に関しては臨床試験が必要で、人間での有効性を確認するためにテストを行う必要があります。これもAIで改善できると考えています。臨床試験も何年もかかりますが、これは別の技術になります。バーチャルセルは創薬の発見段階を支援するものです。薬のアイデアがあれば、バーチャルセルに入れて効果を確認できます。将来的には肝臓細胞や脳細胞など、異なる細胞モデルを持つことができるでしょう。そうすれば、90%以上の確率で実際に起こることを予測できるはずです。」
「それは素晴らしいですね。完成までどのくらいかかると思いますか?」
「おそらく今から5年程度だと思います。5年計画として、旧AlphaFoldチームの多くがこのプロジェクトに取り組んでいます。」
これは非常に驚くべきことです。リアルな仮想細胞で薬をテストし、ほぼ即座に効果を知ることができれば、どれだけの時間が節約できるか想像してみてください。さらに一歩進んで、あなたの特定の細胞の仮想コピーを持ち、医師がテストを実行して最適な薬を見つけたり、あるいはAIがあなたの細胞に特化した薬を設計したりすることも想像できます。これが医療の未来、個別化医療であり、私たちが考えているよりも近い将来に実現するかもしれません。
他のAI企業もAIを使用して創薬や科学的発見を加速させることについて言及していますが、Google DeepMindは今のところAlphaFoldで唯一重要な成果を上げた企業です。しかし、この記事によると、それも変わりつつあるようです。
OpenAIはタンパク質工学のためのモデルを開発し、科学分野に参入すると述べています。通常の細胞を幹細胞に変換できるタンパク質を考案できる言語モデルを開発し、この課題で人間を大きく上回る成果を上げたとしています。この研究はOpenAIの生物学データに焦点を当てた初のモデルであり、そのモデルが予期せぬ科学的成果をもたらすことができるという初めての公の主張です。
さらに詳しく説明されています。OpenAIの新しいモデルであるGPT-4Bマイクロは、タンパク質因子の機能を向上させるための再設計方法を提案するように訓練されました。OpenAIの研究者らによると、モデルの提案を使用してヤマナカ因子の2つを変更し、予備的な測定によると少なくとも50倍効果的になったとのことです。ヤマナカ因子は、体の通常の細胞を幹細胞に変換できる4つの特殊な遺伝子です。このモデルは、これらのタンパク質を再設計または修正して、より効果的に機能するようにしました。本質的に、幹細胞を作成するプロセスをより速く、より効率的にしたのです。ご存知の通り、幹細胞は既に疾病や様々な怪我の治療に使用されています。
最後に、彼らはGPT-4Bがどのようにして推測に至るのかは、AIモデルでよくあることですが、まだ明確ではないと述べています。「AlphaGoが人間の最強者を圧倒したときのように、なぜそうなったのかを理解するのに時間がかかりました」とベティス・ラクアは言います。「私たちはまだモデルが何をしているのかを理解しようとしており、この応用方法は表面をかすっているだけだと考えています。」
これは確実に注目し続ける必要がある分野であり、OpenAIがGoogle DeepMindのAlphaFoldのように、このモデルをリリースまたはオープンソース化するかどうかも興味深いところです。
次にDeepSeek AIについて話しましょう。新しいR1モデルで騒ぎになっている間も、彼らは懸命に働き続け、さらに印象的なモデルJanis Pro 7Bをリリースしました。これは非常に小さな70億パラメータのモデルで、マルチモーダルであり、少なくともそのサイズではstate-of-the-artのようです。左に示されているように、4つのマルチモーダル理解ベンチマークでの平均性能は、Llava-1.5 7BやEmu-3 Chatなどのモデルを上回っています。また、テキストから画像を生成する際の指示追従ベンチマークでの性能、つまりテキストプロンプトをどれだけ正確に描写するかという点でもstate-of-the-artであり、特にOpenAIのDALL-E 3を上回っています。
公平を期すために言えば、Flux やIdiogramなど、DALL-E 3よりも優れた画像生成モデルは他にもありますが、これらのモデルはおそらくはるかに大きく、DALL-E 3は依然としてそれらと同等の性能を持っています。前身のモデルJanusと比較した画像生成の例をいくつか紹介します。見て分かる通り、明らかな大きな進歩がありました。多くの例は提供されていませんが、提供されている例を見る限り、かなり優れているようです。
R1のリリース以降、これがDeepSeekの唯一の進展というわけではありません。実際、R1モデル自体が2倍速くなりました。マシュー・バーマンの投稿を紹介しましょう。彼は次のように述べています。「DeepSeek R1が2倍の速度向上を達成しました。驚くべきことに、その高速化のためのコードはR1自身が書いたものです。自己改善型AIが現実のものとなっています。」
ここには多くの技術用語がありますが、重要な部分はこの段落です。「驚くべきことに、このプルリクエストのコードの99%はDeepSeek R1によって書かれています。私がしたのは、テストを開発し、試行錯誤しながらプロンプトを書くことだけでした。」つまり、このプログラマーは基本的にDeepSeek R1自体を使って、DeepSeek R1をより速く実行するためのコードを書かせたのです。マシュー・バーマンが述べたように、これは自己改善型AIの明確な例です。
これがAGIが重要である理由です。なぜなら、一度モデルが多くの分野で人間よりも優れるようになると、AI自体の作成においても人間よりも優れるようになるからです。そしてそれが起こると(既に起こっていると主張することもできますが)、物事は本当に驚くべき方向に進み始めます。これは、Exponential AI研究者のレオポルド・アッシェンブレナーが、知能爆発または特異点が始まる瞬間だと主張している時点です。機械知能が急速に人間の知能を超え、指数関数的に加速し続けるのです。
これが、中国とアメリカ、そして実際には他の主要な世界の超大国の間のAIレースが非常に重要である理由です。OpenAIのような主要なアメリカのAI企業はこのことをよく認識しており、しばらくの間、米国政府にこのレースを真剣に受け止めるよう要求してきました。そして、ついに彼らはそうしたようです。トランプ大統領は最近、米国のAIインフラストラクチャに5,000億ドルを投資するプロジェクト・スターゲートを発表しました。このプロジェクトの主要な支援者には、ソフトバンク、オラクル、OpenAIが含まれています。
私は既にこれについて詳しく説明したビデオを作成しており、興味のある方のために画面に表示しますので、ここでは詳しく説明しません。基本的に、OpenAIが述べているように、スターゲート・プロジェクトは新しい会社であり、今後4年間で5,000億ドルを投資して、米国でOpenAIのための新しいAIインフラを構築することを目指しています。このインフラは、AIにおけるアメリカのリーダーシップを確保し、数十万人のアメリカ人の雇用を創出し、世界全体に大きな経済的利益をもたらすとされています。
彼らは発表の最後で次のように述べています。「私たちは全員、AIを構築・開発し続けること、特に人類全体の利益のためのAGIの開発を楽しみにしています。この新しいステップは重要な道筋であり、創造的な人々がAIを使用して人類を向上させる方法を見出すことを可能にするでしょう。」
OpenAIの研究者であるノーアン・ブラウンが述べているように、これは今世紀最大かつ最も重要なインフラ整備であり、GDPの割合で測定すると、アポロ計画やマンハッタン計画と同規模です。「このような投資は、科学が慎重に検証され、それが成功し、完全に変革的なものになると人々が信じている場合にのみ行われます。私はそれが正しい時期だと同意します。」
詳しく知りたい方は、これについて私が作成したビデオをチェックしてください。これは確実に今後も多く話題に上がるトピックとなるでしょう。
OpenAIとの関連で、現在進行中の中国との新しいDeepSeek R1モデルを巡るAIレースについて、サム・アルトマンも反応を示しました。彼は「DeepSeekのR1は印象的なモデルで、特にそのコストパフォーマンスは素晴らしいものです。私たちはもちろんさらに優れたモデルを提供しますが、新しい競合者を持つことは本当に刺激的です。いくつかのリリースを準備しています」と述べました。DeepSeekは確実にOpenAIにプレッシャーをかけています。また、彼はそのツイートに続けて「AGIとその先を皆さんにお届けすることを楽しみにしています」と述べました。その「先」という部分が何を意味するのか気になります。
彼が言及したように、彼らは明らかにより優れたモデルを提供する予定です。これまでにベンチマークを突破したo3の発表があり、まもなくリリースされることが分かっていますが、OpenAIのCPOであるケビン・ワイルドによると、彼らは既にo4モデルシリーズの次のイテレーションに取り組んでいるとのことです。
「私たちは約3ヶ月でo1からo3まで進化しました。つまり、イテレーションサイクルが圧縮されています。私たちは既にo3の次のモデルのトレーニングを行っており、能力の大きな飛躍が見られそうです。私たちが非常に興奮しているのは、モデルが本当に急速に賢くなっているからです。
これらのモデルの最初のバージョンは、世界で100万番目くらいのコーダーでした。それも悪くはありません。まだ世界のトップ2-3%には入っています。しかし、この新しいモデルの最初の完全なバージョンo1をリリースしたとき、それは世界で1000番目くらいのエンジニアでした。o3は世界で175番目のエンジニアになります。これらの間隔は3-4-5ヶ月程度です。100万番目から175番目まで来ているのです。今後もこのような意味のある進歩が続くことが想像できます。」
OpenAIのo1モデルシリーズが基づいているテスト時コンピューティングという新しいスケーリングパラダイムが、人々が予想していたよりもはるかに速く進んでいることは明らかです。今後は1年ごとではなく、数ヶ月ごとに新しいモデルが登場することになりそうです。
アルトマンは以前の投稿で、o3ミニがChatGPTの無料版に追加されると言及しました。私たちは今後数週間以内にo3ミニを見ることになるでしょう。これは、先月o1を手に入れたことを考えると、かなり驚くべきことです。ただし、無料ユーザーが現在利用できる最高のモデルであるGPT-4oと比べて、実際にどれだけ優れているのかは興味深いところです。
中国が静かに急速な進歩を遂げているもう一つの分野はロボット工学です。彼らは最近、国立ヒューマノイドロボットイノベーションセンターによって設立された最初のヒューマノイドトレーニング基地を開設しました。このトレーニング基地は、多くの異なるヒューマノイドに様々なタスクを実行させることで、大規模なデータ収集に使用されます。現在10社以上から100台のロボットを所有しており、2027年までに1,000台のロボットに拡大する計画です。中国は製造能力により、この分野で既に大きな優位性を持っていますが、これらのロボットを動かすAIが間違いなく最も重要な要素です。
また、ある中国企業は100メートルを10秒以内で走ることができるロボット犬を開発しました。「ブラックミラー」のエピソードを見たことがある人はおそらく何を言っているか分かると思いますが、そのショーは基本的に現実になりつつあります。本当に信じられないことです。
他のAIニュースでは、AIエージェントが次々と登場しています。最初にOpenAIのOperatがあり、今度はバイトダンスのUITarsが登場しました。このデモでは、プレゼンテーションの2枚目のスライドの背景色を1枚目と同じ色に変更するという簡単なタスクを実行しているのが分かります。それほど複雑ではありませんが、私たちが今エージェントで見ているのは非常に初期の段階です。時間とともに確実に改善されていくでしょう。
最近あまり話題に上がっていなかったPerplexityもエージェントの分野に参入し、Perplexity Assistantを発表しました。彼らは「Assistantは推論、検索、アプリを使用して、簡単な質問から複数のアクションまで、日常的なタスクを支援します。ディナーの予約、忘れた曲の検索、配車の呼び出し、メールの下書き、リマインダーの設定など、多くのことができます」と述べています。これはApple Intelligenceや高度なSiriのようなものであり、完全なタスクを自動化することを目的とした真のAIエージェントというよりは、名前の通りアシスタントのようです。ただし、将来的にどこまで発展させるかは分かりません。
新しいAIベンチマークの話題に入る前に、Sakana AIから「Transformer Squared」という驚くべき研究論文が発表されました。基本的に、彼らはタスクに応じて動的に重みを調整するAIモデルを作成しました。彼らは次のように述べています。「この自己適応型AIのビジョンは、私たちの最新の研究論文Transformer Squaredの中心にあります。この論文では、様々なタスクに対して動的に重みを調整する機械学習システムを提案しています。Transformer Squaredという名前は、その2段階のプロセスを反映しています。まず、モデルが入力タスクを分析してその要件を理解し、次にモデルの重要なコンポーネントの重みを選択的に調整して最適な結果を生成します。
私たちのフレームワークは、LLMがリアルタイムで新しいタスクに動的に適応することを可能にします。Transformer Squaredは、数学、コーディング、推論、視覚的理解など、様々なタスクで大きな進歩を示し、LoRAのような従来の静的アプローチを性能と効率性で上回りながら、はるかに少ないパラメータしか必要としません。」
結果を見ると、正直それほど印象的ではありません。GSM-8KやARC Easyなど、いくつかのベンチマークでわずかな性能向上が見られるだけです。しかし、このモデルの印象的な点は、タスクに応じて動的に調整する能力です。最終的にこの方法を改善できれば、AIモデルはより効率的になるでしょう。この論文の詳細な分析については、私のPatreonで公開する予定です。興味のある方は、説明欄のリンクをチェックしてください。
最後に、最後に必要となるテストの1つになることを期待される新しいAIベンチマークが登場しました。彼らは次のように述べています。「ベンチマークは、大規模言語モデル(LLM)の能力の急速な進歩を追跡する重要なツールです。しかし、ベンチマークは難易度の面で進歩に追いついていません。LLMは現在、MMULのような人気のベンチマークで90%以上の精度を達成しており、最先端のLLM能力の適切な測定が制限されています。
これに応えて、私たちは人類最後の試験を導入しました。これは人類の知識の最前線にある多モーダルベンチマークであり、広範な科目をカバーする最後の閉鎖型学術ベンチマークとして設計されています。このデータセットは100以上の科目にわたる3,000の難しい問題で構成されています。私たちはこれらの問題を公開していますが、モデルのオーバーフィッティングを評価するために、非公開のテストセットとして保持された問題も維持しています。」
ここで特に興味深いのは、モデルの極めて低いスコアだけでなく、キャリブレーション誤差スコアを追加する必要があったことです。「人類最後の試験での低い性能を考えると、モデルは自身の不確実性を認識し、誤った答えを自信を持って提供する(意図的な捏造や幻覚を示す)のではなく、適切にキャリブレーションされるべきです。キャリブレーションを測定するために、私たちはモデルに回答とともに0%から100%の信頼度を提供するようプロンプトを与えました。」
ここでキャリブレーション誤差スコアを見ると、非常に高くなっています。つまり、これらのモデルは頻繁に自身の能力を過大評価し、誤った回答を自信を持って提供しているということです。最も信頼性の高いモデルはDeepSeek R1で、かなりの差をつけています。最も信頼性の低いのはGemini Thinkingですが、全てのモデルが依然として定期的に幻覚を見ていることは明らかです。
最後に、彼らは次のように述べています。「現在のLLMは人類最後の試験で非常に低い精度しか達成できていませんが、最近の歴史が示すように、ベンチマークは急速に飽和し、モデルは短期間でほぼゼロからほぼ完璧な性能まで劇的に進歩しています。AIの急速な発展を考えると、モデルは2025年末までにHLEで50%の精度を超える可能性があります。
HLEでの高い精度は、閉鎖型の検証可能な質問と最先端の科学知識についての専門家レベルの性能を示すことになりますが、それだけでは自律的な研究能力や人工汎用知能を示唆するものではありません。」私は、このベンチマークが急速に飽和するという彼らの予測は恐らく正しいと思います。2025年末までに50%を達成すると予測していますが、それは十分に起こりうることだと思います。このベンチマークについてのあなたの予測をコメント欄で教えてください。
ビデオを終える前に、もう1つ言及し忘れたニュースがありました。Anthropicはクロードの双方向音声モードをリリースする計画を立てています。これは新しいものではありません。既にChatGPTの高度な音声モードがありますが、クロードのモデルを好む人にとっては間違いなく良いニュースです。
以上が今日のAIニュースです。視聴していただき、ありがとうございました。ビデオを楽しんでいただけた場合は、ぜひ「いいね」を押してください。そして、いつも通り、このような将来のAIニュースを常に把握したい方は、必ず購読ボタンを押してください。