DeepSeek、新衝撃AIモデルJANUS PROで再び米国勢を圧倒
7,169 文字
DeepSeekが複数の理由で話題となっています。特に、Janus proと呼ばれる新しいマルチモーダルAIモデルファミリーのリリースに注目が集まっています。このモデルはOpenAIのDALL-E 3を凌駕し、さらにPixart AlphaやEMU3といった有名モデルもGeneval、DPGベンチなどのベンチマークで上回っているとされています。これらのベンチマークは画像生成や画像理解などのタスクにおけるモデルのパフォーマンスを測定する重要な指標です。最も強力なバージョンであるJanus Pro 7Bは、少なくともDeepSeekの社内テストによれば、これらの有名なモデルを上回る性能を示しています。
Janus Proの発表の数日前、DeepSeekは既に言語モデルR1で話題を呼んでいました。このモデルはO1と同等の性能を持つとされ、さらに印象的なのは、シリコンバレーの大手AI研究所が投じた何十億ドルという開発費用に比べ、わずか500万から600万ドルで開発されたとされることです。業界全体がAI開発にかかるコストが高すぎるのではないかと疑問を投げかけ始めました。次の大きなブレークスルーは、革新的なトレーニング手法を持つ小規模な企業からもたらされるのでしょうか。
本題に入る前に、私の新しいチャンネル「Vision Actu」の立ち上げをお知らせしたいと思います。このチャンネルでは地政学的、金融的なトレンドを解説しています。実はこのDeepSeekの話も、そこで詳しく取り上げているトピックに直接関連しています。リンクは説明欄にあります。
さて、本題に入りましょう。中国の杭州に拠点を置くDeepSeekには、政治的、経済的な影響が想定されます。特に、NVIDIAの先進的なチップの輸出に対するアメリカの規制は、中国のAI進歩を遅らせることを目的としているという議論があります。しかし、DeepSeekはNVIDIAのH800チップを使用してトレーニングを行ったと主張しています。これは米国が規制している最上位チップと比べると技術的に劣りますが、それでもO1と同様の結果を得られたとされ、米国の研究所が採用している高コストな戦略に疑問を投げかけています。
最近の出来事として注目すべきは、DeepSeekのアシスタントアプリケーションが注目を集め始めた時に、サイバー攻撃の被害に遭ったとされることです。これは、アプリケーションが米国App Storeの無料アプリランキングでトップに達した時期と重なっています。新しいAIが急速に人気を集め、ウェブサイトがダウンし、その後DDoS攻撃の試みにより一時的な新規登録制限を発表するという展開は印象的です。人気の高まりは明らかですが、望ましくない注目も集めているようです。
Janus Proに話を戻しましょう。DeepSeekはこれを多目的な統合トランスフォーマーアーキテクチャとして紹介しています。768×768の解像度まで画像を生成し、画像を分析し、テキストベースのタスクを実行できます。多くのAIモデルがテキスト生成や画像生成など単一の分野に特化している中、Janus Proはオールインワンのアプローチを採用しているという点で注目に値します。これはGPT-4 Visionのように画像を分析できるGPT-4に似ていますが、こちらは完全にオープンソースです。DeepSeekはモデルのコードとウェイトをHugging Faceで公開し、誰でもすぐにダウンロードできるようにしています。これは全てを非公開APIの背後に隠しているOpenAIのような企業とは対照的です。
Janus Proのパフォーマンスについて、モデルは1億から70億のパラメータまで様々なサイズで提供されています。7Bバージョンが主力モデルで、DALL-E 3と競合するとされているものです。ユーザーコミュニティは様々な方法でテストを行い、特にオブジェクトの説明、関係性、暗示的な意味の理解における精度を分析しました。オブジェクトの位置や外観といった単純な要素の説明は上手くできましたが、より深い推論が必要な場合には限界を見せました。例えば、比喩的なイラストに直面した場合、Janus Proは象徴的なメッセージを解釈せず、文字通りの説明に留まる傾向がありました。比較すると、GPT-4 Visionはより深い意味を理解することができました。
画像生成の面では、Janus Proは正確な画像を生成できますが、全体的な鮮明さやアーティスティックなスタイルといった分野では課題があります。これらの側面は、Stable Diffusionの様々なバージョンのように、大規模なコミュニティによって常に改良されている専門の画像モデルの方が優れています。Janus Proの利点は、視覚的な卓越性よりも多様な機能性にあるようです。
興味深いテストとして、Janus ProとSDXL Standardで秋の風景の中の子狐を生成する比較が行われました。Janus Proは「子供」という要素をより上手く表現しましたが、SDXLはより鮮明で詳細な画像を生成しました。つまり、Janus Proは指示により忠実である一方、SDXLは視覚的な品質で優れているというトレードオフが見られました。
重要な点として、DeepSeekのオープンソースアプローチにより、コミュニティがモデルの品質を向上させる可能性があります。他のオープンソースモデルでも同様の現象が見られており、開発者は実験を行い、特殊なデータセットを適用し、コードを改良してモデルを新たな高みへと押し上げることができます。DeepSeekの公式Hugging Faceスペースはまだアクティブではありませんが、個人が独自のスペースを作成してJanus 7Bをテストできるようにしています。ただし、7Bバージョンを使用することが重要で、そうでない場合は失望につながる可能性があります。
DeepSeekの成功、特にGPT-4に匹敵するシステムを低コストで構築できる能力が大きなニュースとなった時、株式市場に激震が走りました。テクノロジー株が下落し、特にNVIDIAの株価が暴落しました。これにより、わずか1日で約6000億ドルもの時価総額が失われました。その理由は単純です。最先端のAIモデルのトレーニングに最新のNVIDIAチップが不可欠ではないとすれば、NVIDIAの一見止まらない成長も、実はそれほど確実ではないのかもしれないということです。
中国のスタートアップが通常のコストの10分の1でこれらの結果を再現できるとすれば、AIへの投資競争は間違った方向に向かっているのではないかという疑問が生まれ始めました。OpenAIのCEOであるSam Altmanはソーシャルメディアで、DeepSeekの成果に感銘を受けたと述べつつも、OpenAIはさらに優れたモデルで応戦する予定であり、コンピューティングリソースへの投資をさらに増やすと述べました。つまり、OpenAIは多額の支出戦略から後退する意思がないということです。
ここで思い出すべきは、OpenAIがMicrosoftとパートナーシップを結んでおり、Microsoftが何十億ドルもOpenAIのエコシステムに投資し、データセンターの大規模な拡張を計画していることです。
興味深い展開として、ホワイトハウスからの反応がありました。トランプ大統領は、中国企業によるDeepSeek AIのリリースは警鐘となるべきだと述べました。彼は競争に勝つことに焦点を当て、アメリカのテクノロジー企業を解放して米国が当該分野で支配的地位を維持できるようにする必要性について語りました。これは、特に中国へのチップ輸出制限に関する現在の議論の文脈において重要な発言です。しかし、中国企業は依然としてアクセス可能なリソースを使用してこれらの制限を回避しているのです。
DeepSeekの軌跡も謎に包まれています。2023年に設立されたばかりで、杭州に拠点を置いています。BaiduのようなChinese大手はすでに以前から言語モデルをリリースしていましたが、これまで中国のモデルでDeepSeekほどアメリカのテック界の注目を集めたものはありませんでした。ちなみに、DeepSeekのCEOについてもっと知りたい方のために、彼とそのAIに対する哲学をよりよく理解できるインタビューを公開しています。
一部の批評家はセキュリティ上の潜在的なリスクを懸念しています。DeepSeekは中国政府と密接な関係にあり、それがユーザーデータを危険にさらしたり検閲につながる可能性があるのでしょうか。DeepSeekのAIアシスタントが中国政府や習近平国家主席に関する質問に応答しないという報告もあり、特定のトピックに関する実際の開放性や自由度について憶測を呼んでいます。
それにもかかわらず、わずか数週間でDeepSeekのAIアシスタントは米国のApple App Storeで、無料アプリとしてはChatGPTを上回る最高評価を獲得するまでになりました。これは驚くべきことで、わずか数日でAIチャットボットの王座を獲得したといえます。この人気の高まりにより、DeepSeekのウェブサイトに深刻な負荷がかかり、APIやユーザー接続の問題に対処する必要が生じました。
ここで少し、現在進行中の新しいプロジェクトについてお話ししたいと思います。ご存知の通り、このチャンネルではAIに関連するすべての新製品やニュースを分析しています。私の目標は、この素晴らしいテクノロジーをできるだけ多くの人々に知ってもらい、何よりもAIに対する意識を高めることです。私の周りでは、人々はAIが何であるかを本当には理解していないように感じます。AIが社会に与える影響の大きさを認識していないのです。その影響は途方もないものになるでしょう。
すでに申し上げましたが、このチャンネルでは商品のプロモーションは行っていません。できる限り本物の情報を提供したいと考えているからです。そのため、トレーニングコースを作成しました。あなたの生活のあらゆる面でAIを使用する方法を学びたい方のためです。この動画をご覧の方は、おそらくChatGPTなどのAIをすでに使用されているでしょう。もしAIツールの使用をさらに深く理解し、生活のあらゆる面に適用する方法を正確に知りたい場合は、動画の下にピン留めされたコメントのリンクをご覧ください。
また、Vision AIコミュニティにもアクセスできることをお伝えしたいと思います。このプロジェクトを開始してからまだ間もないですが、すでに100人以上の方々がトレーニングを購入されています。素晴らしいことに、皆さんは様々な分野から参加されており、学んだツールを各自の特定の分野にどのように適用するかについて、定期的に議論できることを楽しんでいます。非常に興味深い取り組みです。
申し訳ありませんが、この話はここまでにしておきましょう。時間を取りすぎないようにします。すべてのリンクは動画の説明欄またはコメント欄にありますので、ご確認ください。これは約90日間で最も長いダウンタイムを記録しました。
ウイルス的に人気を集めるアプリケーションでは短期的にこのような問題が発生することは珍しくありませんが、市場に真のニーズが存在することを示しています。投資家を震撼させている別の要素として、競争力のあるAIをトレーニングするには何十億ドルと何千個ものNVIDIAの最高級チップが必要だという仮説が間違っているかもしれないということがあります。少なくともDeepSeekはそれを示唆しています。
ウイルス的に人気を集めるアプリケーションがカスタマイズ可能なXLAパスワードを使用する時、OpenAIだけが標的ではありません。Google、Amazon、Microsoftもすべて、AIの研究開発とインフラに巨額の予算を割り当てています。Microsoft、Meta、Alphabet、Amazon、Oracleだけでも、2025年までにAI専用データセンターに約3100億ドルを投資する予定です。一方、OpenAIは世界規模のデータセンターネットワークを構築するために最大5000億ドルの支出計画を示唆していますが、DeepSeekが1000万ドル未満でそれを達成できるのであれば、これらの巨額支出は過剰かもしれません。
もちろん、DeepSeekの数字に疑問を持つ人もいます。同社はV3モデルのトレーニングに約560万ドルを費やしたと述べていますが、これは最終的なトレーニング段階のみを指し、それ以前の実験やデータのキュレーションをすべて反映していない可能性があります。しかし、たとえ総コストが3倍か5倍高くても、米国のテクノロジー大手が発表している金額と比べれば、依然としてはるかに低いものです。
大きな疑問は、これがどのように可能なのかということです。DeepSeekは、モデルが特定の時点で最も関連性の高いデータセクションのみに集中できるようにする新しいトレーニング技術を挙げています。これにより、多くのコンピューティングリソースを節約できるとされています。また、AlibabaやMetaのオープンソースプロジェクトを出発点として使用し、それを改良して最終製品を作成したとも述べています。
西洋のオープンソースフレームワークに本質的に依存していることに喜ばしく思わない人もいますが、これがオープンソースの仕組みです。コードが公開されれば、能力のあるグループであれば誰でもそれを適応させることができます。
Metaでは明らかにある種の不満があるようです。世界最高の研究者を何千人も抱え、豊富な資金を持ちながら、どうして少ない資源しか持たない小規模な企業に先を越されてしまったのかと人々は疑問を抱いています。Mark Zuckerbergはオープンソースの支持者で、LLaMAなどのモデルを公開しましたが、皮肉なことにLLaMAがDeepSeekの迅速な進歩を助けた可能性があります。
UC BerkeleyのStuart Russellのような専門家は、このAGI(汎用人工知能)への競争は宇宙開発競争よりも危険だと主張しています。なぜなら、我々は完全にはコントロールできない潜在的な超知能システムに向かって突き進んでいるからです。一部のAI企業のCEOたちも実存的リスクについて言及しています。これは、比較的無名のプレイヤーがスケジュールを加速させることへの懸念を引き起こしています。
結局のところ、DeepSeekは今や誰もが話題にする存在となりました。マルチモーダルタスク、画像生成、画像分析、テキスト会話のためにJanus Proを提供し、さらに彼らのR1モデルは推論の面でGPT-4と競合しています。すべてがオープンソースであり、コミュニティがどのような改良を加えるかは誰にもわかりません。
主な疑問は、これがテクノロジー大手に方向転換を強い、より効率的で経済的な技術に焦点を当てさせることになるかどうかです。OpenAIのSam Altmanは本質的に、より良い製品をまもなく発表すると述べました。また、大規模なコンピューティングリソースの重要性を再確認しました。一方、Metaは世界中の何十億人にサービスを提供するには依然として大量の計算能力が必要だと示唆しています。つまり、これはモデルのトレーニングだけでなく、大規模な展開の問題でもあるのかもしれません。
一つ確実なのは、魔法のランプから精霊が解き放たれたということです。DeepSeekの突然の台頭は、西海岸の巨大企業がAIに投資した何十億ドルに対する警鐘となっています。小規模で機敏なチームでも、賢明な方法を取れば、そのペースについていける可能性があります。これは単なる誇大宣伝ではありません。株価、投資トレンド、さらには政府が輸出規制をどのように考えるかにも実際の影響を与えています。中国の研究所が最高性能のGPUなしでGPTレベルのモデルを生産できるのであれば、AIの支配をめぐる議論全体が変わってきます。
これが全体像です。DeepSeekの新しいオープンソースアプローチは、明らかに新しい効率性の基準を確立しています。米国のテクノロジー大手は調整を行うか、少なくとも注目しています。株式市場は反応し、政府は介入し、オープンソースコミュニティは潜在的にこれらの新しいモデルの周りに結集しています。
皆さんの意見が聞きたいと思います。DeepSeekの成功は持続可能なものでしょうか、それとも一時的な現象に過ぎないのでしょうか?予算のわずかな部分で、より多くの小規模チームが大手企業よりも優れたイノベーションを生み出すのを見ることになるでしょうか?それとも、OpenAIやMetaのような企業が、莫大なリソースを持っているため、常に優位性を保ち続けるのでしょうか?
この分析に興味を持っていただき、現在の地政学的な課題についてさらに深く理解したい方は、私の新しいチャンネル「Vision Actu」をご覧ください。このチャンネルでは、このトピックを含め、私たちの現在と未来を形作る様々な問題について深い分析を提供しています。両方のチャンネルを購読して最新情報をお見逃しなく。また近いうちに新しい分析でお会いしましょう。