見出し画像

DeepSeek R1 AIリーク:1,000,000以上のファイルが暴露される(ディープシーク AI は復活するのか、それとも台頭するのか?)

3,898 文字

1Xは新しいヒューマノイドを開発するためにKind Roboticsを買収しましたが、まず中国のAIスタートアップDeepseekで深刻なセキュリティ障害が発生しました。同社のデータベースがインターネット上で完全に無防備な状態となり、文字通り誰でも機密性の高いユーザー情報を盗んだり、その他の攻撃を仕掛けたりする可能性がありました。
しかしそれは始まりに過ぎませんでした。Deepseekのインフラストラクチャにリンクされた公開されたClickhouseデータベースは、内部データへのアクセスを含む運用全体の完全なコントロールを許可していました。さらに衝撃的だったのは、100万行以上のログデータ、チャット履歴、APIシークレット、バックエンド情報、その他の運用メタデータが流出していたことです。
さらに悪いことに、データベースの設定により権限昇格が可能となり、認証されていないユーザーがウェブブラウザから直接SQLクエリを実行できるようになっていました。これによりアカウントの乗っ取り、ランサムウェア攻撃、データ操作、リモートコード実行などの door が開かれてしまいました。Deepseekはこれらの脆弱性にすぐに対処しましたが、問題が修正される前に悪意のある行為者が機密データにアクセスまたはダウンロードしたかどうかは不明なままです。もしそうであれば、さらなるデータ漏洩、セキュリティの悪用、Deepseekのアプリケーションの不正使用などの潜在的な結果が考えられます。
パフォーマンスの面では、DeepseekのR1はNewsguardの監査で17%の精度しか達成できず、OpenAIのChatGPTやGoogleのGeminiなど西側の競合他社と比較して11社中10位にランクされたと報告されています。結果として、DeepseekのR1は誤った主張を30%の頻度で繰り返し、53%の時間で曖昧または役に立たない回答を提供し、83%の失敗率となりました。これは西側のライバルの平均失敗率62%と比べて著しく悪く、Deepseekのパフォーマンスに関する主張に疑問を投げかけています。
その間、Deepseekはウェブサービスを停止させ、新規ユーザー登録を一時的に停止せざるを得ない大規模なサイバー攻撃に直面しました。また、中国起源であることから、米国政府がDeepseekの使用を完全に禁止するなど、プライバシー慣行に対する精査も強化されています。
イタリアでは、同国のデータ保護規制当局がトレーニングデータのソースについての情報を要求した直後に、Deepseekのアプリが利用できなくなりました。さらにDeepseekの問題に追い打ちをかけるように、OpenAIとMicrosoftは現在、このスタートアップが不適切にOpenAIのAPIを使用して独自のモデルをトレーニングしたかどうかを調査しています。OpenAIは中国からの異常な使用スパイクを報告しています。ディスティレーションとして知られるこの慣行は、別のモデルの出力でモデルをトレーニングすることを含み、OpenAIはこれを知的財産権の侵害だと主張しています。
しかしこれらの後退にもかかわらず、ユーザーが熱心にオープンソースモデルをダウンロードして自分のコンピュータでローカルに実行しているため、Deepseekは依然としてメインストリームで牽引力を得ています。この荒々しいスタートが無知によるものか、国家支援のアジェンダによるものか、あるいは全く別の何かによるものかは不確かですが、1X TechnologiesがKind Humanoidを買収し、日常生活を支援するために設計された汎用ロボットを進歩させるという共通のビジョンを持つ2つのチームを統合したことで、もう一つの世界的なAIの瞬間が起ころうとしています。
この買収は、実用的な家庭用ロボットの実現をより近づけるため、人間と共に学び、適応し、協働できるインテリジェントなヒューマノイドの開発を加速することを目指しています。Kind Roboticsの特徴は、自然なコミュニケーションと適応性を可能にする大規模言語モデルを統合していることです。特定のタスクのためにトレーニングされたロボットとは異なり、同社のプロトタイプは、人々を様々な日常的な状況で支援できる汎用マシンとして設計されました。
このアプローチは、ヒューマノイドロボットが孤立した環境や厳格なプログラミングに限定されるのではなく、人間の中で生活し学ぶことで進化し改善されるべきだという信念を反映しています。実際、Kind Humanoidは、生体を模倣した人間中心のロボットを作ることに焦点を当てた小さなチームとして始まり、Monaという二足歩行ヒューマノイドは、家庭での使用だけでなく、ヘルスケアなどの産業での応用のためにも設計されました。
一方、アリババは最新の言語モデルQwen 2.5 Maxを導入し、記録的な20兆トークンのデータでトレーニングされたと主張しています。これが検証されれば、OpenAI、Anthropic、Meta、Googleなどの業界をリードする競合他社と競い始める位置につけることになります。Qwen 2.5 Maxは、その規模の大きさで際立っており、アリババは、トレーニングに使用された20兆トークンが、約15兆トークンでトレーニングされたと推定されるDeepseek V3やLlama 3 140Bを含む多くの主要モデルのデータサイズを上回ると主張しています。GPT 4oやClaude 3.5 Sonnetなどの一部のライバルは正確なトレーニングデータサイズを開示していませんが、アリババによるデータ量の新しいベンチマークの主張はAIコミュニティの注目を集めています。
重要なのは、このモデルがMixture of Experts(専門家の混合)アーキテクチャを活用していることです。これは特定のタスクに関連するモデルの部分のみを活性化することで、計算リソースをより効率的に割り当てるように設計されたシステムです。このアプローチにより、Qwen 2.5 Maxは様々なユースケースで強力なパフォーマンスを維持しながら効果的にスケールすることができます。
ベンチマークテストでは、Qwen 2.5 Maxは特定の分野でDeepseek FE3、GPT-4、Claude 3.5 Sonnet、Llama 3 140Bを上回る性能を示し、最も注目すべき結果は複雑な推論と実世界のタスクパフォーマンスを測定するArena HardとLiveBenchから得られています。しかし、多くのカテゴリーでの競合他社に対する優位性は控えめであり、より大きなデータセットからの利得が徐々に増加するという業界の広範なトレンドを反映しています。
さらに、アリババはQwen 2.5 Maxの開発に、教師あり微調整と人間のフィードバックからの強化学習を組み合わせて使用しました。これらは高度なAIモデルの開発で広く採用されているトレーニング技術です。現在、Qwen 2.5 MaxはアリババクラウドのAPIを通じて、そしてリアルタイムウェブ検索やコンテンツ生成などの機能をサポートするアリババのチャットボットプラットフォームであるQwen Chatを通じてアクセスできます。
一方、Qwen 2.5-MLなどの他のモデルはオープンソースツールとして利用可能ですが、アリババは今のところQwen 2.5 MaxをAPIのみとして維持することを選択しました。この決定は企業開発者をターゲットとしているようで、アリババはOpenAI互換のAPIと競争力のある価格設定を使用して、ユーザーを自社のクラウドプラットフォームに引き付けています。
しかし、アリババは正確なトレーニングデータのソースを開示していません。専門家らは、他のAIモデルによって生成された合成データが、前例のないトークン数を達成する上で重要な役割を果たした可能性があると示唆しています。これは、企業がトレーニングの取り組みを拡大するために合成データにますます依存するようになっているという、AI開発の成長トレンドと一致しています。
しかし、膨大なトレーニングデータセットへの依存は、AIコミュニティ内での議論を再燃させました。一部の専門家は、モデルが応答を生成する際に使用する計算リソースの量であるテストタイムの計算能力が、トレーニングデータのサイズよりも言語モデルのパフォーマンス向上により重要な役割を果たすようになっていると主張しています。
他の中国のAIモデルと同様に、Qwen 2.5 Maxは政府が義務付けるコンテンツ制限の下で運営されており、議論できるトピックの範囲が制限されています。Qwen 2.5 Maxにより、アリババは記録的なデータセット、競争力のあるベンチマークパフォーマンス、開発者フレンドリーなツールを組み合わせることで、成長するAI市場における真剣な競争相手としての位置づけを確立しています。このモデルは、OpenAIやAnthropicなどの西側のAIリーダーに挑戦するというアリババの野心を反映しています。Qwen 2.5 Maxのパフォーマンスの向上は革新的というよりは段階的ですが、エンタープライズ導入とアクセスしやすいAPIへの戦略的な焦点は、世界中の開発者とビジネスにとって価値のあるツールとなる可能性があります。

いいなと思ったら応援しよう!