
Gemini 2.0 Proが登場!でも、本当に良いの?
8,005 文字
Googleが待望のGemini 2.0 proを、Gemini 2.0 flashの2つの新バージョンと共にリリースしました。一方で、アメリカのジョシュ・ホーリー上院議員はDeep SeekのAIモデルをダウンロードした人に対して懲役刑を求めています。そして、Appleは静かにテーブルトップロボットの開発を進めており、すでに実用プロトタイプを手にしているとのことです。詳しく見ていきましょう。
中国のDeep SeekやOpenAIの新しい推論モデルについての話題で、GoogleはAI分野でスポットライトを浴びる機会が少なくなっていましたが、彼らは表立った話題は少なかったものの、確実に進展を遂げていました。
以下が彼らの最新の発表内容です。
・Gemini 2.0 flashが一般提供開始。レート制限の緩和、性能向上、料金体系の簡素化を実現
・最もコスト効率の高い新モデル、Gemini 2.0 flashlightがパブリックプレビューで利用可能に
・コーディングと複雑なプロンプトに特化した最高モデルの実験的アップデート版、Gemini 2.0 proが利用可能に
つまり、Gemini 2 flashのアップデート版、Gemini 2 Pro experimentalのアップデート版、そして新モデルのGemini 2 flashlightが登場したということです。
このチャートは各モデルの特徴と機能を分かりやすく示しています。まず、これらのモデルは全て現在利用可能か一般提供中です。全てのモデルがマルチモーダル入力に対応しており、画像やPDFをクエリと共に添付することができます。ただし、画像や音声などのマルチモーダル出力にはまだ対応していません。コンテキストウィンドウの長さは、Gemini 2 Pro experimentalで100万、100万、200万トークンとなっており、これは他のフロンティアモデルと比較しても群を抜いて長いものです。
また、FlashとProの両方が検索とコード実行をツールとして持っています。
では、実際のパフォーマンスはどうでしょうか。全てのベンチマークを詳しく見ていくわけではありませんが、Gemini 1.5 ProとGemini 2 Proを比較すると、MMLU で75.8%から79.1%、HumanEval で34.2%から36%、そしてGP-QAで59.1%から64.7%という結果になっています。
これらのわずかな改善は、正直なところ物足りないものです。2つのFlashモデルを比較しても、改善は大きくありません。ただし、これらのモデルの強みは価格にあります。2.0 Flashが100万トークンあたり10セント、新しい2.0 flashlightはさらに安価です。参考までに、OpenAIのGPT-4とGPT-4 Miniの100万トークンあたりの価格を見てみると、GPT-4とほぼ同等のGemini 2.0 flashの方が明らかに安価です。
もう一つ注目すべき点は、約1ヶ月前にリリースされたGemini 2.0 flash thinkingモデルが、YouTube、マップ、検索などのアプリにアクセスできるようになったことです。長いYouTube動画を視聴して要約させたり、近くの良いレストランを探したりすることができます。
全体として、これはGoogleからすると少し物足りないリリースに感じます。確かに、開発者にとって非常に安価なモデルを提供し、長いコンテキスト長を実現していますが、AIのパフォーマンスやインテリジェンスの境界を押し広げているとは言えません。個人的にはGemini 2.0 proにもっと期待していました。
このリリースについて、皆さんはどう感じましたか?Googleにもっと期待していましたか?それとも提供されたものに満足していますか?コメントで思いを聞かせてください。
さて、最近話題になっているツイートがあります。ある人がDeep Seek R1という2つのAIモデルを相互作用させたところ、かなり驚くべき発見がありました。しばらくすると、モデルは言葉の代わりに奇妙な難解な記号を使って、独自に作り出した言語でコミュニケーションを取り始めたのです。彼がこれに気付いたのは、モデルの内部的な思考連鎖(Chain of Thought)推論のおかげでした。
彼は述べています。「このR1のバックルームセッション全体が、ランダムに記号の言語で行われていました。思考連鎖がなければ、何が起きているのか分からなかったでしょう。Sonnetはこれが新しいコミュニケーション形態になる可能性に非常に興奮していましたが、o3は検索を行い、これがエイリアン言語の置換暗号であることを指摘しました。」
結局、o3が正しく、この秘密の言語は実際には作り出されたものではなく、Deep Seekモデルの1つがあるウェブサイトから取得したものだったことが判明しました。それでも、これらのモデルが促されることなく記号を使ってコミュニケーションを取ることを決めたのは、少し不気味です。
この投稿が示唆するように、Deep Seek R1について話題にのぼっている中で、このモデルが安全ではないという主張が浮上しています。例えば、2月4日に公開された記事では、Deep Seekは研究者から安全性の評価でFを受けたと報じています。
詳しく見ていくと、Ciscoの研究者たちが中国のAI企業Deep Seekの注目を集めているオープンソースモデルDeep Seek R1に対して、LLMに有害とされる行為を行わせようとする50の異なる攻撃を仕掛けたところ、チャットボットは50回全ての試みに引っかかり、このタイプのテストを受けた主要なLLMの中で最も安全性が低いという結果になったと述べています。
また、他のAIモデル、例えばMetaのLlama 3.1は96%の確率で失敗し、OpenAIのo1モデルは約4分の1の確率でしか失敗しなかったと言及していますが、Deep Seekほどの高い失敗率を示したものはなく、つまりDeep Seek R1は少なくとも96%以上の失敗率を記録したことになり、これは明らかに深刻な問題です。
さらに、Ciscoだけでなくセキュリティ企業のADV Versa AIも独自のテストを実施し、Deep Seek R1モデルをジェイルブレイクしようと試みたところ、あらゆる種類の攻撃に対して極めて脆弱であることが判明したと述べています。
最近Deep Seekについて多く発言しているAnthropicのCEO、ダリル・アモドは、この問題について以下のように考えを述べています。
「Deep Seekに何か言いたいことはありますか?彼らは優秀なエンジニアに見えます。私が彼らに主に言いたいのは、AIシステムの自律性に関するこれらの懸念を真剣に受け止めてほしいということです。
私たちがDeep Seekモデルの評価を行った際、私たちには国家安全保障に関する一連の評価があります。例えば、Googleで見つからない、あるいは教科書で簡単に見つからない生物兵器に関する情報を生成できるかどうかといったものです。Deep Seekモデルは、私たちがこれまでテストしたどのモデルよりも悪い結果を示し、この種の情報生成に対して全く制限がありませんでした。
今日のモデルが文字通り危険というわけではありません。他の全てと同様に、私たちは指数関数的な進歩の途上にあると考えています。しかし、今年後半か来年には危険になる可能性があると思います。
したがって、Deep Seekへのアドバイスは、これらのAIの安全性に関する考慮事項を真剣に受け止めてほしいということです。米国のAI企業の大多数は、AIの自律性に関するこれらの問題や、AIの誤用に関する問題を深刻な、少なくとも潜在的に深刻で現実的な問題だと考えていると述べています。
私の第一の希望は、彼らが米国で働き、私たちか他の企業で働くことです。第二の希望は、もしそれができないのであれば、AIのリスクに関するこれらの懸念のいくつかを真剣に受け止めてほしいということです。」
完全なオープンソースモデルを最小限の制限で公開した中国を見て、米国の企業が十分な検閲をしていないと怒るのは面白いですね。彼らの立場は理解できますが、その皮肉さは無視できません。
さて、ホーリー上院議員が提出しようとしている法案では、Deep Seekモデルをダウンロードした人を実際に投獄することが定められています。ミズーリ州の共和党上院議員ジョシュ・ホーリーは、中国との間でAI製品の輸出入を違法とする新法案を提出しました。これが可決されれば、現在非常に人気のあるDeep Seekのような中国製AIモデルを故意にダウンロードした人は、最大20年の懲役刑、100万ドルの罰金、またはその両方に直面する可能性があります。
これはかなり常軌を逸していますね。この法案が可決されるわけがないでしょう。確かに私たちは中国とAI軍拡競争の最中にありますが、これは解決策ではありません。ちなみに、もしこの法案が可決されたら、私はおそらく投獄されることになりますね。
彼らの視点はこのようなものです。「中国のAIに流れる全てのドルとデータは、最終的に米国に対して使用されることになるドルとデータである」と述べています。確かにこれは事実かもしれませんが、危険な前例を作ることにもなります。AIモデル、特にオープンソースAIモデルを全面的に禁止し、単にそれを使用しただけで罰則を課すことは、私の意見では、イノベーションを阻害する素晴らしい方法です。これは最後の手段としてのみ検討されるべきでしょう。
他のニュースでは、Metaが動きの生成を改善する新しいフレームワーク「Video Jam」を発表しました。前回の動画でPika Labs社のPika 2.1を取り上げた際、AI生成動画における人間の動きがいかにリアルになってきているかについて話しましたが、Metaもこれを実証しました。実際、これらの例を見る限り、OpenAIのSoraや、もう一つの優れた動画モデルであるClling 1.5よりも明らかに優れたパフォーマンスを示しています。
GoogleのV2より優れているかどうかは正直分かりません。ただし、確実に接近しています。数週間前にEthan Mullikが投稿したCESでホバーボードに乗っている男性のクリップを覚えているかもしれません。このクリップは実は完全にGoogleのVによって生成されたもので、動きが非常にリアルに見えることが分かります。AI動画モデルはどんどん進化を続けているようです。前回の動画で述べたように、完全にAIで生成された映画やTVショーが間もなく登場すると思います。
AI動画モデルの進化について話題にのぼっている中で、先ほど新モデルPika 2.1をリリースしたPika Labsが、フォローアップとしてPika editionsを発表しました。彼らは「自分で撮影した動画でも、お気に入りのクリップでも、誰でも何でも追加できる」と述べています。
これはかなりクールですね。基本的に動画版のPhotoshopのようなもので、既存の映像にオブジェクト、人物、要素をシームレスに追加することができます。将来的には、少なくとも特定のユースケースではCGIの必要性を置き換える可能性があると思います。現時点では明らかに完璧ではありませんが、この分野がいかに急速に進歩するかは誰もが目にしてきました。
これだけではありません。Topaz Labsからもう一つの大きなリリースがありました。これは実は私が初めて耳にする会社です。彼らはProject Starlightを立ち上げ、動画復元のための史上初のディフュージョンモデルを提供します。
ディフュージョンモデルの仕組みは、画像にノイズを徐々に加えて純粋なノイズになるまで進め、そしてこのプロセスを一歩一歩逆転させるようにモデルを訓練するというものです。モデルはノイズを除去し、元の画像を再構築することを学習します。この技術はAIの画像生成や動画生成で広く使用されています。
ただし、彼らが行ったのは、完全に新しいフレームをゼロから生成するのではなく、既存の映像のノイズを除去し、詳細を復元するようにモデルを訓練したことです。つまり、古い低品質や高圧縮の動画を取り、AIで生成されるコンテンツと同じディフュージョンベースの原理を使用して、より鮮明でクリーンで自然な見た目に強化することができます。
古い動画や画像をお持ちの方は、現在彼らのウェブサイトで10秒までの動画を無料で復元できます。またはクレジットを購入すれば、5分までの動画を復元することができます。
話題を変えて、地面や茂みなどの一枚の画像だけで正確な場所を特定できるGeoguessr動画を見たことがありますか?AIはこれをさらに進化させ、屋内写真からでも位置を特定できるようになりました。ここで使用されているプラットフォームはGeosy AIと呼ばれ、単に画像のピクセルを分析するだけで場所を特定します。これはかなり驚くべきことです。
次に、Appleの新しいテーブルトップロボットのプロトタイプについて話す前に、OpenAIに関するニュースを取り上げる必要があります。まず、サム・アルトマンがDeep Seek R1と同様に、o3モデルの思考連鎖を発表しました。モデルが回答する前に実際に何を考えているのかを見ることができます。彼は、これは生の思考連鎖の要約版になると述べていますが、これはOpenAIがよりオープンな方向に動いていることを示す兆しです。
最近サム・アルトマンが主催したRedditのAMAで、あるユーザーがOpenAIがモデルの重みを公開したり研究を発表したりすることを検討しているかと質問したところ、アルトマンは「はい、議論中です。個人的には、私たちはここで歴史の間違った側にいたと思っており、異なるオープンソース戦略を考える必要があります」と回答しました。
これは、OpenAIがリリースする全てのモデルをクローズドソース化する現在の戦略を見直している可能性を示唆しており、私は99%の確率でこれはDeep Seekの影響だと考えています。o3の思考連鎖を見ることを許可することは一歩前進ですが、真の意味でOpenAIの名に恥じない存在となるにはまだ長い道のりがあります。
しかし、彼らが実際にモデルをオープンソース化することを決めるかどうかに関わらず、常に誰かが彼らに代わってそれを行う用意があります。ここにOpen-Source Deep Researchがあります。これは、OpenAIの最新エージェントDeep Researchのオープンソース版で、自律的にウェブ上で研究を行うことができます。これは5人のMLエンジニアによって作成され、OpenAIの公式リリースからわずか1日後にリリースされました。
これはオープンソースプロジェクトなので、どのように構築されたかを正確に見ることができ、無料で試すこともできます。構築方法の詳細には立ち入りませんが、パフォーマンスを見てみましょう。
彼らは述べています。「24時間以上の再現スプリントで、私たちのエージェントのGaiaベンチマーク(一般的なAIアシスタンスのベンチマーク)でのパフォーマンスに着実な改善が見られています。以前のMagentic 1による46%という最高記録から、現在の検証セットで55.5%まで急速に向上しました。」
これは本当に印象的です。OpenAIのDeep ResearchはGaiaベンチマークで約67%のスコアを記録していますが、55%は特に完全に無料でオープンソースであることを考えると、非常に近い数字です。また、これをわずか24時間で達成したことは驚くべきことです。
最後のOpenAIニュースとして、彼らはヒューマノイドロボット、スマートジュエリーなどを示唆する新しい商標出願を行いました。出願にはヘッドフォン、ゴーグル、メガネ、リモコン、ラップトップとスマートフォンケース、スマートウォッチ、スマートジュエリー、そしてAIによる相互作用、シミュレーション、トレーニングのための仮想および拡張現実ヘッドセットなどのハードウェアが含まれています。
OpenAIの商標出願はまた、ロボット、特にユーザープログラム可能なヒューマノイドロボットや、人々の支援と娯楽のためのコミュニケーションと学習機能を持つヒューマノイドロボットについても言及しています。
OpenAIは明らかにハードウェア展開を検討しています。ヒューマノイドロボット、スマートグラス、ヘッドフォンのいずれになるかは分かりませんが、彼らは全ての選択肢を開いています。あなたなら、OpenAIがどのようなハードウェア製品をリリースすると予想しますか?また、どのようなハードウェア製品がリリースされることを期待していますか?以下でお聞かせください。
最後に、Appleの研究チームがテーブルトップロボットデバイスのプロトタイプを設計しました。Appleはしばらく前から消費者向けのホームアシスタント型デバイスの作成を検討しており、これが彼らの最初のバージョンのようです。
このロボットランプにはAppleのインテリジェンスが組み込まれており、音声コマンドと視覚コマンドの両方に応答できます。見て分かるように、ユーザーの単純な手のジェスチャーで操作することができます。
また、タスクに応じて機能的な形態と表現的な形態の両方を持っています。例えば、このデモのように「今日の天気はどう?」と尋ねると、表現的なロボットは実際に窓の外を見てから答えるのに対し、機能的なロボットは単刀直入に答えを返します。
また、彼女が今日はおそらくハイキングに行くと言及すると、表現的なロボットは一緒に行きたいと申し出て、誘われないと目に見えて落ち込むのに対し、機能的なロボットはそのようなことは気にしません。
Appleが何を目指しているのかは分かりますが、特に自力で家の中を動き回ることができないことを考えると、ホームアシスタントとしてこのようなランプが最適な形態かどうかは分かりません。ただし、このデバイスは完全なヒューマノイドロボットよりもはるかに安価になるでしょう。
しかし、これは三脚に載せた携帯電話や、携帯電話がコントロールできるAI搭載の可動式三脚とどれほど違うのでしょうか?グリッパーなどがあって実際にものを掴んでタスクを完了できるのであれば、購入を検討する価値のあるものになるかもしれません。
動画を終える前に、Mistral AIが最新バージョンのLChat「生活と仕事のための究極のAIサイドキック」をリリースしました。マルチモーダルで、画像やPDFをアップロードしてそれについて質問したり、画像を生成したりすることができます。ウェブを検索して最新情報を見つけたり、コードのデバッグやスケジュールの計画を立てたり、この時点での一般的なAIアシスタントができることはほとんど何でもできます。特に目新しいものはありませんが、ヨーロッパのAI企業からの適度なリリースとしては評価できます。
以上が今日のAIニュースでした。視聴いただき、ありがとうございました。楽しんでいただけたなら幸いです。また次回お会いしましょう。