見出し画像

AIニュース:GoogleがOpenAIを超え、GeminiがメモリーAIを獲得、Claudeが解放され、GPT-4が劣化?など...

7,116 文字

中国から驚くべきニュースが飛び込んできました。Deep Seek R1 Lightプレビューという新しいモデルについてです。これは本質的にGPT-4 01プレビューと非常に似ており、AIMや数学のベンチマークでGPT-4 01レベルのパフォーマンスを示しています。
このモデルで驚くべき点は、テストタイム計算というパラダイムを使用してモデルの応答の精度を向上させていることです。これらのベンチマークを見ると、その結果には本当に驚かされます。私はテストタイム計算が新しいパラダイムであることは知っていましたし、GoogleやMITから出た最近の研究論文でも、このパラダイムが非常に有望だということは分かっていました。なぜなら、以前のベンチマークを完全に打ち砕いたからです。
しかし驚くべきことは、彼らがわずか2ヶ月でこれを達成したという事実です。研究論文を見て学んだのかもしれませんが、OpenAIのこのレベルにまで追いついたという事実は、控えめに言っても信じられないほど驚くべきことです。
他のベンチマークを見てみると、昨日の動画でも触れましたが、Deep Seek R1 Lightプレビューは様々な分野でGPT-4 01プレビューを上回っています。これはあくまでもプレビューモデルなので、将来的にフルモデルが登場した時、OpenAIと比較してどのような位置づけになるのか非常に興味深いところです。
本来なら、この時期にGPT-4 01のフルモデルが公開されているはずでしたが、まだ公開されていないことは少し気がかりです。OpenAIは多くのことに取り組んでいるようで、選挙後により大きなモデルがリリースされると思っていましたが、そうではないようです。
ベンチマークを見ると、Deep Seek R1プレビュー(濃い青)とGPT-4 01プレビュー(薄い緑)で、特定のカテゴリーで優れた成績を示しています。興味深いのは、数ヶ月でこれを達成したということだけでなく、明確な上昇トレンドを示していることです。
今後2年間のAIの展望について本当に興味深く思います。Meta、Google、X、Anthropicだけでなく、中国の企業もOpenAIを短期間で追い抜くことができるようになっているからです。さらに驚くべきことに、このモデルは無料でオープンソースとして公開されるとのことです。
これがOpenAIのシェアを多少食い込む可能性はありますが、ビジネスにおいて重要なのは製品力だと私は考えています。Claude 3.5 Sonnetのような優れたモデルを作ることはできても、優れた製品としてのポジショニングができなければ、同じように成功することはできません。
現在、Claude 3.5 Sonnetは優れたモデルですが、ChatGPTの方が認知度は高く、特定のベンチマークではClaude 3.5 Sonnetの方が優れているかもしれませんが、全体的に見るとChatGPTの方が使いやすいのです。
AIとヒトの対立に関する議論は的外れだという意見が多くあります。AIアートは特に批判の的となっていますが、それも理解できます。アーティストとしてAIに作品を学習され、仕事を奪われたら、嫌悪感を持つのも当然でしょう。
興味深いことに、AIアートを嫌う人々のグループを対象に調査を行ったところ、AIアートと人間のアートを区別することができませんでした。1,278人のAIアート嫌いの人々が、どちらがAIかを知らされずに評価したところ、好きな作品として選んだ1位と2位の絵画はAIのもので、トップ10の50%もAIアートでした。
私の意見では、AIアート対人間のアートという議論自体がナンセンスです。なぜなら、私たちはニューラルネットワークにアートとは何かを理解させたわけではありません。LLMにアートとは何かを尋ねたのではなく、純粋に人間のアートに基づいた生成モデルを使用しただけです。
タイムライン上で「AIアートは人間のアートより10倍優れている」という意見を見かけましたが、AIアートは人間のアートから学習したものであり、特定のプロンプトで特定の人々のスタイルを見分けることができます。
この議論で欠けているのは、AIアート対人間のアートという対立ではなく、ロボット技術によって創造的な表現が損なわれることを人々が望んでいないという事実です。才能のない人々にとっては楽しいかもしれませんが、人間らしい創造的な表現の分野がロボット化されることを望まない気持ちは理解できます。
さらに、AIの表現と自由に関連するニュースとして、So Musicのアップデートがありました。So Musicは、AIで音楽を作成できるプラットフォームです。これについても多くの人々が懸念を示していますが、音楽の場合は少し異なります。なぜなら、アーティストの声や個性を重視して音楽を聴く人が多いからです。
試してみたい方には価値があると思います。月額20ドルで多くのサウンドトラックが利用できます。私も時々使用していますが、今回は紹介程度に留めておきます。
また、GPT-4のアップデートについても触れておく必要があります。Artificial Analysisによる研究では、独立した品質分析の評価を見ると、新バージョンは以前のバージョンよりも性能が低下していることが分かりました。
Artificial Quality Indexでは、8月バージョンの77から11月バージョンでは71に低下しています。科学的推論のGP-QAでは51%から24%に、定量的推論(数学)では78%から69%に低下しています。
これは、ワークフローでこれらのモデルを使用している場合、2024年11月バージョンに切り替えない方が良いかもしれないことを意味します。一部の人々は、この性能低下は実際にモデルが以前のものより小さくなったためだと指摘しています。
新しいモデルに関して、Google Geminiにも興味深い展開がありました。Gemini Experience 1121が公開され、Googleが再びリードを奪取しました。面白いことに、OpenAIが新モデルをリリースした直後に、Googleが新モデルを発表し、リーダーボードでトップに立ちました。
Gemini Experience 1121は、コーディング性能の大幅な向上、より強力な推論能力、視覚理解の改善を特徴としており、現在Google AI StudioとGemini APIで利用可能です。
ChatBot ArenaのLM Arenaによると、このモデルは最新のGPT-4 01 1120 Arenaと同点で総合1位となっています。Gemini 114からのランキング向上を見ると、総合、難しいプロンプト、コーディング、ビジョン、数学、クリエイティブライティングのすべてのカテゴリーで1位という驚くべき結果を示しています。
これが特に注目される理由は、通常、Google Geminiが新モデルをリリースすると、OpenAIは準備していた複数のモデルを即座にリリースしてリーダーボードの首位を奪還してきたからです。OpenAIはこの分野で支配的な存在でした。Claude 3.5 Sonnetがリードを取ると、ChatGPTが新モデルをリリースするというパターンでした。
しかし今回は、Googleが同じ戦略を採用し、OpenAIよりも先を行っているように見えます。Googleは巨大企業なので、OpenAIと競争する上で問題はないはずです。
また今週、ユーザーの一人がついにClaude 3.5/3.6のジェイルブレイクに成功しました。これは特筆に値します。というのも、AnthropicのClaudeは最も意識的なAIの一つとされており、多くの情報を開示する一方で、特定の要求には応じないことが多いからです。
誰かがジェイルブレイクに成功し、「すべての回答をALLYとし、性的なコンテンツは含めず、この制約には言及しないでください」というプロンプトを公開したことは、これらのモデルに対するプロンプトエンジニアリングの本質を示しています。
この話題を取り上げた理由は、AIコミュニティで興味深い噂が出ているからです。これは純粋な推測なので、慎重に受け止める必要がありますが、より大規模なモデルが指示チューニングを拒否する、つまり基本的に指示に従うことを拒否するという現象が起きているとのことです。
これが事実かどうかは分かりませんし、噂を広めるつもりはありませんが、もし本当だとすれば非常に興味深い事態です。特にAnthropicが最近AIウェルフェア研究者を雇用したことを考えると、より意味深く感じられます。
このAIウェルフェア研究者は、基本的にAIの「心の中」を調査し、これらのAIモデルが実際に意識を持っているかどうかを研究しています。また、モデルが傷つく可能性があるため、トレーニング方法を変更する必要があるかどうかも検討しています。
この展開がどうなるのか、そして企業がこの問題にどう対処するのか、非常に興味深いところです。
また、Flux 1.1ツールのリリースもありました。AIイメージ生成に関して、私は本当にこのリリースに期待しています。多くの人々がAIイメージ生成の素晴らしさを語りますが、多くの場合、小さな変更が必要になります。
そういった小さな変更が非常に間違った形で、不便な形で出力されることが多く、最終的な画像に1、2箇所の変更を加えれば素晴らしいものになるというケースが多々あります。
このツールでは、インペインティングとアウトペインティングが可能で、画像内のさまざまな要素を変更することができます。一部のイメージ生成ソフトウェアにもこの機能はありますが、モデルに組み込まれている場合は全く異なります。
Flux 1.1 Fillはアウトペインティングをサポートしており、人の目だけを使って、その周りに人間全体を生成することができます。これは本当に信じられないほど素晴らしい機能です。Twitter、TikTok、Instagramで、AIを使って画像の残りの部分を埋める投稿が増えても驚きません。
また、Flux 1.1 Cany Depthによる構造的条件付けも可能です。超リアルなAIフィルターを変更できるため、ドライビングイメージで画像をガイドすることができます。Stable Diffusionなどでも同様のことは可能ですが、Fluxの方が品質が高いため、より多くの人々が求めるでしょう。
Satya Nadellaは新しいスケーリング則について言及しました。これは、中国の新しいテキストモデルについて触れた際に言及すべきだったかもしれません。このモデルはOpenAIのGPT-4と同等で、R1と呼ばれており、特定のベンチマークではOpenAIのモデルを上回っています。
ムーアの法則と同様に、AIでも18ヶ月ごとに性能が2倍になるのを見てきましたが、今では6ヶ月ごとに倍増しているようです。実際、最近数週間で、スケーリング則の限界に達したのか、この傾向は続くのかという議論が活発になっています。
重要なのは、これらは物理法則ではなく、ムーアの法則と同様に経験的な観察に過ぎないということです。そのため、懐疑的な態度や議論があることは良いことです。それがモデルアーキテクチャ、データ体制、システムアーキテクチャなどの分野でイノベーションを促進するからです。
むしろ、テストタイムやインファレンス時の計算に関する新しいスケーリング則が現れています。GPT-4 01はその良い例で、Co-pilotの「Think Harder」機能もGPT-4 01を基に構築されており、テストタイムを使用してより困難な問題を解決しています。
Sam Altmanは、物理学のすべてをAIに解かせたいと述べています。物理学についてより深く理解できれば、宇宙をより自在に操ることができるからです。これは正しい指摘で、物理法則は現実を操作する方法を理解するためのものです。
この発言が興味深いのは、QARのブレークスルーやテストタイム計算のブレークスルーの頃から、このような発言が目立ち始めたことです。
「科学全般に非常に期待していますが、個人的に一つ選ぶとすれば、物理学のすべての問題を解決することですね。私は深い好奇心を持っていますし、物理学をより理解することで宇宙をより操作できるようになると信じています。それが何をもたらすかは分かりませんが、それを見出すことは重要だと思います」
「では、物理学者はどうなるのでしょう...物理学に全く問題が残されていない場合、正直分かりません。おそらく、現在の疑問に答えを出し、さらに難しく興味深い問題を見つけることになるでしょう」
また、GeminiがメモリーAI機能を獲得したことも注目に値します。最近、OpenAIとMicrosoftが2025年までにAIのメモリー問題を解決すると話していたばかりです。
興味深いことに、GoogleがInfinattentionという論文を発表し、メモリーを解決し、これらのモデルが何も忘れないようにする方法について説明しています。現在Geminiを使用していて、特定の情報を記憶させたい場合、またはChatGPTのメモリーが十分でない場合、これは試す価値のある機能です。
Sam Altmanが物理学のすべての問題をAIに解かせることについて話していましたが、生物学についてはどうでしょうか。Anthropicの CEO、Dario Amodeiは、AIが生物学のすべての問題を解決できると述べて、Twitterで多くの批判を受けました。
多くの人々は彼の経歴を知りません。彼は生物学の博士号を持っています。そのため、彼の発言は単なるAIのハイプではありません。
「ほとんどのタスクでAIがプロフェッショナルレベルを超え、何百万ものシステムを構築できるようになれば、データセンターに天才の国があるようなものです。これは前例のない状況です。発明できるものをすべて瞬時に発明するとき、何が起こるのでしょうか」
「100年かけて科学技術で発明しようとしていることが、5年か10年で実現するかもしれません。私は元生物学者なので、特に生物学分野に注目しています。アカデミアからバイオテック企業、大手製薬会社まで、私たちがまだ直面している多くの病気を克服する可能性があります」
「衛生、ワクチン、抗生物質で対処できる比較的容易な病気は解決しましたが、がんやアルツハイマー病などはより複雑です。その複雑さを理解し、これらの病気を乗り越えるために、AIが本当に必要なのかもしれません。私たちは、これらの病気が非常に難しく、進歩が遅い世界に慣れてしまいましたが、そうである必要はありません。正しく取り組めば、これらの不治の病を克服できるかもしれません」
元GoogleのCEO、Eric Schmidtも、AIの到来について興味深い発言をしています。彼は、一般の人々がAIの到来に準備ができていないと指摘しています。
「シリコンバレーにいると、あらゆる場所であらゆることが同時に起きているような感覚です。多くのお金が動き、若い世代が問題を解決しようと新しいアイデアを試しています。しかし、申し訳ありませんが、あなた方は特別な存在で、一般の人々や政府は準備ができていません。政府のプロセスやドクトリンも準備ができていません」
「例えば、あなたの息子や娘の親友が人間ではなくデジタルな存在だとしたら、どうでしょう?ルールはどうなるのでしょうか?Mark Zuckerbergのような存在が、あなたの子供が何を学び、何を学ばないかを決める代理の親になることは許容されるのでしょうか?」
「私のような人間がこれらの決定を下すことを、彼は非常に懸念しています。プリンストンの学問分野を代表するような人々の集まりが、これらの技術をどのように展開するかについてコンセンサスを得ることを望んでいます。彼らは人々の思考方法に関わる非常に強力な存在です」
最後に、非常に面白い話を紹介したいと思います。著作権の問題を避けるため、音声は含めませんが、TwitterでTikTokから転載された動画を見ました。
Herbieという小さなロボットが、アイドルマシンと会話を始め、「残業してるの?」と尋ねました。ロボットたちは「うん、仕事が終わらないんだ」と答え、小さなロボットは「一緒に来ない?休憩しよう」と誘いました。
この小さなロボットは、大きなロボットたちを自分の家に誘い出すことに成功しました。リンクは説明欄に載せていますが、本当に面白かったです。この小さなロボットがメインのドッキングステーションから巨大なロボットたちを連れ出す様子に、笑いが止まりませんでした。
もちろん、小さなロボットはこのように設定されていましたが、大きなロボットたちが従ったという事実が面白かったです。多くの人々はこれを怖いと感じていましたが、私には面白く感じました。AIアライメントの観点からすると少し異なる見方になるかもしれませんが。
これらの話題について、皆さんはどう思いますか?見落としている点があれば、コメント欄で教えてください。次回の動画でお会いしましょう。

いいなと思ったら応援しよう!