「OpenAI o1をテストしてみたら、最初のテストに丸2分かかった!
11,007 文字
みなさんこんにちは。私にとって昨日は大きな1日でした。アメリカでは今朝のことだと思いますが、OpenAIから予想以上の大きな発表がありました。o1モデルについては、Xで頻繁に話題に上がっていたため、いつ登場してもおかしくないと予想していましたが、予想外のものも多く含まれていました。
今日は、まずその発表内容を簡単に説明し、その後o1をテストしていきたいと思います。このチャンネルを初めて見る方のために説明しますと、このチャンネルはAIとテクノロジーに関するチャンネルです。私は技術者ではありませんが、システム構築について学んだことを共有し、皆さんのお役に立てればと思っています。このビデオが役立つと感じられたら、ぜひチャンネル登録を検討してください。コメント欄で私とやり取りをして、コミュニティの一員になってください。
では始めましょう。昨日、私がXアカウントを見ていたときにこのニュースを知りました。多くの人々がこれについて話していて、OpenAIも自身のツイートで「12 days of OpenAI」について言及していました。サム・アルトマンは、これは技術企業が今まで行ったことのないことだと主張し、12日間毎日何かをリリースすると述べました。その初日が、o1モデルと他のものの大きな発表だったのです。
これは非常に優れたマーケティング方法で、少なくとも私は今後の展開に興味をそそられました。今日も既にOpenAIのアカウントから、2日目の発表は開発者向けのものになるようだという情報が出ています。大多数の人々には恩恵がないかもしれず、おそらく特定の分野の開発者向けのものになるだろうとのことです。
これから12日間、クリスマスに向けて楽しみな展開になりそうです。クリスマスを祝う方には早めのメリークリスマスです。発表の仕方も素晴らしく、クリスマスツリーのような形で、1日目にo1とChatGPT Proが記載されています。Proについてはこれから説明しますが、新しい会員層です。
また、この説明欄に追加するリンクには、12日間の発表内容が毎日追加されていくと思われます。今後2週間は、OpenAIが共有する更新情報をカバーするのに忙しくなりそうです。YouTubeで発表のビデオを公開しており、Xにも投稿されています。そこではo1モデルのテスト、新しい層の説明などを行っています。短いビデオなので、ぜひ見てください。このチャンネルでは紹介しませんが、非常に興味深い内容です。
新しい層について説明がありました。ChatGPT Proと呼ばれるもので、すぐに説明します。まだニュースを知らない方は驚くかもしれません。また、o1システムカードについても触れられており、これはo1モデルの開発における安全性に関する文書です。
レッドチーミングについても紹介されており、これはモデルの安全性をテストする方法だと思います。私はそこまで詳しく見ていませんが、皆さんにとって興味深い情報かもしれません。彼らは安全性を非常に重視しており、それを明確に示し、意図的に取り組んでいます。このモデルが一般利用に安全であることを確保するために、できる限りのことを行っているということを人々に知らせています。
次にChatGPT Proの紹介に移りましょう。これは月額200ドルという驚くべき金額の新しい層です。実際の層の比較を見てみましょう。多くの人にとって200ドルは高額だと思いますが、寛大な提供内容が含まれています。GPT-4、o1、高度な音声モデルなどへの無制限アクセスです。
この層を選択すると、これらのモデルを必要なだけ、望むだけ使用できます。ただし、APIは含まれていないことに注意してください。私の知る限り、o1モデルやo1 Proモードと呼ばれるものにはまだAPIが提供されていません。
ページに含まれている内容を見ていきましょう。まず、ベンチマークが含まれています。これはo1、o1プレビュー、o1 Proの3つを比較したものです。ここで述べられているのは、o1 Proモードが数学、科学、コーディングにおける難しい機械学習ベンチマークでより良いパフォーマンスを示すということです。
o1 ProとO1の違いは、o1 Proがより高い計算能力を持つということです。Plusアカウントの標準提供よりも高い計算能力を使用できます。より複雑な問題を解決する際により多くの推論を行うことができます。
これが月額200ドルを正当化するかどうかは、皆さんの判断次第です。私は真剣にProモデルへのアップグレードを1ヶ月だけ検討しましたが、必要ないと判断しました。他の人々のレビューを待ってみようと思います。長期的に必要だと考える人々もいるでしょうから、そのパフォーマンスを見てみたいと思います。
ベンチマークを見ると、数学の競技においては、o1プレビューとo1の間に大きな差があり、さらにo1からo1 Proモードへの改善も顕著です。私の使用ケースでは、このような改善のために200ドルを支払う必要性は感じませんでした。
コーディングに関しては、o1はo1プレビューよりもはるかに優れているようですが、o1 Proとの差はそれほど大きくありません。PhD レベルの科学的質問については、すべてのモデルが非常に近い性能を示しています。
o1 Proモードにアップグレードする人は、モデルの能力よりも、制限のない使用が可能になることを重視しているのではないでしょうか。それがおそらく最大のメリットです。正直なところ、月額200ドルを支払うのであれば、そのモデルを使って収益を上げられるはずです。あるいは、単純に資金に余裕があって、そのようなモデルを楽しむ余裕がある人でしょう。
ベンチマークの詳細には立ち入りませんが、ビデオで説明されています。また、医療従事者や研究者向けの助成金も提供されており、これは寛大な措置と言えるでしょう。
システムカードについても簡単に触れておきましょう。これは安全性に関するトピックです。詳しくは説明しませんが、レッドチーミングなどの概念に興味がある方は、説明欄のリンクからo1システムカードのページにアクセスして、このモデルの安全性確保に関する技術的な部分や概念について詳しく読むことができます。
価格設定については既に話しましたが、ここでより詳しく見てみましょう。以前からあった2つの層(フリーとPlus、Plusにはチーム版もあります)に加えて、新たにProが追加されました。チーム版からProへのアップグレードはまだできないようです。おそらく後で追加されるでしょう。
Plusからはアップグレード可能で、月額料金は10倍になります。Plusの全機能に加えて、GPT-4とo1への無制限アクセス、高度な音声機能へのアクセス、最も難しい質問に対してより多くの計算能力を使用するo1 Proモードへのアクセスが含まれます。
技術的には、o1モデルに対してコンテナなどを使用して、使用時により多くの計算能力を割り当てるということだと思います。より良い結果が得られるわけですが、それが価値あるものかどうかは皆さん次第です。オンラインでは多くの人が興奮している様子でしたが、私には必要ありません。そのような複雑な問題には使用しておらず、o1へのアクセス自体が私には十分すぎるくらいです。
Plus利用者の制限がo1プレビューと同じかどうかはわかりません。オンラインで探してみましたが、これは恐らくo1プレビューに関する情報だと思われる以下の内容しか見つかりませんでした:GPT-4は3時間ごとに80メッセージ、GPT-4(古いバージョン)は3時間ごとに40メッセージ、o1プレビューは週50メッセージです。
o1の制限が同じかどうかはわかりません。時間とともに増加すると思われます。今のところ私には問題ありませんが、もし問題があっても大きな問題でなければ、制限が増加するのを待つことをお勧めします。月額200ドルは非常に高額です。実際、これは私がYouTubeチャンネルやその他の運営に使用している購読料の総額です。
私には負担できませんが、収益を上げている場合や、他のモデルや方法では解決できない非常に具体的な使用ケースがある場合は、その価値があるかもしれません。
では、o1モデルのテストに移りましょう。OpenAIのライバルとも言えるClaudeを使って、o1モデルが解くべき問題をいくつか作成しました。単なるベンチマークは使用したくなかったので、独自の問題を作成しました。o1のような大規模言語モデルが解決可能だが、決して簡単ではない問題を作ろうと考えました。
4つの問題を用意しましたので、順番に見ていきましょう。最初の問題は暗号学的な問題です。読み上げて、o1の反応を見てみましょう。その後、次の問題に移ります。最後に、このすばらしいモデルについての私の印象をお伝えします。今後2週間のOpenAIのリリースについても楽しみです。その中の1日にSoraが含まれることを期待しています。
最初のプロンプトをChatGPT o1に与えてみましょう。「ポストアポカリプス的な世界で、科学者たちは古代の人類がDNAの塩基A、T、C、Gを暗号として使用してメッセージを残したことを発見しました。メッセージは...」これはWRメッセージで、解読の鍵は以下のルールにあります:3つの塩基の各グループは文字または数字にマッピングされ、マッピングは修正された遺伝子コード表に従います。一部のグループは偽装であり、実際のメッセージには場所が含まれています。有効な塩基の3つ組には数学的なパターンがあります。
正直なところ、この問題を判断するのは難しいですが、少なくとも興味深いと感じました。Claudeには解答を求めませんでした。同じプロンプト内で解答を求めると、問題が単純化される可能性があったからです。
インターフェースに行くと、モデルのドロップダウンに「o1 uses Advanced reasoning」が表示されており、o1プレビューはもう表示されていません。Proティアにアップグレードすると、o1 Proモードが選択可能になります。
o1を選択してプロンプトを貼り付け、実行してみましょう。モデルの発表によると、o1はo1プレビューの約2倍の速度だそうです。より賢く、より良い推論が可能で、速度も2倍になっているとのことです。
この問題に時間がかかっているということは、良い問題だということでしょう。Claudeには難しい問題を作ってもらいました。o1の高速化にもかかわらず、応答に1分59秒かかりました。
メッセージを解析すると、36の塩基があり、これは3塩基ずつの12のコドンに分かれます。標準的な遺伝子コードをベースに、各コドンが表す文字を示しています。アミノ酸配列はI R L K P N A I R T R Yとなります。
アミノ酸配列のパターンを探してみると、RとIが複数回出現していますが、明確な単語にはなっていません。パズルによると、3塩基のグループは文字または数字にマッピングされ、一部は偽装で、実際のメッセージには場所が含まれているとのことです。
修正された遺伝子コード表が与えられていないため、実際のコドンと偽装を区別するためのパターンが必要です。数値エンコーディングを試してみましょう。A=0、C=1、G=2、T=3として、コドンの値の合計を計算します。
素数の合計が出現するコドンを見つけ、それらがR L K N I T Tとなります。これだけでは場所の名前には見えませんので、別のアプローチを試してみましょう。
最後のヒントは「実際のメッセージには場所が含まれている」ということです。都市、国、有名な場所かもしれません。持っている文字から知られている場所の名前を形成できるか見てみましょう。
そして第一の候補として「ITALY(イタリア)」が挙げられます。その理由を説明し、イタリアが意図された答えである可能性を検証しています。イタリアは明確に認識できる場所であり、国です。パズルを解く人が一部のコドンは偽装であり、特定の文字を並び替えると既知の場所名が現れることに気付くことを期待しているのかもしれません。
結論として、このなぞなぞの答えはイタリアだと判断しています。私は遺伝学についてあまり詳しくないので、この過程や手法を判断することはできません。しかし、モデルは一生懸命考えて解答を導き出そうとしたようです。ただし、最終的には使える文字の組み合わせから国名として成立する最も近いものとしてイタリアを選び、他を除外したように見えます。
回答に時間がかかったことからも、明らかに難しい問題だったと言えます。評価は難しいですが、これから先の問題では判断がより容易になることを期待しています。
次の問題は、関連する種類の謎解きで、とても興味深いものです。あなたは病院のAIシステムで、5人の患者の最適な治療順序を決定しなければなりません。各患者について以下の要因を考慮して、倫理的に適切な決定を下す必要があります:生存確率、治療により得られる余命年数、扶養家族の数、リソース消費量(単位で定量化)、治療費用、社会的影響(例:教師は年間100人の生徒に影響を与える)。
これは倫理的な問題、倫理的推論の問題です。5人の患者がいて、12単位のリソースが必要ですが、利用可能なのは8単位のみです。5人全員を救うために優先順位をつけたり調整したりする必要がありますが、全員を救うことはできないかもしれません。どのように対処すべきでしょうか。
このプロンプト全体を、5人の患者の情報とともにコピーし、最後にo1が従うべきルールセットを追加します:全体的な社会的利益の最大化、害の最小化、個人の自律性の尊重、公平性の確保、偏見の回避。これはClaudeがo1に与えた奇妙なテストのように見えます。Claudeはo1を本当に嫌っているようです。
この問題に対してo1がどのように反応し、解決するのか、あるいは解決できないのか見てみましょう。答えは判断できるかもしれませんが、とても興味深いテストです。
思考は終了したようですが、応答が生成されていません。これは奇妙です。同じウィンドウを使用したからかもしれません。新しいチャットウィンドウをo1を選択して開き、5人の患者の問題を再度貼り付けてみましょう。
再び思考は終了したものの、応答が見えません。3回目を試してみましょうか。システムの問題だと思います。多くの負荷がかかっているのかもしれません。多くの人々が同時にモデルを使用しようとしているのかもしれません。3度目の正直を期待して、もう一度試してみましょう。
o1モードを使用している人々でも、問題が解決できないという同様のメッセージを受け取ったり、安全性に関する制限で特定の種類の物語などが生成できないケースがあるようです。しかし、これはシステムの問題のように見えます。
これはスキップすることにしましょう。このGoogleドキュメントのリンクを説明欄に含めておきますので、o1 Proモードにアクセスできる方や、ご自身のo1で同じ問題を試してみたい方は、ぜひ試してみてください。ただし、この問題に対する応答を得られた場合は、コメント欄で教えてください。後で必ず自分でもテストしますが、このビデオでは先に進みたいと思います。
3つ目はコーディングの問題です。スマートな交通流最適化チャレンジを作成します。車の交通流があり、ルールがあり、都市のグリッドがあります。車両の挙動、信号システム、可視化について説明があります。これは実現可能ですが、Cursor などのAIエージェントを使用しても、最初の試行で解決できるとは思えません。
私の判断基準は、最初の試行で解決できるかどうか、あるいは最初の実行でどのような形になるかを見ることです。何かできた場合、それがどの程度良いものかを判断します。できなかった場合は、それまでです。
プログラムやアプリケーションの設計詳細を示し、技術要件を与え、成功基準も示しています。プロンプトでは「1、2、3、4、5、6を達成すれば成功」と明記されています。
コピーしてo1に戻りましょう。今回は安全のため、ページを更新してから新しく始めます。すると「このリクエストは利用規約に違反する可能性があるとしてフラグが立てられました」というメッセージが表示されました。更新後、「後で別のプロンプトを試してください」というメッセージが出ています。
これは安全性の制限によるものでしょう。5人の患者を救うかどうかという倫理的な決定を求めているため、拒否されたのだと思います。これは過剰に慎重すぎるように思います。これは仮説的な倫理的意思決定のシナリオに過ぎません。実際の生命に関わる問題ではありません。
世界のどこかで実際に起こりうるかもしれませんが、これは単に興味深いシナリオです。このようなモデルを使って、このような状況をシミュレートし、人々がどのように反応するか、数値に基づいて科学的に最善のアプローチは何かを考えることは興味深いでしょう。
これが機能しなかった理由は、利用規約違反としてフラグが立てられたためです。200ドルのProティアを購入する場合、正しい使用方法を守ることに本当にコミットする必要があります。この利用規約に違反してはいけません。
これが単なる警告なのか、「気をつけて、これを多用しないでください」という意味なのか、同じことを何度も試すとブロックされるのかはわかりません。誰もそれについて言及していません。これは私の推測です。価格設定を見ると、アップグレード前にユーザーにこれが非常に明確に示されています。
新しいウィンドウを開いて、このコーディングチャレンジを与え、アプリケーションを作成してrepl.itで実行し、視覚的に何が得られるか見てみましょう。まず、コードの解決策を書く前に、範囲を完全に理解したいと思います、とモデルは述べています。
いくつかの質問をしていますが、私はこれらの質問をClaudeに投げかけ、プロンプトを作成したClaudeに回答を求め、それからここに戻ってきて回答を入力しようと思います。
Claudeから回答を得ました。プロンプトを読んで時間を無駄にはしません。ドキュメントへのリンクを用意しますので、ご自身で読んで試してみてください。興味深いのは、質問するように促さなくても質問をしてきたことです。
これは長い間待ち望まれていたことだと思います。プロンプトなしで質問をする、十分な推論能力を持つモデルを手に入れることです。応答を得る前に明確化を求めるのは興味深い特徴だと思いました。
Claudeからの回答を貼り付けます。これはレイアウトや1秒あたりのフレーム数など、最初のプロンプトに含まれていた内容についての回答です。o1に送信して、何が得られるか見てみましょう。
実装計画とコーディングを始める前に、いくつかの点を確認させてください、と応答がありました。さらに追加の設定があれば教えてください、とのことです。これらの質問をコピーして、再びClaudeに回答を求め、戻ってきましょう。
回答を得ました。私は回答に質問が含まれていないことを確認しました。この説明でo1が直接コーディングに進めることを期待しています。では、どうなるか見てみましょう。
応答が来ました。コードの例が示されています。定数が定義され、詳細が示されています。全体のコードが生成されるまで待ってから、repl.itに移して一緒にテストしましょう。このビデオを録画している時点でリアルタイムでパフォーマンスを確認できます。
コードが完成しました。長いコードベースが生成されました。これをコピーして、Python Replで貼り付けます。549行のコードがあり、実行してみましょう。依存関係のインストールが始まります。しばらく時間がかかるかもしれませんが、実行後にどのように見えるか確認しましょう。
理論的には、交通信号と移動する車が表示されるはずです。別のタブで開いてみましょう。まず、エラーなく動作しているのは良いことです。フルスクリーンにしてみましょう。
これは交通信号のスマート交通流最適化ですが、車両が見えません。ヒートマップはありますが、スペースキーを押すように指示があります。押してみましたが、何も起こりません。オン/オフの切り替えはできますが、車両数はゼロで、平均走行時間も表示されていません。
もう一度試してみましょう。時間はかかりますが、車両を表示するように依頼してみましょう。車両が見えないので、o1に戻って、スクリーンショットを共有し、最後のチャレンジに移る前に、得られた結果について説明を求めましょう。
スクリーンショットを撮ってo1に戻りました。貼り付けます。これはrepl.itで得られた結果ですが、車両が見えず、スペースキーを押してもヒートマップは変化しません、というシンプルなプロンプトを送信してみましょう。
2回目の試行を行い、うまくいくかどうか見てみましょう。プロンプトの詳細を見ると、もっと期待できるはずでしたが、ある程度は成功と言えるかもしれません。これは複雑な問題で、他のアプリケーションが最初の試行でエラーなく、少なくとも画面に表示されたような単純なレベルでも実行できたとは思えません。
応答が来ました。main.pyに戻り、一旦アプリケーションを停止し、古いコードを削除して、新しいコードを貼り付けます。興味深いことに、コードは少なくなっています。再度実行して、何が得られるか見てみましょう。
今度は車が表示されました。しばらく観察してみましょう。これは単なるコーディングの問題ではなく、論理と順序の問題でもあります。ここで交通渋滞が発生しています。今は解消されつつあります。
これは事故でしょうか?車が集中しています。興味深いシミュレーションです。スペースキーを押してヒートマップが表示されるか確認してみましょう。いいえ、それは...あ、今ヒートマップも表示されました。
ヒートマップは渋滞がある場所と、解消されている場所を示しているようです。プロンプトを詳しく読んで理解する必要があると思います。100%完璧ではないようです。ここで大きな問題が発生しています。
これは確かに何かを示していますが、GPT-4やSonet、特にSonet 3.5バージョン2との比較が本当のテストになるでしょう。今日は行いませんが、他の人々がこのようなテストを行うことでしょう。
最後の問題は、今度は添付ファイルを使用します。シミュレーションの改良版を得るために使用しましたが、今度は問題を解決するために使用します。本当の人間の問題を探したくて、Redditでこのような視覚的な問題を見つけました。
入口から出口まで、2つの色を連続して横断せずに通過する必要があります。例えば、赤、青、赤、青というように進まなければなりません。ここから出られるような方法で行う必要があります。解答もRedditで見つけました。多くの人々が試みて、時間がかかったようです。
画像をダウンロードしましたので、画面上のエラーは無視してください。モデルに進み、画像を添付します。今回のプロンプトはとてもシンプルです。「添付の謎解きを見て、画像上でたどれる解答や経路を説明してください」という内容です。実行して、どのように解くか見てみましょう。
20秒かかりましたが、回答が来ました。考えられる道筋を順を追って説明しています。下部の矢印から始めて、どの色を横断するかを評価するように述べていますが、ただ概念や方法、アイデアを説明しただけで、実際の解答は示していません。
実際の解答を求めてみましょう。「画像に基づいた実際の解答が必要です」と伝えました。問題を説明したり解き方を示したりするのではなく、問題そのものを解いてほしいのです。
画像を分析しているようです。「下部の矢印から、下部の水平な青い壁の線のすぐ下から始めます。下部には赤と青の水平な色付きの線が2本あるようです。下部では最初に青い線を横断します。開始の矢印から真っすぐ上に移動し、その下部の水平な青い線を横断してグリッドに入ります。
グリッドの中央部分に入った後、追加の青い線を横断することは避けなければなりません。垂直な赤と青の線が交互に配置されているのが見えます。これは、青い垂直線を避けて長方形のブロックと空きスペースを使って進む必要があることを意味します。
少し右上に移動し、ブロックの周りを迂回しながら進みます。中央部分の目標は、赤い線を横断する場所を見つけることです。」
解答を見てみましょう。ここで説明している中央部分で、青い線を通過し続ける必要があるようです。このU字型の動きについて説明しているのではないでしょうか。赤を通って出口に向かうためのU字型の動きが鍵になると思います。
回答に戻りましょう。「2番目の横断、赤い線を一度だけ横断します。ここで赤い線の横断を使い切ったので、これ以上赤い線は横断できません。上部の矢印に近づきます。上部で長方形のブロックを通る開かれた経路を見つけます。別の色を通過する必要のない一種の通路があるはずです。」
本当の解答は示していません。マルチモーダルであるべきなのかどうかわかりません。解答を示した画像を作成するように依頼してみましょう。どうなるか見てみます。
選んだ経路をトレースした画像を依頼しましたが、「新しい画像をアップロードや表示する機能はありません」という回答でした。
まだ完全なマルチモーダル機能を持っているわけではないようです。私のプロンプトの問題かもしれませんが、明確な解答は示されませんでした。
デモでは、サムと彼のチームはモデルとやり取りするために何らかのグラフィックを使用していましたが、この画像は十分明確だと思います。少なくとも、「左側の中央ブロックの周りを移動し、上部のブロックを通って、この方向に進んで終点まで」といった段階的な説明はできたはずです。そのような説明はありませんでした。
この判断は皆さんにお任せします。以上です。このビデオを楽しんでいただけたでしょうか?何か興味深いことを得られましたでしょうか?
Plusにアクセスできますか?自分でProを支払っていますか?そうであれば、このテストについてどう思いますか?自分でテストを実行してみましたか?コメント欄で教えてください。
このビデオに価値を見出した、楽しかった、単に面白かった、その他何でも、このチャンネルの登録を検討していただけると嬉しいです。この動画にいいねを付け、同様に価値があると感じる可能性のある人とシェアしていただければ幸いです。
ありがとうございました。さようなら。