OpenAIの最後の6日間、o3で締めくくられる!!!! 重要なAIアップデート!

2024年12月22日 06:20

10,783 文字

みなさん、こんにちは。今日は12日間のOpenAIの最後の6日間をまとめて一本の動画でお届けしたいと思います。最初の6日間は重厚な内容でしたが、その後はOpenAIが投下した小さいながらも素晴らしい製品や機能、アップデートの数々でした。しかし最終日は最大の投下があり、人々は最後の日に何か大きなものが保留されていると予想していました。それがo3モデルの発表です。ここでは手短に振り返り、最後にo3について話し、OpenAIのサンタが最後の6日間に私たちに何をもたらしたのかを見ていきましょう。
この動画を楽しんでいただけたら、ぜひチャンネル登録をお願いします。それでは始めましょう。パパのチャンネルを登録してマイクをください。
OpenAIが投下したものを全て一箇所で見たい場合は、open.com/12-dayにアクセスしてください。これは12日間のOpenAIのサイトで、ここで12日目から1日目まで遡って見ることができます。これは、OpenAIが投下したトピックについて自分で読みたい方のための参考情報です。
特定の順序ではなく、動画の流れに沿って話を進めていきましょう。まず、私の好きなトピックの一つであるファインチューニングから始めます。これまでは教師あり学習のファインチューニングがありました。私もファインチューニングについていくつか動画を作り、自分でも使っています。これは開発者向けの機能かもしれませんが、OpenAIのファインチューニングは誰でも簡単に従って何かを作れるように設計されていると思います。
特にAPIを通じてOpenAIのモデルを使用していて、期待通りの、あるいは望むようなパフォーマンスが得られない場合、プロンプトの改善を試みますが、ファインチューニングはそのような技術を支援するものです。期待する出力や探しているものにより近い出力を提供するモデルのバージョンを作成できます。
これまでは教師あり学習のファインチューニングだけでしたが、この12日間のOpenAIで2つ追加されました。一つは強化学習のファインチューニング、もう一つは選好ファインチューニングです。現時点では私には強化学習のファインチューニングへのアクセス権がありません。これはより賢いタイプのファインチューニングで、達成したい目標とその目標に向かって測定や追跡する方法をモデルや訓練モデルに与え、求める結果を達成するよう自己訓練を行います。他のタイプのファインチューニングよりも技術的だと思いますが、AIモデルがデータの準備の多くを行ってくれるので、依然として達成可能で実行可能です。
もう一つは選好ファインチューニングで、私の理解では会話型に特化したものです。これは私がモデルのファインチューニングを好む領域です。以前、基本的に投稿やブログを作成するモデル、私の書き方で書くモデルを作ろうとしましたが、うまくいきませんでした。まるで別物のように読め、自分が書いたものを読んでいるような、確かに私がそのような言語やトーンで書いただろうというものになりませんでした。
教師あり学習のファインチューニングで何度か試みましたが、うまくいきませんでした。選好ファインチューニングはここでより良い仕事をすると思います。基本的な仕組みとして、何かを与える、例えば過去にモデルが私のために生成した投稿を与え、その投稿を自分の言語で書き直し、そのような例を10個用意して、これらの好みに従うようにモデルを訓練やファインチューニングします。OpenAIのデモを見る限り、少数のサンプルで高いパフォーマンスの出力を生成するのが本当に上手いようです。
これについては後でテストして動画を作る予定ですが、これは興味深い機能です。多くの人にとっては重要でないかもしれませんが、AIをより多く使用するようになると、最も細かな詳細においても、実際に期待に沿った方法で動作するようにモデルをファインチューニングしたくなるはずです。これは試して楽しむべきものです。必要がなくても楽しいものです。
OpenAIのドキュメントでファインチューニングにアクセスできますし、APIリファレンスにもアクセスできます。そこで全てについて読むことができます。プロジェクトについても後で見ていきますが、通常、私はそのドキュメントを全てAIモデルに読み込ませます。今ではPlusユーザーであればo1にアクセスでき、ファインチューニングに必要な全てを書いてくれたり、訓練データや検証データなどの準備に必要なものを準備してくれたりします。これは誰でもできると思います。
では、OpenAIのダッシュボードでファインチューニングを見てみましょう。ファインチューニングは2つの方法で行えます。コードを使用する方法と、OpenAIのダッシュボードインターフェースを使用する方法です。ダッシュボードインターフェースに行くと、左側にアシスタント、スレッド、バッチなどの全てのオプションがあり、ファインチューニングのタブがあります。クリックするとこのウィンドウが表示されます。
この段階では、モデルを訓練するために必要なデータをJSONL形式で準備しておく必要があります。その後、モデルのファインチューニングに使用する方法を選択できます。以前は教師あり学習だけでしたが、今は直接選好最適化もあります。これは選好ファインチューニングの直接選好最適化です。選好に基づいて最適化を行います。詳細は全て読むことができますが、両方のオプションがあります。データを用意したら、ここに添付し、ファインチューニングの要件に関する他の修正を行い、ジョブを作成します。完了するとメールで通知が来て、そのモデルをアシスタントやその他の場所で使用し始めることができます。
これも小さなグループの人々にとって非常に興味深いものだと思います。次も同様に、小さなグループの人々、開発に興味のある人々にとって興味深いものです。それはリアルタイムAPIです。3ヶ月前に登場し、興奮しました。電話に接続する動画をいくつか作りました。OpenAI自身がTwilioで作成したテンプレートを使用しています。本当に興味深いものです。
モバイルで利用できる高度な音声モデルアシスタントと同じものが、今はアプリケーションでアクセス可能になりました。さらに改善され、PythonとJavaのSDKを作成し、特定の標準やプロトコルで動作するようにリアルタイムAPIを開発しました。これによりサーバーとの接続や、Wi-Fi経由でデバイスと接続することが可能になります。
私にはこれらのことを行わないかもしれませんが、非常に興味深いです。一部の人々は今、OpenAIがAPIを通じて提供している音声モデルを、デバイスやリモートデバイスで革新的に使用できます。必ずしも直接実行するための処理能力を持っている必要はなく、基本的にコンピュータのような既存のデバイスと接続できます。そして、その高度な音声モデルが利用可能なヘッドセットを持つことができます。
近い将来、Jarvisのような製品が登場するのを見ることになるでしょう。多くの人々が喜ぶ変更だと思います。また、前回私たちが入手したときと比べて、少なくとも私のような人間にとっては、クリーンアップされたと思います。これは全て私のチャンネルについてですが、AIを使用してコーディングしながら、独自にリアルタイムAPIで何かを複製したり構築したりしようとしましたが、それは課題でした。今はSDKがあるので、はるかに簡単かもしれません。
フォークして少し修正するだけのGitリポジトリを使用する以外に、リアルタイムAPIでアプリケーションを構築できるかどうか、試してみるつもりです。リアルタイムAPIに関するこれらのアップグレードには、更新されたドキュメントやOpenAIが投稿したブログを確認する必要のある細かな詳細がありますが、それらはこれらの分野での進歩を助け、将来私たち全員に役立つ可能性のある新しいことを革新し実行する実際の人々を助けるでしょう。
ここで示している全てのリンクは後で説明に追加しますが、リアルタイムAPIの詳細を見て読むことができます。これはWebRTCで、WebRTCを使用してクライアントサイドアプリケーションをリアルタイムAPIに接続できます。WebRTCはリアルタイムアプリケーションを構築するための強力な標準インターフェースのセットです。OpenAIのリアルタイムAPIは、WebRTCピア接続を通じてリアルタイムモデルへの接続をサポートしています。このガイドに従って、リアルタイムAPIへのWebRTC接続の設定方法を学ぶことができます。
これは一つの例で、もう一つあると思います。接続の詳細など、実行が簡単そうです。後で、これらのものを使って素早く構築する方法を示します。コーディングについて何も知らなくても、少なくともモデルにデータを供給し、それに何かをさせる基本的な方法を知っていれば、まだ実行できます。モデルは間違いなく日々賢くなっています。今日直面している、モデルからコードを取得して自分で何かを試みる際の小さな問題は、本当にすぐにもう問題にならなくなるでしょう。
また、リアルタイムのAPIリファレンスにもアクセスできます。ここでは、リアルタイムで何かを開発する際に必要かもしれないアクションや機能、コード行の全ての詳細が、例とコードスニペットと共に提供されています。時間があり、何かを作りたい場合は、AIモデルにコードを求める前に、ここで少し読むことをお勧めします。少なくともロジックを理解でき、本当に分かりやすい方法で説明されています。
もっと技術的で退屈な話から移りましょう。この段階で多くの人を失っていないことを願います。プロジェクトについて話しましょう。プロジェクトは、私が思うに、長い間、あるいはしばらくの間保留されていた機能です。以前は、このプロジェクト機能があるためにClaudeの方をよく使っていました。ナレッジベースを与え、同じテーマについて複数のセッションを開いて、そのプロジェクトのために作成したものについて継続的に作業できました。これは強力なツールで、物事をより整理された状態に保ちます。
では、ChatGPTに移って、プロジェクトを作成しましょう。リアルタイムAPIとファインチューニングのナレッジとして使用する2つの文書を既に用意しています。両方を行うのを助けるプロジェクトを作成し、それを段階的に示していきます。
これがインターフェースで、通常通りのインターフェースがあり、上部にGPTsがあります。下にスクロールすると開いているセッションがあり、プロジェクトと呼ばれる新しいものがあります。既に試しに作成したプロジェクトがいくつかあるのが分かります。新しいプロジェクトを作成しましょう。「Fine tune and realtime voice coding」と呼びましょう。これは、ファインチューニングのデータ作成や、OpenAIのリアルタイム音声に関して作業するかもしれないプロジェクトのいずれかに関連するコーディングをする際に、参照できるプロジェクトです。
プロジェクトを作成すると、これがプロジェクトインターフェースです。拡大して見せましょう。通常のチャットですが、ファイルを追加し、指示を追加することもできます。ファイルから始めましょう。ファイルを追加し、ダウンロードフォルダに移動します。ここに2つの文書があります。追加して開きます。これらは基本的に、APIドキュメントと、OpenAIがファインチューニングとリアルタイムAPIの両方について持っている一般的なドキュメントや記事、ブログからのテキストです。ワード文書に保存してコンピュータに保存し、今はプロジェクトに保存しました。
ここで指示を追加できます。例えば、リアルタイムAPIを扱う際は、説明ではなくコードだけが欲しいというような指示を与えることができます。プロジェクトとの対話方法について指示を与えることができ、セッションの作成を開始すると、これらのセッションは全てここに表示されます。チャットは全て一箇所に表示されます。
これが、ファインチューニングとリアルタイムAPIに関連する全てのことを行うための私の1つのプロジェクトです。物事を整理された状態に保ち、記憶と行っていることの種類に関して、何らかの相関関係やリンクがあると思います。UIとプロジェクトの概念が気に入りました。これは小さいながらも素晴らしい機能です。好みに応じて色分けすることもできます。
コーディング用に青色を選びましょう。少なくともVSCodeの色に似ていると思います。このプロジェクトを作成したので、いつでも戻ってくることができます。ここをスクロールすると、見ることができる2番目のプロジェクトがあり、必要に応じてプロジェクトを削除したり、考えを変えたり、使用を中止したりすることもできます。
数日前に得られた他の素晴らしいものは、アプリとの連携です。アプリとの連携が改善され、より多くのアプリがそのエコシステムやOpenAIの機能の一部となっています。これはもちろん、OpenAIやChatGPTインターフェースのデスクトップバージョンで動作します。ブラウザで操作している場合は使用できません。見てみましょう、試してみましょう。多くの時間は費やしません。ただ、どのように機能するかを示したいと思います。
以前にコーディングでの使用方法について動画を作りましたが、正直に言って、最も滑らかで最高の体験ではありませんでした。今では明らかに、ユーザーフィードバックに基づいて多くの改善が行われています。実際に執筆で試してみましょう。全ての人がコードを書くわけではありませんが、確実に大多数の人々はAIを文章を書くために使用しています。
アプリとの連携では、NotionやNotesにアクセスでき、将来的には他のものも加わって、より良く、より多く書き、より良く計画し、全体的により良いことができるようになることを望んでいます。では、ChatGPTデスクトップアプリに移動して、どのように見えるか確認しましょう。
ここにChatGPTデスクトップアプリがありますが、基本的に同じです。唯一の違いは、下にモデル選択があることです。クリックするとo1、mini、その他の古いモデルを選択でき、インターネット、ファイルの追加を利用できますが、ここに小さなものがあります。これが基本的にアプリとの連携です。
これがChatGPTをアプリに接続し、ChatGPTのモデルを使用してそのアプリで作業を開始できる場所です。少なくとも今のところ、コーディングに関しては、これはChatGPTにアクセスを提供します。例えば、VSCodeを扱っている場合、VSCodeやMacやApple開発用のXcodeにあるものを見て、読み込み、それと対話して、より多くのことを行い、物事を改善するのを手伝うように依頼できます。
多くの人々にとって物事を容易にしています。まだ完璧ではありませんが、確実に非常に興味深いものです。執筆に関しては、これは改善されていますが、良いスタートだと思います。日常的に使用するものではありませんが、特定のニーズに対して多くの人々にとって良い使用例だと確信しています。その一つが執筆です。
Notionデスクトップアプリも開いているので、それでテストしてみましょう。また、ここに興味深いタブがあります。小さなものですが、クリックするとこのようなウィンドウが開き、この機能を使用する際に後で便利になります。
ここでアプリとの連携をクリックし、このプラスボタンをクリックするとNotionに接続されます。クリックしてみましょう。今はNotionと連携しています。ChatGPTデスクトップアプリを通じて直接対話できます。Notionと連携していることが分かります。それは必要ないので、これを最小化します。これは開いたままです。これは良い機能です。
Notionを最小化して、横に表示しています。仮説的なタスクセットとして、屋外プールの清掃を作成しました。基本的にプールを清掃し、排水し、洗剤を使用し、こすり、フィルターを掃除し、再び満たすというものです。基本的に、誰も実際にはやらないことです。毎回そうすれば法外な水道料金になるでしょう。
アプリとの連携を使用してChatGPTがNotionのページにあるものを実際に読み取ることができることを示したいだけです。ここでChatGPTを開きましょう。小さな友達を呼び出し、最小化します。「プールを清掃するためのタスクは適切に構造化されていますか？何を削除または追加すべきですか？」と尋ねてみましょう。
実行をクリックすると、そこにあるものを実際に読み取ることができ、「適切に構造化されています。プール清掃のヒントを改訂しました：プールを排水する際は、近くの場所が浸水しないよう、適切な排水計画を確保してください」と答えています。はい、十分賢くて、そのことに気付いたようです。
Notionにあるものを読み取ることができたのが分かります。これは大きな進歩です。何かを書いている場合、エッセイやブログがあり、ChatGPTにアイデア、フィードバック、コメントを手伝ってもらいたい場合、今ではデスクトップでそれができます。超強力というわけではありませんが、一部の人々には役立つかもしれません。執筆に関しては、私はまだこれらのことをCanvasで行うでしょうが、コーディングに関しては、他のことについては、間違いなく人々はこれを喜んで使用し、試すでしょう。
これは、機能や能力に関してはるかに発展したものへの道のりの一歩に過ぎないと思います。これはクラウド上のものではなく、実際にデスクトップ上のコンピュータアプリと対話できるものです。大きな可能性を秘めています。Anthropicによるコンピュータの使用を見ましたが、将来OpenAIがアプリとの連携をどのように使用するのかは分かりません。
これはOpenAIの12日間で興味深い投下の一つでした。更新内容を見ていきましょう。もう一つの非常に興味深いものは、800-ChatGPTです。これは、少なくとも現在のところ、アメリカ合衆国で電話をかけることができ、OpenAIの音声モデルと対話して、物事について質問し、助けを得ることができる電話番号です。電話料金以外は無料です。
WhatsAppについても同様です。文字通り、画面を離れてこのコードをスキャンし、WhatsAppに移動してWhatsAppアプリでChatGPTと対話を開始できます。私にとって最も興味深く印象的な部分は、彼らがどのようにしてこれを提供できるかということです。電話番号に関しては、後に他の国にも広がる可能性がありますが、現時点では米国のみです。WhatsAppについては、グローバルに利用できます。私自身試してみましたが、本当に興味深いものです。
確かに最高のものは得られません。間違いなくo1はそこにはありません。これは単に素早い答えが欲しい場合のためのもの、そして無料ユーザーや、地域でChatGPTアプリケーションにアクセスできないがWhatsAppにはアクセスできる人々向けのものだと思います。私はこれをOpenAIからの素晴らしい、素敵なジェスチャーと呼びたいと思います。より広い、より広い聴衆と彼らの技術を共有するためのものです。これを行ってくれたことに賞賛を送ります。
最後にして最大のもの、OpenAIが昨日リリースした大きなニュースの投下は、o3です。彼らのウェブサイトには、OpenAIの12日間シリーズのリリース動画にあるもの以外には、それほど多くの情報やデータはありません。しかしXには、OpenAIの人々が、o3についてのライブ中に紹介したのと同じグラフを示しているものが溢れています。それらを見ていきましょう。これは主にXを見ていくことになります。
このツイートは複数回再投稿され、基本的にo3について示したテストの一つは、CodeForcesで2,727を獲得したというものです。私は正確には知りませんが、これはグローバルなコーダー、人間のコーダーのためのテストやベンチマークのようなものだと思います。この人も他の場所からそれを得たようですが、そのベンチマークに行き、o3モデルが獲得した2,727というマークを確認しました。
そのコーダーのランクは、世界で175番目に優れたコーダーという中国人のものです。非常に近い将来、人々はこの人と同じレベルのコーディングができる技術にアクセスできるようになります。ある時点では1位になるかもしれませんが、少なくとも今日、コーディングについて何も知らない私のような一般の人が、既存のモデルでOpenAIを使って既に物事を開発していることを想像してください。世界で175番目のトップコーダーのレベルや能力タイプの範囲内で物事を行えるモデルにアクセスできることを想像してください。
これは本当に技術を民主化しています。より多くの人々がより多くのものを創造し、これがどこに向かうのか分かりませんが、ポジティブに考え、これは興味深く、より多くの革新、より多くの創造、人類と全体的な経済を助ける可能性のあるものへの扉を開くと考えるべきだと思います。これは皆さんと共有したかった興味深いものでした。
そして、OpenAIの公式Xアカウントがあります。そこに行くことができ、YouTubeチャンネルに行って、実際のライブを見ることができます。彼らは実際にデモを行うわけではありませんが、主に発表を行い、ベンチマークやテストに関するいくつかのグラフを示し、それをどのように使用する予定か、モデルとしてどのように進展するかを示します。1月末までに登場すると予想しています。
しかし、YouTubeやXのライブから多くの人々がスクリーンショットを撮っているのを見るのは興味深いです。OpenAI内の人々でさえも。これらのグラフへのアクセス権がなかったのかもしれませんが、例えば、OpenAIの人々の一人がこう言っています：「o3 miniを訓練しました。o miniよりも高性能で、推論トークンを考慮すると、エンドツーエンドで約4倍高速です」。
o3がo3 miniと共に登場することについては触れませんでした。これらのモデルは常にツインで登場すると思います。大きなものと小さなものです。これは数学と待ち時間に関する能力についてのベンチマークの一部です。これらのツイートは全てXプラットフォーム全体で利用可能です。単にOpenAI o3を検索してください。
そして、Noan Brownによるこれがあります。これはCodeForcesの基本的な競争コードで、o3が達成した2,727レベル、o1が達成した1,891、o1プレビューが1,200を示しています。モデルからモデルへとほぼ指数関数的な成長を見ることができます。そしてo1は恐らく4ヶ月前にプレビューで登場し、o1は1週間前に登場したことを覚えておいてください。これは非常に速い種類の進歩で、非常に興味深いソフトウェアエンジニアリングです。これは再びo1プレビュー、o1、o3を比較するベンチマークです。非常に興味深いです。
「OpenAIでo1を3ヶ月前に発表しました」と彼は言っています。そう、今日私たちはo3を発表しました。この軌道は続くと信じるあらゆる理由があると彼は言っています。基本的にこの種のスピードアップについて言っています。彼らが誇張しているとは思いません。このような速度で続くとは思いません。間違っているかもしれませんが、それは本当に危険でしょう。しかし再び、彼は軌道は続くと言っています。物事がどのように進むか見てみましょう。
モデルのベンチマーク、パフォーマンス、さらにはコストに関するより多くの情報があります。異なるレベルで言いましょう。多くの詳細はありませんが、o3はo1と比較しても全く異なるレベルにあります。競合他社が何をしているのか分かりませんが、これら12日間の終わりまでに、OpenAIの大手プレイヤーの誰も近くにさえいないことは非常に明確だと思います。間違っているかもしれませんが、AIモデルに関してOpenAIがいる場所に十分近い競合他社は一つもないと思います。
最後に、モデルのドキュメントにはまだo3についての情報はありません。まだ来ていません。早期アクセスがモデルにあると思います。OpenAIの12日間に戻って、o3プレビューと安全性研究者の募集までスクロールダウンすると、早期アクセスリンクがありますが、これは安全性テスト用であり、個人用ではありません。テストができると主張する組織ではなく、トピックに関する検証された論文を持つ組織である必要があります。そのようなアクセスを得られる人々でさえ、全員が得られるわけではありません。
非常に興味深い数週間でした。皆さんのためにこれら全てをまとめようと思いました。私のような創作者や、AIモデルに関して熱心な人を含め、全ての人をずっと席の端に座らせ続けました。私は本当にそれらを楽しんでいます。好きですし、それらで遊び、構築するのが好きです。大きな、そして長く引き伸ばされたクリスマスプレゼントのようなものでした。
これで、動画を楽しんでいただき、ニュース、更新情報、そして価値を得られたことを願っています。チャンネル登録を忘れないでください。コミュニティの一員であれば、私に何について話して欲しいかコメントを書いてください。まだコミュニティのメンバーでない方は、再度、チャンネルを登録してください。コミュニティの一員となり、私の旅路と皆さんの旅路で一緒に学びましょう。
私自身は技術的な知識を持っていませんが、AIで構築し、そこで物事を行っているので、あなたがそうすることを手助けし、励ますことができるかもしれません。これで、早めのメリークリスマスと新年おめでとうございます。ご視聴ありがとうございました。さようなら。パパのチャンネルを登録してマイクをください。

OpenAIの最後の6日間、o3で締めくくられる!!!! 重要なAIアップデート!

いいなと思ったら応援しよう！