次世代o3モデルの発表、OpenAIの12日間の総括と更なるAIユースケース

2024年12月21日 06:44

12,044 文字

先週はAIニュースが目白押しでした。主にOpenAIからの発表が中心です。今回は、OpenAIクリスマスライブストリームの最後の5日間で発表された内容を総括し、いくつかの発表について私が期待している点や、イメージングやビデオカテゴリーにおける最先端のアプリケーションについてお話しします。これは今週の「AI news you can use」、つまり先週のAIニュースの中から実際に今日から活用できる情報をまとめた番組です。
まずはOpenAIの発表から始めましょう。先週の金曜日、デイ7でChatGPTプロジェクトが導入されました。通常、収録は木曜日に締め切られるため、先週のエピソードではお話しできませんでしたが、この機能は多くの人々に価値をもたらす便利な機能だと考えています。そこで、この機能に隠された特徴や使い方について、独立した動画を作成することにしました。現在編集中で、数日以内に公開予定です。私たちチームがこの機能をどのように活用しているか、またClaudeとChatGPTの比較も含めた完全な分析になります。チャンネル登録して、この動画の公開をお待ちください。
今日はこの機能について、私がすでにカスタム指示の多くをこの機能に移行していることと、Claudeと同様に、お気に入りのプロンプトをスタンドアローンのプロジェクトに変換していることをお伝えするだけにとどめておきます。これはChatGPTインターフェースを整理する素晴らしい方法です。この詳細についての専用動画がまもなく公開されます。
月曜日のデイ8では、ChatGPT検索に関する発表がありました。主に3つのポイントがあります。まず、マップや動画がチャットインターフェース内に直接埋め込まれる改良された検索体験が提供されます。アプリケーションを離れる必要はありません。また、検索の改善の一環として、レイテンシーが改善されました。毎週視聴されている方は、7日間連続で検索をテストした際の最大の不満がこれだったことを覚えているかもしれません。拡張機能をオンにしてGoogleを1週間使わず過ごしてみた結果、必要なリンクを見つけることができ、予想以上に便利でした。ただし、速度が問題でした。クエリと結果の間に1～2秒の遅延があり、これが拡張機能をアンインストールした理由でした。今回、この速度が改善され、Googleの検索ほどではありませんが、大幅に高速化されています。
2つ目は、Advanced voice modeに検索機能が追加されることです。これはまだ展開中のようですが、今日のデイ11の発表と組み合わせると、これは本当に素晴らしいアップグレードとなります。
最後に、検索機能が全ての無料ユーザーに開放されます。プロアカウントを持っていない方でも、これらの検索機能の改善の恩恵を受けることができます。ログインすら必要ありません。ただし、検索履歴を残したい場合はログインをお勧めします。AI検索に興味があった方は、今がチャレンジするのに最適なタイミングです。
デイ9は開発者向けのミニデブデーで、多くのアップデートがありました。最も注目すべきは、APIを通じたo1の完全リリースです。これにより、様々なアプリケーションに組み込むことが可能になります。これには関数呼び出しも含まれており、o1が何かを推論し、外部コードを呼び出して実際に動作させることができます。これは最初、OpenAIのティア5アカウントにのみ展開されますが、様々な開発者が何を生み出すのか楽しみです。これはChatGPT以外でo1を使用できる初めての機会です。
他にも多くのアップデートがあり、開発者の方々は発表だけでなく、Sam Altmanとの対談を含む多くのライブデモも確認したことでしょう。過去数ヶ月間の異なるデブデーで、開発者たちが構築したものを紹介する30以上の動画がアップロードされました。技術者以外の方にとっても、新しいAdvanced voice APIを使用してステージ上でビルドするほぼ30分の長さのライブデモは、これまでのvoiceの仕組みと、APIを通じたAdvanced voice modeの流暢さの違いを実際に見ることができ、興味深いかもしれません。
数週間後には、より多くのアプリケーションが推論モデルを他のアプリ内に組み込むのを見ることができるでしょう。また、OpenAIコミュニティ内で行われたAMAについても触れておきたいと思います。そして、開発者コミュニティが一般のChatGPTユーザーよりもはるかに友好的であることを強調したいと思います。デブデーやこのAMAのコメントセクションを見ると、ランダムな要求で埋め尽くされるのではなく、非常に礼儀正しく建設的です。
開発者向けの新機能の詳細については、このAMAを強くお勧めします。ただし、個人的に非常に興味があった質問、つまり適切なembeddingsモデルやマルチモーダルembeddingsを近い将来提供する予定があるかどうかについては無視されました。しかし、Sam AltmanとのファイヤーサイドチャットやAMAでエージェント機能について多く語られていたことを考えると、これは時間の問題だと思います。
新しいアプリ内でのChatGPTについて、多くの人々が失望したようですが、私は少し混乱しました。私はこれがとてもクールだと思いました。電話でChatGPTを利用できるようになり、アカウントがなくてもどこからでもアクセスできます。これは知っておくと便利なことです。米国内および国際的にWhatsAppでメッセージを送ることができ、誰でも無料で体験できるようになりました。アカウントも必要ありません。これは新しい機会の一つだと思いましたが、多くのコメントセクションは憎しみや高い期待を持つ人々、またはAI業界に対する苦々しさで満ちていました。
この時点で、彼らは私たちに何も負っていないことを思い出させる必要があるかもしれません。12日間の発表を行っており、個人的には彼らがリリースしているものに感謝しています。一部の人々は非常に高い期待を抱いており、AGIではなく単に電話でのChatGPTをリリースしただけで失望しているようです。
米国にいる方は試すことができます。番号は1-800-CHATGPT、つまり1-800-242-8478です。キーパッドの文字を見ながら確認する必要がありました。
これは今日の発表、デイ11につながります。これは本当にクールで、今すぐデモをお見せしましょう。Macデスクトップアプリのノートテイキングアプリのサポートが追加されました。残念ながらWindowsにはまだ展開されていませんが、時間の問題です。少し残念ですが、時間がかかるでしょう。現在、世界中で配信されているこのデスクトップアプリのアップグレードは、例えばNotionなどの他のノートテイキングアプリ内で、オプション+シフト+1を押すだけでアプリ固有のChatGPTアシスタントを起動できます。
見てわかる通り、これはNotionで動作しており、画面を見ることができます。初めて、私たちが話してきた多くのことが一つにまとまりました。インターネット検索とAdvanced voice modeがあり、画面を見ることができます。音声でChatGPTと対話し、ノートテイキングアプリケーション内で作業をサポートしてもらうことができます。
Notion内には私の会社全体、コミュニティ全体のオペレーティングシステムがあります。すべてがそこにあり、助けが必要な時にスクリーンショットを撮って持ち込む必要はなく、Googleで検索する必要もありません。すべてがこの一つのインターフェース内にあります。
「今ここで何が見えますか？」と聞いてみましょう。「AIプロンプトライブラリに関するNotionページが見えます。テンプレートの複製、ビデオチュートリアルの視聴、プロンプトやプロンプトエンジニアリングに関連するさまざまなリソースへのアクセスに関する手順が含まれています。また、コース、電子書籍、その他のオンラインリソースに関する情報もあります」
待ってください。ここではSantaは使えないようですね。Spruceに変更しましょう。見てわかる通り、またはすでにお気づきかもしれませんが、Spruceまたはアシスタントはページ全体を見ることができます。現在の位置だけでなく、上部も下部も見ることができます。アプリケーションを見ることができ、画面だけではありません。
「2025年版の更新されたテンプレートにはどのようなカテゴリーのプロンプトが含まれていますか？」と聞いてみましょう。「更新された2025年AIプロンプトライブラリには、教育、ビジネス、エンターテイメント、健康などのカテゴリーが含まれています。これらのカテゴリーは様々なニーズに対応する幅広いトピックをカバーしています」素晴らしいですね。よく機能していることがわかります。
より実践的な例として、過去1年半の間にニュースレターで特集したプロンプト・オブ・ザ・ウィークのデータベースのページを開いてみましょう。オプション+シフト+1を押してAdvanced voice modeを起動し、「よし、ChatGPT。これから創作的な文章を書こうと思います。かなり個人的な日記になりますが、このページから私に役立つプロンプトを3つ選んでくれますか？」と聞いてみましょう。
「個人的な日記には、建設的なフィードバックで文章を改善する、年齢を問わず複雑なトピックを簡単にする、魅力的な教室活動を作成する、などのプロンプトが見つかります。これらのプロンプトは、日記での振り返り、創造性、個人的な成長を促すことができます」
すごいですね！これは全体を検索する素晴らしい方法です。すべての行を読む必要はありません。コマンド+Fを押して「enhance personal」を検索してみましょう。面白いですね、実際にはその正確な名前のプロンプトはないようです。もう一度試してみましょう。
「申し訳ありませんが、現在応答できません。少々お待ちください」
Advanced voiceに問題があるようです。テキストで試してみましょう。「個人的な日記に役立つプロンプトをこれらの中から選んでください」画面全体を見ることができるか確認してみましょう。
もっと具体的にする必要がありますね。このNotionページから選んでください。一般的なものではなく。Notionと連携していて、ペアリングされています。少し変ですね。見ることができるようです。最後にもう一度試してみましょう。
「創作的な日記のために、『一日を振り返る』『思い出を描写する』『感情を探る』などのプロンプトを試してみてはいかがでしょうか。他に何かお手伝いできることはありますか？」
興味深いことに、通常のページなら内容全体を見ることができますが、データベースの場合はデータベース内を実際には見ることができないようです。これはNotion内では大きな制限です。Notesのようなものと使用する場合は問題なく機能すると思いますが、Notion内ではデータベースを見ることができないという深刻な制限があります。
それでもこの制限を認識し、少し使い始めると、Advanced voiceは検証可能なソースを提供するインターネット検索にもアクセスでき、画面だけでなくアプリケーション全体を見ることができるため、かなりの力を発揮できると思います。
思いつくだけでも、何か新しいことを学ぶ際には非常に強力なツールになる可能性があります。画面を見て、アプリからすべてのコンテキストを取得し、カスタム指示を持つこともできるチューターと対話できるのです。これは文字通り一緒に作業することができます。
Notionのデータベース内の制限に注意する必要がありますが、それ以外はとても強力に見えます。開発者の皆さんに向けて、様々なターミナルのサポートも追加されました。徐々にではありますが、確実にChatGPTデスクトップアプリの機能を拡張しています。まずはMac版から始め、Windows版もまもなく登場するとのことです。これらはすべて現在利用可能です。試してみてください。
以上がOpenAIの発表内容ですが、今週はさらにニュースがあります。みなさん、こんにちは。編集後の追記です。山から祖母の家に戻ってきたところですが、要点は以下の通りです。o3 miniとo3が発表されました。12日間のOpenAIの総括として、簡単なコメントを追加したいと思います。
ベンチマークをご覧になりましたか？ベンチマークがすべてではないことは承知していますが、通常、生産性や文章作成のような主観的なものについては、コーディングや数学のような分野では実際に重要な意味を持ちます。ELOスコアの向上（画面に表示します）は驚異的です。o1が行ったすべてを凌駕するAGIベンチマークさえ導入しました。o3は本質的にステロイドを打ったo1です。
これが誰にとって有用かについての最初の考えは、まだ定期的にo1を使用していない方にとっては、今のところゲームチェンジャーにはならないということです。人々は興味深いものを構築するかもしれませんが、モデルを数学やコーディングに使用していないのであれば、ゲームチェンジャーではありません。開発者の方には大きな意味を持ちます。数学や科学に使用する場合も同様です。
彼らが言ったことが全てを要約していると思います。2025年のAIができることについて、私たちのAIに対する直感を見直す必要があります。一緒にその旅に出られることを願っています。チャンネルでは、この旅にご一緒できることを嬉しく思います。休暇シーズンが近づいていますが、来週に向けていくつかの準備をしています。
これまでのところ、ベンチマークだけが公開されていますが、印象的ですね。これまでに見たものとは一線を画すものです。
次に、GitHub Copilotが無料プランを導入しました。これまでを知る人は、これが有料サービスだったことを知っているでしょう。他の競合他社が無料版を提供していましたが、今ではGitHub Copilotも無料アクセスを提供しています。これには月間2,000回の補完と50回のチャットリクエストという制限があります。明らかに、フルタイムの仕事でこれを使用する人は1つのアカウントで無料版を使用することはできませんが、以前は有料のみだったことを考えると改善です。GitHub Copilotを使用している方や使用を検討している方向けの情報です。
次に、数週間前に紹介したプラットフォーム、本日の動画スポンサーであるChatbaseから大きなアップデートがありました。前回は、Notionのような知識ベースに接続できるチャットボットを簡単に構築する方法を紹介しました。これにより、最新の情報をリアルタイムで自動的に更新することができ、適切な状況では非常に便利です。
しかし、今回追加された機能は、さらに一歩進んだものです。新しいAI Actions機能により、あなたやお客様のために実際に行動を起こすことができるチャットボットを構築できます。現在使用しているツールとChatbaseのボットを統合できるようになりました。
個人的に気に入っているアクションは、Slack、Calendly、Stripeに接続するものです。これらは私たちのワークフローで使用しているツールであり、これらのツールに自動的に接続するチャットボットのスイートをセットアップできれば、定期的に時間を節約できます。
例えば、ボットとの会話で「igorはいつ空いていますか？」というトピックが出た場合、ChatbaseのチャットボットはCalendlyから情報を取得し、カレンダーの空き枠に関する事実に基づいた正確な情報を即座に提供できます。スロットを予約することも可能で、Slackにリンクしてチームに新しい予約が入ったことを通知することもできます。支払い詳細の管理やサブスクリプションの更新もボット内から直接行うことができます。
それでも足りない場合は、カスタムAPIに接続するオプションも提供しており、APIエンドポイントを提供しているツール（ほとんどのツールがそうです）に接続できます。内部CRMからライブデータを取得したり、Zeneskでサポートチケットを作成したり、現在の天気データを取得したりすることも、適切にセットアップすれば簡単です。
今日のChatbaseで真のプロフェッショナルAIアシスタントを構築できます。興味がある方は、動画説明欄の一番上にあるリンクをチェックしてください。Chatbaseに今回の動画のスポンサーとなっていただき、ありがとうございます。
次のAIニュースに移りましょう。次はGoogle Labsからの新しいアプリケーションです。Google Labsから新しいリリースを見るたびに少し興奮します。なぜなら、彼らは本当に良いAIインターフェースを作ることができ、おそらくこれまで見たことのないものを提供してくるからです。今回のWhiskツールも例外ではありません。
これは完全に無料で、一部の地域ではGEでブロックされていますが、VPNを使えば私のようにヨーロッパからでもアクセス可能です。とてもシンプルで、主題とスタイルを選び、背景にある最も優れたモデルの一つである彼らのimage-n-freeモデルを使って、これらを組み合わせます。その2つの組み合わせから、定義できる主題を作成できます。
これはデモ画面で、作成するオブジェクトが事前に定義されています。ぬいぐるみを作成することになっており、Xロゴのスクリーンショットが手元にあるので、Xスタイルのぬいぐるみを作ってみましょう。どうなるか私自身もわかりません。
おお、見てください！これは本当に素晴らしいですね。これが完全なインターフェースの見た目です。これが気に入ったら、お気に入りに登録し、これらの主題を削除して最初からやり直すことができます。
少し使ってみて、これが本当に楽しい方法だとわかりました。なぜなら、ランダム生成モードがあり、ランダムな主題、シーン、スタイルを提供してくれるからです。プロンプトを使用することもできます。
主題としてはゲーミングセットアップを選び、シーンは地下ダンジョン、スタイルはランダムに生成してみましょう。今回は日本風のスタイルが出てきました。良いですね。この組み合わせを実行して、日本風の地下ダンジョンのような雰囲気のゲーミングセットアップが得られるか見てみましょう。
おお、これは素晴らしい！見てください。プロンプトを自分で作る必要はありません。3つの異なる変数を定義するか、ランダムに生成するだけです。最後のデモとして、もう一度テストしてみましょう。いくつかのランダムな提案を得て...はい、これは実際に機能します。主題として最後のデモ用にT-Rexを使ってみましょう。
かなりユニークですよね？とても直感的な生成方法です。これは少し飛躍かもしれませんが、完全に無料で使いやすいので、休暇中に愛する人々と試してみるのも楽しいアプリケーションかもしれません。まじめに、各家族メンバーにこれらの変数の1つを選んでもらい、驚きや面白い結果を得ることができます。その過程でAIの機能について教えることもできます。もしそれを試してみた方は、コメントで結果を報告してください。とても興味があります。
次に移りましょう。先週のMidjourney Canvasの発表についての簡単なフォローアップです。完全に全員が利用可能になり、私たちのチームのAIアーティスト、haesの画像でこれを試してみました。
ムードボードで話したように、完全な世界を作成し、特定のテーマを維持することができます。このような素敵なペンギンのように、まったく同じスタイルで画像を生成することが本当に簡単になります。私だけかもしれませんが、これは私のアパートに飾りたくなるような印刷に値する作品です。
先週も言及したように、このムードボード機能は、単なる画像のセットだけでなく、完全な世界を作成するのに役立ちます。キャラクター、シーン、ストーリーなど。Midjourneyがこの方向に進んでいることが気に入っています。実際にストーリーを語ることについて、彼らからの更なる展開を楽しみにしています。
次に、AIビデオの分野で2つの主要なリリースがありました。まず、Vido2についてです。これはまだ誰もがアクセスできるわけではありませんが、発表され、一部の人々がアクセスを持っているので、そこから話を始めます。その後、Pika2が新機能をもたらしたことについても簡単に触れたいと思います。
Vido2については、とても簡単にまとめることができます。これはGoogleの新しいAIビデオジェネレーターで、間違いなくSティアの一つです。これが正確にどのランクになるかは、毎月無料で公開している私たちのビデオジェネレーターティアリストアップデートで発表します。もちろん、何らかの方法でこれにアクセスできた場合の話です。
Googleの方が見ていらっしゃったら、e@my-advantage.comまで連絡いただけると嬉しいです。しかし、アクセスがない現時点では、彼らが共有したプロンプトと結果を見て、競合他社と比較することはできます。
Soraに同じプロンプトを入力して結果を比較してみようと思います。確かに、Soraが最高のビデオジェネレーターではないかもしれません。多くの人々が中国のHuan videoジェネレーターが実際には最高だと主張しています。私は本当にユースケース次第だと思います。現在、様々なカテゴリーでテストと比較を行っている最中です。
しかし、言えることは、Soraのインターフェースが最高で、OpenAIのものなので、これらの比較を行うには価値のある競合相手だということです。
まず、「太陽が完璧に盛り付けられた朝食のシーンの後ろでゆっくりと昇り、ふわふわのパンケーキの上にメープルシロップがスローモーションで注がれる様子」というショットを見てみましょう。これがVido2の興味深い点です。単一のショットだけでなく、シーケンスを作成できます。これは私の知る限り、まだ見たことのない機能です。
Soraでもう2つのプロンプトを生成しながら、これらの結果を比較してみましょう。明らかに、一方ではパンケーキが突然現れ、両方のケースで流動的なメープルシロップは現実的には見えません。一方、Vidoのシーンは遥かに優れているように見えます。
シーケンスを生成するだけでなく、メープルシロップが非常に現実的に見えるのに対し、こちらはそれに近づくこともできていません。確かに60個の異なるバージョンを生成するのが公平かもしれませんが、最初の2つでシロップがこれほど違うということは、かなり良い指標だと思います。
次のショットを見てみましょう。「日差しを浴びたLAのスイミングプールで、鮮やかなピンクのフラミンゴフロートの上に座るふわふわのコッカプー」です。
Soraでこのコッカプーを見てみましょう。おお、これは実際にとても良いですね。目が少しぴくぴくしていますが、それは問題ありません。これはとても可愛いですね。フロートが少し変で、今フラミンゴが2つあることに気づきました。
Vidoが優位に立っていますが、このバージョンの方が更にシネマティックに見えると言えます。これは本当に最初の印象に過ぎず、これらは100回の生成の中から厳選されたものだと思われるので、Soraにも寛容である必要があります。しかし、実際にこれらの生成は気に入っています。最初のものでは、何か大きく違和感があるものを見つけるのに非常に細かく見る必要があります。
もう1つやってみましょう。これらのモデルは通常、アニメーションシーンが得意です。これがVido2バージョンで、これがSoraバージョンです。見てください、まったく異なる美学的アプローチですね。もちろん、プロンプトごとに異なりますし、先ほど言ったように、すべてのビデオジェネレーターはこれが得意です。Soraは実際に素晴らしい仕事をしています。これに音声を重ねれば、ほとんどの人はこれがAIだとはわからないでしょう。
アクセスを得られたら、様々なユースケースで詳細な比較とテストを行いますが、現時点での私の判断では、Googleはあらゆる面で本当に追いついてきているということです。彼らのimage-n-freeモデルはAIイメージングで可能なことの最前線にあり、Vido2はビデオジェネレーターの主要なグループの一つです。ここで見ることができるすべてから、Geminiへのアップグレードも同様です。
ところで、新しい実験的なGemini Proの噂が再び出ており、LMS y Arenaのリーダーボードでトップに立っています。これをリリースすれば、イメージング、ビデオ、小規模モデル、大規模モデルなど、市場のトッププレイヤーの一つとなります。コンテキストウィンドウとビデオアップロードで最高であり、WhiskのようなGoogle's notebook LM、学習モデル、実験的インターフェースなど、興味深いものを次々と生み出しています。
時間はかかりましたが、この時点で彼らは単に追いついているだけでなく、いくつかのカテゴリーでペースを作り出しています。彼らからの更なる展開を楽しみにしています。
ビデオジェネレーターの話をしていますが、先ほど言ったように、2つ目の大きなリリースはPika 2.0で、これは現在アクセス可能です。このセグメントは短めにしておきます。なぜなら、標準的なベンチマークのimage-to-videoプロンプトを実行したからです。画面上に他のモデルとPika 2.0の比較を表示しますので、どこにランクされるか自分で判断してください。
全体的な私の判断では、これらのいくつかは本当に良いです。すべてのビデオジェネレーターと同様にファンキーになりますが、使用可能なだけでなく、実際に見栄えの良いセグメントもあります。これらすべてを見て、レベルがこれほど高くなっているため、ランク付けが本当に難しくなると言わざるを得ません。
おそらく、顔のクローズアップのような、より難しいカテゴリーに依存すると思います。人々は本当にすべてのニュアンスを見分けるのが上手で、また個人的に常にこの車のベンチマークが好きです。ビデオジェネレーターで実現するのが難しい現実的な感覚があるからです。ここでは、Pikaがこれをよりドリフトのようなものに変えているのがわかります。
全体的な印象では、これは非常に良いですが、おそらくSティアではありません。Vido2やHuanビデオ、Minxは信じられないほど優れていますが、これは良いものの、それほどではありません。
しかし、それだけではありません。Pikaは常に面白いプレイヤーで、「ingredients」と呼ばれる小さな機能を追加しました。写真を提供し、2つ目の材料を追加することができます。この場合、チームは私の写真を追加し、「igorが空に飛んでいく」と言いました。これから見るクリップは、Pika ingredientsが行ったことです。
見てのとおり、これは試す価値のある超楽しい機能です。少し馬鹿げていますが、彼らが最後にリリースした一連の馬鹿げた機能は、実際にAIであるという事実に関係なく、すべてのソーシャルメディアアカウントでバイラルになりました。それらは本当に興味深くクールだったのです。そして今、彼らはさらに機能を追加しました。
これで今週のAI news you can useは以上です。もう1つのクリップを強調したいと思います。Sam AltmanとのAMAからのものです。彼は様々なモデルのコンテキストがいつ拡大するかについて質問され、こう答えました。「非常に高速で正確な1,000万トークンのコンテキストに到達することは、数ヶ月単位で期待できます」
つまり、Samは実質的に、2025年のどこかで1,000万トークンのコンテキスト制限を持つモデルを持つことになると確認したのです。これは、ここで話したすべてのことを本当にパワーアップするでしょう。ウェブを検索し、音声で対話し、コンピュータで何をしているかを見て、個人的なコンテキストを持ち、過去数日間の対話を記憶することさえできるかもしれません。
さらに、新しいo1 Fuda APIのように、物事について考え、行動を起こす能力も持つでしょう。少しずつ、しかし確実に、これらすべてが、多くの人々がAIに入門したときに持つSFのビジョンに向かって集まってきています。そして、まだチャットボットのレベルにいることに気づきます。しかし、少しずつ、確実に、これらすべての発表は、より手放しで、より自律的な未来へと私たちを導いています。
チャンネルでは、この旅にご一緒できることを嬉しく思います。休暇シーズンが近づいていますが、来週に向けていくつかの準備をしています。それでは、素晴らしい一日をお過ごしください。

次世代o3モデルの発表、OpenAIの12日間の総括と更なるAIユースケース

いいなと思ったら応援しよう！