2024年OpenAI、Dev Day内容まとめ
今年の10月にサンフランシスコを皮切りに、ニューヨーク、シンガポールなどでOpenAIのDevDayが開催されましたのでまとめていきます。東京でも開催される予定ですが、内容はライブ配信も動画の録画も無いのでいくつかの参加者の記録から辿るしか無いです。
下記のポストでは17日のDevDayではライブ配信や録画があるようです。
それに先駆けてこれまでのDevDayの様子を、下記に挙げる情報源を元に解説していきます。
内容は、非常に上級者向けでAPIを当てれば誰でも簡単に使える機能というわけではありませんのでど素人から見た解説をしていきます。
サム・アルトマンが話したAI インタラクションの将来について
インタラクションとは、双方向のコミュニケーションのことを言います。サム・アルトマンが話しているのは人間とAIとの双方向のコミュニケーションの未来の事になります。
最高製品責任者のケビン・ワイル氏との会話の中で、アルトマン氏は、コンピューターの使い方や世界との関わり方を変える可能性のある AI システムについて説明しました。
アルトマンは、ユーザーが『ガラスの一枚』(注01)に近づいて、何でも好きなことを言えるようになると見ています。高度な推論モデルやエージェントがその場で各リクエストに応じたカスタムインターフェースをリアルタイムで生成します。ユーザーは、話しかけたり、パーソナライズされたビデオフィードを操作したりして、インターフェースとやり取りできるようになります。
これは、OpenAIが最近、Appleの元デザイン責任者であるジョナサン・アイブと提携したことを思い起こされる発言で、彼らがどのような形態のユーザー向けの新しいタイプのAIデバイスを開発しているのか想像することができます。それは典型的なスマートフォンとは似ておらず、主に話しかけることで制御することになります。これは、アルトマン氏がAIの未来について述べていることとぴったり一致します。
※注01:この「ガラスの一枚」というのは、スマートフォンやタブレット、もしくは未来的な透明ディスプレイを指しており、音声やジェスチャーでのインタラクションが可能な未来のデバイスを表しています。「カスタムインターフェース」は、ユーザーの要求に応じて即座に生成される個別の操作画面のことを指していると考えられます。
複雑なタスクのためのAIエージェント
アルトマン氏は、OpenAI がチャットボットから AI エージェントへと移行すると見ており、これにより数ヶ月かかるタスクをわずか 1 時間で完了できるようになると話しました。「これは短期間で世界の仕組みに大きな変化をもたらすでしょう」とアルトマン氏は述べ、これは、旅行の予約やニュースの要約など、複雑な要求を自力で処理できる AI デバイスというアイデアにも合致します。
彼はこのように続けました。「2030年頃までには、私たちは過去を振り返って『ああ、これが人間にできるはずの能力だ』と思うようになるでしょう。人間が何年もかけて苦労していたことを、今ではコンピューターに頼めば1時間でできるのです。なぜ1分でできないのか不思議に思うでしょう。」
OpenAI は AI モデルでこの機能を実現することに近づいているが、そのようなシステムの主な障害は信頼性、セキュリティ、および調整であるとアルトマン氏は述べました。
プロンプトキャッシュを備えたリアルタイム API
10 月 1 日、OpenAI SF DevDay 2024では、ワークショップ、ブレイクアウト セッション、デモの開催に加えて、いくつかの新機能が導入されました。発表された新機能には、関数呼び出し、ビジョンの微調整、蒸留、プロンプト キャッシュを備えたリアルタイム API などがあります。
Real-Time API は、永続的な WebSocket 接続を可能にし、リアルタイムの音声インタラクションを可能にします。この機能は、仮想アシスタントやリアルタイム翻訳サービスなど、即時の応答を必要とするアプリケーションにとって非常に重要です。この API を使用すると、開発者はテキスト、音声、関数呼び出し、中断などのさまざまなインタラクション要素を表す JSON 形式のイベントを送受信できます。この API には、同時マルチモーダル出力を処理する機能もあります。
旅行代理店アプリでのデモ
旅行代理店アプリで実証された関数呼び出し機能により、AI は外部ツールやデータベースにアクセスでき、事前にトレーニングされた知識を超えたタスクを実行できる仲介者として効果的に機能します。プレゼンテーターは将来の「安全 API」を通じて、安全設定に対するユーザーによる制御を強化する必要があると話しました。
O1 に記述するだけで iPhone アプリを作成するデモ
O1モデルはコーディング デモでも使用されました。開発者は O1 を利用してコードを生成するだけでなく、コードを理解し設計することができます。O1 に記述するだけで iPhone アプリを作成したするデモンストレーションが行われました。OpenAI は、コードの精度に重点を置く Sweebench などの指標では、UI 開発などの他のシナリオではモデルの実際の有効性を完全には把握できない可能性がある事にも触れました。
ユーザーがファインチューニングを行うことが可能に
OpenAI は、ビジョン モデルの微調整を拡張することも発表しました。これにより、開発者は特定のタスクに合わせて AI をカスタマイズ(注02)できます。微調整フレームワークには、エポックや学習率乗数などのハイパーパラメータを調整するためのオプションが含まれています。Weights and Biases との統合により、微調整ジョブを追跡および分析するためのツールセットが提供され、モデルのパフォーマンスに関する洞察が得られます。"「私たちは微調整されたモデルで自動化された安全性評価を継続的に実行し、使用状況を監視して、アプリケーションが使用ポリシーに準拠していることを確認しています」とOpenAIは安全性の懸念について述べています。
※注02:今回の発表から読み取れるのは、OpenAIがファインチューニング機能を拡張し、開発者が特定のタスクに合わせてビジョンモデルをカスタマイズできるようにするということです。具体的には、ユーザーがエポックや学習率などのハイパーパラメータを調整しながら、モデルのパフォーマンスを最適化できるようにするためのフレームワークが提供されている、という内容です。
開発者向けに親モデルのカスタマイズが可能な蒸留APIを発表
OpenAI は、モデル蒸留 API(注03)と新しい評価ツールを導入し、API をより手頃な価格にしました。蒸留により、開発者はモデルのパフォーマンスを維持しながら、より小さなモデルを作成できます。これは、計算リソースが限られている環境で AI を展開する場合に重要です。プロンプト キャッシュは、以前に処理されたプロンプトを再利用することで、レイテンシを削減します。開発者は、プロンプトを先頭に静的コンテンツ、末尾に動的コンテンツで構造化することで、キャッシュ用にプロンプトを最適化し、キャッシュ ヒットを最大化できます。「OpenAI プロンプト キャッシュは、Gemini や Anthropic ほど大きな割引ではありませんが、コードを変更することなく機能します。キャッシュがどのくらい長く続くか見てみましょう」とShawn Wang氏は述べています。
※注03:モデル蒸留(Distillation)は、大きくて強力なAIモデルを、もっと小さなモデルに「圧縮」する技術です。この過程では、元の大きなモデルが持つ知識や能力を、小さなモデルに「教え込む」ことで、なるべく同じパフォーマンスを保とうとします。これにより、計算リソースが少ない環境でも、AIを効率的に使えるようになります。
例えば、スマートフォンやラップトップのような限られた処理能力のデバイスでは、大きなAIモデルをそのまま動かすのが難しいですが、蒸留された小さなモデルなら動作可能です。つまり、AIが同じように賢く振る舞えるけど、使うパワーやメモリが少なくて済むようになるということです。
また、APIの蒸留は、OpenAIのサービスをもっと手頃な価格で使えるようにするための技術としても紹介されています。これによって、開発者はAIのパフォーマンスを落とさずに、コストを抑えてAIを使うことができます。これが「モデル蒸留」の仕組みであり、AIを多くの場所やデバイスで利用しやすくするための重要な技術です。
蒸留APIを当てれば即座に子モデルができるってもんではない
蒸留APIはあくまでサポートツールであって、「APIを当てるだけで簡単に子モデルができる」というわけではありません。モデル蒸留は技術的に高度なプロセスで、元のモデルの知識を保持しつつ、計算リソースを節約するためにモデルのサイズを縮小します。これには、学習過程のカスタマイズや調整が必要ですし、ハイパーパラメータ(学習率やエポック数など)をうまく設定する必要があります。
つまり、蒸留APIは開発者が元のモデルの性能をなるべく維持した小さなモデルを作成するために役立つツールであり、その過程ではいくつかの手間や技術的判断が求められます。完全に自動化されたボタン1つで済むわけではないので、ある程度のAIや機械学習の知識が必要ですね。
そのため、「APIを使えば誰でも簡単に子モデルを作れる」とは言えないものの、正しい設定や調整をすれば、かなり柔軟に小さなモデルを作成できる可能性があります。