見出し画像

12 Days of OpenAI: Day 9 - エルフが届けるAPIの魔法と革新

OpenAIからの9日目のクリスマスプレゼントDev Day Holiday Edition—12 Days of OpenAI: Day 9 は、開発者にとってまさに夢のような内容でした!

本日の発表では、待望の「01 APIの正式リリース」が最大の目玉。関数呼び出しや構造化出力、画像理解など、開発者待望のフル機能が揃いました。また、リアルタイムAPIのアップデート では、WebRTC統合や音声トークンのコスト削減が実現。さらに、新機能として**「Preference Fine-Tuning」** が登場し、モデルのカスタマイズがさらに容易に。そして、Go/Java SDKの提供やAPIキー取得の簡素化、グローバルDev Daysの動画公開など、嬉しいアップデートも続々発表されました。

これから紹介する各「開発者へのクリスマスギフト」をチェックして、最新のOpenAIの進化を体験してください。


01 APIの正式リリース!開発者待望のフル機能

ついに、OpenAIの「01 API」が正式リリースされ、開発者が待ち望んでいたフル機能が利用可能になりました!これにより、以下の強力な新機能がAPIに加わり、アプリケーション開発がさらに便利になります:

関数呼び出し(Function Calling)

「01 API」では、モデルがバックエンドのAPIと連携するための関数呼び出し機能が搭載されました。この機能を活用すれば、モデルが正確なタイミングで適切な関数を呼び出し、不要な呼び出しを防ぐことも可能です。開発者はこれを使って、複雑なデータ処理や外部サービスとの連携をより効率的に行えます。

「01モデルは、関数呼び出しにおいてGPT-4 turboと比較して大幅な精度向上を達成しました。以下のグラフは、内部評価における精度の比較結果です。」

Function Callingの精度比較:01(オレンジ)はGPT-4 turbo(黄色)よりも高い精度を示す

構造化出力(Structured Outputs)

従来のマークダウン形式ではなく、JSON形式 で応答を生成する「構造化出力」も追加されました。この機能により、例えばPDF内のエラー箇所を正確にハイライト表示するなど、リッチで視覚的なアプリケーションの構築が容易になります。開発者にとって、モデルからデータを直接取り出してそのまま利用できる点が非常に魅力的です。

画像理解(Vision Inputs)

画像入力対応 により、テキストデータだけでなく、画像データからも情報を処理できるようになりました。例えば、フォームのスキャン画像からエラーを検出したり、科学や製造業での応用が期待されています。

開発者メッセージ(Developer Messages)

新しく追加された「開発者メッセージ」は、モデルへの指示を階層化し、特定のタスクに最適化された動作を設定するための新機能です。これにより、モデルの動作を開発者がより細かく制御できるようになり、より洗練されたユーザー体験を提供できます。


これらの新機能は、Tier 5の顧客向けに本日から順次提供開始されます。すべての開発者が利用可能になるまでには数週間かかる予定です。

OpenAIは、開発者向け機能のリリースや改善だけでなく、その発表の仕方にも独特な遊び心があります。
例えば、こんな印象的なやりとりがありました。

「新しいおもちゃ:Fawn on the Lawn 「次に紹介するのは、新しいおもちゃです! 今年は『Elf on the Shelf(棚の上のエルフ)』を手に入れられなかったので、代わりに『Fawn on the Lawn(芝生の上の子鹿)』を用意しました。 このおもちゃにはマイクロコントローラー が内蔵されています。そのサイズはなんと、1セント硬貨 と同じくらい小さいんです。 これをプラグインして、どうなるか見てみましょう。」 01 Proに関する要望について 「多くの方から01 Pro のAPI提供についてリクエストをいただいていますが、現在はまだご用意できていません。ただし、私たちの『エルフたち』がラボで懸命に取り組んでいますので、近いうちにリリースできるはずです。」

リアルタイムAPIがパワーアップ:WebRTCとコスト削減

リアルタイムAPIが大幅に進化し、開発者にとってさらに使いやすくなりました。本日のアップデートでは、WebRTCの統合 と音声トークンの価格引き下げという2つの重要な改善が発表されました。

WebRTCの統合:簡単で柔軟なリアルタイム通信

WebRTCは、インターネット上での低レイテンシー通信に特化した技術で、ビデオ会議やストリーミングで広く利用されています。今回のアップデートで、リアルタイムAPIがWebRTCに対応し、次のような利点を提供します:

  • 柔軟な接続:ネットワーク状況に応じて、ビットレートやエコーキャンセリングを自動調整。

  • シンプルな実装:以前のWebSocket統合に比べ、コード量が約200~250行削減され、数行のコードでリアルタイム通信が可能に。

具体的なデモでは、音声入力とリアルタイム応答をわずか12行のコードで実現。これにより、音声アシスタントや対話型アプリの開発が格段に簡単になります。

コスト削減:開発者に優しい価格設定

コスト削減も今回のアップデートの目玉です。以下のような価格改定が発表されました:

  • GPT-4 turboの音声トークン:従来より60%安価 に。

  • GPT-4 miniの音声トークン:なんと10分の1の価格 で提供。

これにより、リアルタイム音声アプリの運用コストが大幅に削減され、開発者は予算を気にせずプロジェクトを進められるようになります。

Preference Fine-Tuning登場!モデルを自分好みにカスタマイズ

本日の発表で特に注目を集めたのが、新しいファインチューニング手法であるPreference Fine-Tuning(プリファレンス・ファインチューニング) です。この機能により、モデルをさらに柔軟にカスタマイズし、ユーザーのニーズにより沿った応答を生成できるようになります。

Direct Preference Optimization(DPO)の仕組み

従来の「教師ありファインチューニング」では、モデルに具体的な入力と出力をペアで与えて学習させていました。一方、Preference Fine-Tuningでは、以下のようなプロセスを採用しています:

  1. 2つの応答ペアを提供:どちらが好ましいかを指定する。

    • 例:会話がより詳細かつ親しみやすい方を「Preferred」とし、簡潔すぎるものを「Unpreferred」と指定。

  2. 応答の違いを最適化:DPO(Direct Preference Optimization)を使い、モデルが好ましい応答の特性を学習。

    • 特性例:応答のフォーマット、スタイルガイドライン、有用性や創造性など。

DPOトレーニングの例:左が好ましい応答、右が好ましくない応答として学習

このプロセスにより、モデルは「ユーザーが求める応答の傾向」を学習し、精度を高めることができます。

ユースケースと具体例

Preference Fine-Tuningは、さまざまな分野で活用できます:

  • カスタマーサポート:簡潔で的確な回答を生成し、冗長さを排除。

  • コンテンツモデレーション:特定のトーンやスタイルに沿った応答を実現。

  • クリエイティブライティング:創造性を重視した応答生成で、個性ある作品をサポート。

例えば、金融アナリスト向けAIアシスタントを開発するRogo AI のケースでは、Preference Fine-Tuningを利用することで、ユーザーの質問をリファクタリングし、より正確で関連性の高い回答を提供できるようになりました。ベースモデルの精度が75%だったのに対し、Fine-Tuning後は80%以上 に向上するという成果を上げています。

簡単なスタートアップ方法

Preference Fine-Tuningは、プラットフォームUIのFine-Tuningタブ から簡単に始められます:

  1. 「Create Fine-Tune」をクリック。

  2. DPO(Direct Preference Optimization) を選択。

  3. ベースモデル(例:GPT-4 turbo)を選び、トレーニングデータをアップロード。

    • データ形式はJSONLファイルで、「Preferred」と「Unpreferred」の応答ペアを含む形式に。

  4. 「Create」をクリックしてプロセスを開始!

Preference Fine-Tuningのカスタマイズ画面:ハイパーパラメータや検証データを設定してモデルを最適化
ファインチューニング進行中のダッシュボード画面:ジョブのステータスや設定を一目で確認

データ量にもよりますが、処理は数分から数時間で完了します。トレーニングが終われば、ベースモデルと同様にAPIから利用可能です。


Preference Fine-Tuningは、本日からGPT-4 turbo で利用可能になり、GPT-4 mini も近いうちに対応予定です。

追加アップデート:SDK、APIキー取得、グローバルDev Daysの動画公開

本日の発表では、大きな機能強化に加え、開発者体験を向上させるための細やかなアップデートも発表されました。以下は注目の3つのポイントです。

1. GoとJava SDKの公式サポート

待望のGo SDKJava SDK が本日より提供開始されました!
これにより、これまでPythonやNode.jsのSDKに限定されていたサポート範囲が広がり、以下のような利点が得られます:

  • APIエンドポイントをフルサポート:すべてのAPI機能に対応。

  • 公式サポートの信頼性:開発者コミュニティからのフィードバックをもとに、継続的に改善されるSDK。

「Go SDK」と「Java SDK」の詳細やダウンロードリンクは、OpenAIの公式サイトで公開されています。開発者の皆さんはぜひこれらのSDKを試してみてください!

2. APIキー取得の簡素化

新しいログインとサインアップフローにより、APIキーの取得プロセスが劇的に簡単になりました。これまでは複数のステップを踏む必要がありましたが、今回の改善で:

  • 数秒でAPIキーを取得可能

  • 面倒な契約書確認や手続きを大幅に簡略化

これにより、初めてOpenAI APIを利用する開発者もスムーズにスタートできるようになりました。

3. グローバルDev Daysのトーク動画公開

過去数ヶ月間、世界各地で開催されたOpenAI Dev Days のトーク動画が本日よりYouTube にて公開されました。これらの動画では、モデルの最新機能や活用方法についての詳細な解説が行われています。


OpenAIの公式YouTubeチャンネルで視聴可能なので、興味があるセッションをぜひチェックしてみてください!クールなコンテンツが盛りだくさんです。(注01)

AMA(Ask Me Anything)開催!開発者フォーラムで質問しよう

今日の大規模な発表の締めくくりとして、OpenAIはAMA(Ask Me Anything)セッション を開催します!このセッションでは、発表内容についての疑問や具体的な質問を、OpenAIのプロダクトマネージャーや登壇者に直接尋ねることができます。

AMAの詳細

  • 開催場所:OpenAIの開発者フォーラム

  • 時間:発表後1時間限定(日本時間では深夜~朝にかけて開催)

  • 内容

    • 本日発表された新機能(01 API、リアルタイムAPI、Preference Fine-Tuningなど)に関する質問

    • SDKやAPI統合の技術的な質問

    • 今後のロードマップや具体的なユースケースについて

質問の投稿方法

フォーラムにアクセスし、AMAセッションのスレッドで質問を投稿してください。登壇者やプロダクトマネージャーがリアルタイムで回答します。


本日のAMAは、OpenAIの最新情報をさらに深掘りする絶好のチャンス であり、また、他の開発者から寄せられた質問とその回答を読むことで、新しい発見があった事でしょう。特に今回の発表内容を実際のプロジェクトに活用したいと考えている方にとって、直接質問できるこの機会は貴重だったとおもいます。

締めのジョーク

「最後に、ちょっとした冗談を言ってもいいですか?(笑)
『サンタには「いたずらリスト」がある』 って知ってますよね?
なぜ構造化出力(Structured Outputs)はそのリストに載ってしまったのでしょう?

「分からないな、教えて!」
「サンタが言ったんです。『それはスキーマ(Scheme-啊) だ!』」

ジョークが現場の開発者にしかわからない非常にクールな出来です。

いいなと思ったら応援しよう!