OpenAIのイベントの最速まとめ(GPT4-Turbo、GPTストア、アシスタント APIなど)
先ほどOpenAIの開発者向けイベントが終わったので内容をまとめてみたいと思います。まずはざっくり注目ポイントから。
GPT4-Turboのリリース
性能UP、安く、トークン数もより多くなったGPT4-Turboをリリース。
GPT BuilderとGPTストア
新しいAPIとGPT Builderで自分用のCustom Instructionやその他様々な設定が定義済みのGPTを作ることができます。
新しいAPIと機能による開発体験の向上
従来のFunction callingなどに加え新たに追加されたThread, Retrieval, Code Interpreter (状態管理、ファイル情報などの取得、コード インタープリター) などの機能でより簡単に作りたいものが作れるようになります。
では詳細をみていきましょう。
冒頭の発表内容(今回のリリースの目玉たち)
トークン数
トークン数が8k→128kと16倍に!一般的な本の300ページくらいの文字数。事実上、制限無しな感じに。これまではチャンクに分割とかを考える必要があって開発が大変だった。
金額
入力トークンは1/3の価格、出力トークンは半額になります。
学習元の知識のアップデート
知識もアップデートされ2023年4月までの情報を元に学習済み。
Retriabalの紹介
Retriabalプラットフォームでファイルやデータベースとの統合が簡単に
画像のインプット
GPT4-Turboは画像の入力が可能になります。画像を投げ込むと画像の説明をしてくるので盲目の人や目が悪い人はとても助かるはず。
音声API
新しい音声APIのリリース。APIのほうにはまだだけどすぐ来る予定。
音声生成のAPIは6種類の声のタイプから選べるように
Fine tuning
GPT4でのFine tuningを今日から開始。より少ないデータで効果の高いFine tuningが可能に
Custom Models
さらにCustom Modelというサービスをリリース。
アルトマン「OpenAIのリサーチャーが御社と緊密に連携して開発を支援します」とのこと。モデルのトレーニング、ドメイン固有の知識の事前学習、Post training processなど全てのステップをサポートしますということらしい。OpenAIとしてはいろいろな会社と共同開発して、これまで気づけなかったようなことに気づいてさらにサービスを良くしたいと考えているので、興味がある人は連絡してねとのこと。
UIの刷新
All inなUIに。これまではいろいろ設定で選ばなければならなかったが…
新しいGPT4-Turboでは全部なくなってすっきり!
GPTsとGPTストア
GPTsで自分用のGPTを作成可能に。
・振る舞い(Custom Instructionで)
・知識の拡張(PDFファイルとかで拡張)
・アクションさせる(Function calling)
などのカスタマイズが可能になります。さらに作成したGPTsをストアに出品可能になります。
ということでまずはカスタマイズされたGPTのデモを3つ↓
Code.orgのデモ
カリキュラムの内容を考えてくれるGPTsのデモ
Canvaのデモ
「開発者向けイベントのポスター作って~」
→ポスターが作られる
Zapierのデモ
話しかける感じで仕事を完了
「今日の予定何?」→予定が表示される。
「この件、アルトマンにSlack送っておいて」
アルトマンのスマートフォンに通知が届く
GPT Builderの紹介
GPT Builderで自分用のGPTsを作成可能。プログラミングができない人でも開発。
まずはどんなものを作りたいかBuilderに伝えると、自分用のGPTsの画像や名前を提案してくれる。
少し前に話題になったCustom Instructionで振る舞いを定義できる。
それに加えて「振る舞いの内容の前提となる知識のファイルをアップロードするからそれを参考にしつつ答えてね」ということでファイルをアップロード。
その他
・開始時の質問の候補
・WEB検索
・コードインタープリター
・画像生成
・追加のアクション
をするかどうかも設定可能。
知識としてファイルを追加したりもできるのはとても面白そう。
裁判の判例のPDFとかを大量に読み込ませておけばそこら辺の弁護士よりも適格なアドバイスをしてくれるGPTさんを作れそう。
作ったGPTをGPTストアに出品可能。
当然ながらストアに出したのが使われたらレベニューシェアでお金を稼げますよという感じに。iPhoneのアプリストアと一緒のビジネスモデル。11月後半にリリース予定!
これは楽しみすぎる!
開発者向け機能
今回のAPI改良のテーマ
JSONモード
複数のFunction calling
スレッドによる状態管理
Retriavalによるファイル処理
コードインタープリターによる計算と出力(グラフ、表など)
あたりが目玉です。
JSONモード
まずはJSONモード。APIのレスポンスをJSONに限定することができるように。エンジニアとしてはこれが一番熱いかな。開発が楽ちんに。
Function callingの改良
Function callingで複数のFunctionを一度に呼べるように。
アシスタントAPI
これまでの開発体験を振り返ると、プロンプトのやりとりの状態管理やファイルとかの受け取りなどが大変で機能の拡張が難しかった印象。
それを踏まえてアシスタントAPIを発表します。
目玉は4つ
永続化されたスレッドの管理。長いプロンプトのやりとりを簡単に管理。
Retriavalでファイルなどの知識を追加。
進化したコードインタープリター。
Function calling(JSONモードが追加)
以上の新機能がどう動作するか、旅行アプリの開発でデモ
アシスタントAPIの開発画面
スレッド機能
スレッド機能によって状態管理をOpenAIのAPIでお任せできるように。
スレッドとメッセージの開発画面。
これだけでアプリが作れますよと。
Function callingにJSONモードが追加されたので開発が簡単に。地図へのピンをマッピングするのもおそらくは
[
{ "Latitude", 48.8566, "Longitude", 2.3522 }, { "Latitude", 48.8566, "Longitude", 2.3522 }, { "Latitude", 48.8566, "Longitude", 2.3522 }, …
]
というJSONが返ってきててそれをマップしてるだけと思われる。従来はJSON形式のレスポンスが返ってくるか不安定でリトライしたりといろいろ大変だった。
Retriaval機能
Retriaval機能ではファイルの中身をAPIで適切に読み取ってくれる機能っぽい。これまでは様々なファイルの読み取りライブラリを選定し、ライブラリをインポートし、文字数の限界があるのでどう分割するかアルゴリズムの構築に頭を悩ませて作る必要があった。それが楽に開発できるようになる。
スレッド機能は状態管理をしてくれる。これまでは過去のプロンプトのやり取りを文字数の制約を踏まえながら要約し、それをAPIを呼び出すために毎回渡す必要があった。当然その過去の要約のテキストデータを保存するDBを構築し適切に管理するコードも書く必要があって大変だった。スレッド機能でそういった悩みがなくなる。
スレッドの中身はブラックボックスではなく開発者ダッシュボードで確認可能。
コードインタープリター
コードインタープリターはコードを生成したりできるのはもちろんのこと、ファイルの生成なども可能に。
そのデモ。「4人の友達とAirbnbに宿泊するよ。」
コードインタープリターがこれまでにファイルとして渡した飛行機のフライト情報のファイルと宿泊場所のファイルから自動で計算を始める。
パリでの宿泊日数、友達の数、宿泊場所の料金を踏まえ計算をしてその結果を出してくれるデモ。
「そんなに難しいタスクではないけれども、こんな感じのちょっとした計算や、簡単なグラフの作成、表を作ったりとかもできるのでそういった用途ではコードインタープリターはとてもいい働きをします。」とのこと。
まとめ
・各スレッドの状態管理
・ファイルからの情報抽出
・コードインタプリタ―による出力
・より使いやすくなったFunction calling
これに音声での入力を加えると本当に話しかける感じで様々なタスクを完遂してくれるようになる。
最後にまとめ
とても印象的な発表の数々でした。早速開発してみたくなりました。
OpenAIの今回の各機能の詳細やAIの今後の展望はまた別の記事で。もしよかったらフォローといいねお願いします。
この記事が気に入ったらサポートをしてみませんか?