OpenAI DevDay徹底解説！2025年はAIエージェント元年を予告

AI未来話

2025年1月16日 19:32

AIメディアを運営する男性2人が"ながら聞きでも未来がわかる"をテーマに30分で生成AIのトレンドを解説するPodcast「AI未来話」。

このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は95％がLLM「Claude」で執筆しています。

今回は「#30 OpenAI DevDay徹底解説！2025年はAIエージェント元年を予告」を再構成した内容をお届けします。

OpenAI DevDayの主要発表内容

リアルタイムAPIとボイスモードの革新

OpenAI DevDayでは、以下5つの主要な機能が発表されました。

1. リアルタイムAPI
2. プロンプトキャッシュ
3. モデル蒸留
4. 画像対応のファインチューニング
5. 新Playground機能

特に目玉となったリアルタイムAPIは、ボイスモードとAPIの連携に関する画期的な発表でした。

我々が特に注目したのは、ボイスモードのAPIを使用できるようになったという点です。

🗣️ Introducing the Realtime API—build speech-to-speech experiences into your applications. Like ChatGPT’s Advanced Voice, but for your own app. Rolling out in beta for developers on paid tiers. https://t.co/LQBC33Y22U pic.twitter.com/udDhTodwKl
— OpenAI Developers (@OpenAIDevs) October 1, 2024

これにより、音声のトークンのAPIが利用可能になり、様々なアプリケーションにこの自然な会話機能を実装できるようになりました。

リアルタイムAPIの料金設定については、現時点では音声入力が100万トークンあたり100ドル、出力が200万トークンあたり200ドルとなっています。

我々の試算では、1時間の使用で時給1300円から1400円程度のコストがかかることになり、人件費と比較するとまだ若干高めの設定となっています。

開発者向け機能の拡張

新たに発表された機能の中で、プロンプトキャッシュは開発者にとって重要な進展となっています。

このキャッシュ機能により、同じプロンプトを複数回読み込む際の通信コストを削減できるようになりました。

モデル蒸留機能については、大規模モデルの出力で小規模モデルのファインチューニングが可能になるという画期的な機能です。

画像のファインチューニングでは、100枚の画像で学習が可能になり、より簡単に画像生成モデルを調整できるようになりました。

🖼️ We’re adding support for vision fine-tuning. You can now fine-tune GPT-4o with images, in addition to text. Free training till October 31, up to 1M tokens a day. https://t.co/Nqi7DYYiNC pic.twitter.com/g8N68EIOTi
— OpenAI Developers (@OpenAIDevs) October 1, 2024

Playgroundの新機能として、プロンプトの自動生成機能も追加されました。

✨ New Playground features—quickly turn your ideas into prototypes. Describe what you’re using a model for, and the Playground will automatically generate prompts and valid schemas for functions and structured outputs. https://t.co/wiDmU4L7Or pic.twitter.com/wtBIntN0Pu
— OpenAI Developers (@OpenAIDevs) October 1, 2024

これは開発者向けの画面で利用可能で、APIの出力に関するプロンプトを自動で生成することができます。

我々は、これらの機能が開発者にとって大きな価値を持つと考えています。

AIエージェントの進化と2025年への展望

サム・アルトマンが語る2025年の展望

OpenAI DevDayの後に行われたインタビューで、OpenAIのCEOであるサム・アルトマン氏と最高製品責任者のケビン・ウェイル氏は、2025年はAIエージェントの年になると明言しました。

我々は以前からAIエージェントの可能性について議論してきましたが、この発言によって我々の予測が裏付けられた形となりました。

OpenAIの長期計画におけるエージェントの位置づけについて、サム・アルトマン氏は興味深い見解を示しています。

チャットのインターフェースは重要ですが、より重要なのは複数の人間が数日かかる作業を瞬時に実行できる能力だと説明しています。

具体的には、1ヶ月かかるタスクをエージェントが1時間で完了し、同時に10個から1000個のタスクを並行して処理できるようになることを目指しているとのことです。

エージェント開発の現状

我々が最近インタビューした企業の事例からも分かるように、多くの企業が水面下でエージェント開発を進めています。

これらの企業の多くが近々リリースや公表の段階に来ているとのことで、2025年に向けて大きな変革が起こることが予想されます。

我々の見立てでは、APIの公開により、各社が開発したエージェントが実用化され、その後にOpenAIから本格的なエージェントが登場するというシナリオが考えられます。

現在は種まきの段階であり、それが花開く瞬間が近づいているというのが、業界の共通認識となっています。

エージェントによる業務革新

エージェントの実用化により、業務の在り方が大きく変わることが予想されます。

例えば、現在1日かかっている作業を1時間で処理し、それを同時に100体、1000体のエージェントが並行して実行するような世界が現実のものとなります。

我々は、このような変革が2025年には当たり前のものとなり、想像を超える世界が訪れると考えています。

教育分野におけるボイスモードの可能性

新しい学習体験の創出

ボイスモードのAPIが公開されたことで、教育分野での活用が大きく期待されています。

例えば、英語学習アプリとの連携デモが既にDevDayで披露され、自然な会話を通じた語学学習が可能になることが示されました。

発音の確認や会話練習において、ボイスモードは学習者のレベルに合わせて話すスピードを調整したり、より分かりやすい説明を提供したりすることができます。

我々は、この機能が教育の個別最適化を大きく推進すると考えています。

教育の未来像

教育におけるAIの役割について、我々は興味深い議論を展開しました。

オンライン授業が一般化した現在、モニター越しでの学習に違和感がなくなってきています。

そこに自然な会話が可能なボイスモードが加わることで、教育の形態が大きく変わる可能性があります。

AGIに対する新たな見解と展望

AGI概念の再定義

インタビューの中で、サム・アルトマン氏はAGI（Artificial General Intelligence）に関する興味深い見解を示しました。

サム・アルトマン氏はAGIという用語が過剰に使用されているという認識から、現在はこの用語の使用を避け、代わりに5段階のフレームワークを用いて AI の進化を説明する方針を示しています。

我々は、この変化が単なる用語の問題ではなく、AI開発の本質的な方向性の転換を示唆していると考えています。

特に注目すべきは、AGIによる新しい科学的発見については、アルトマン氏が以前ほどの確信を持てなくなっているという発言です。

新しいパラダイムの模索

OpenAIの製品担当者であるケビン・ウェイル氏も、AGIの存在を二元論的に捉える考え方は時代遅れだと指摘しています。

代わりに、計算能力の拡大が正しいアプローチであったことを認めつつ、既存の考え方や方法論を抜本的に変える新しいパラダイムの必要性を強調しています。

我々は、この見解が現実的かつ建設的なアプローチだと考えています。

例えば、今回発表されたo1のように、従来とは異なる視点でアプローチすることで、新たなブレークスルーが生まれる可能性があります。

ボイスモードの実用化と未来

API連携がもたらす可能性

ボイスモードのAPI連携により、様々な実用的なアプリケーションが可能になります。

例えば、料金の支払い案内や予約受付など、定型的な電話対応業務への応用が考えられます。

我々は特に、飲食店の予約システムや役所の手続き案内など、人手不足が課題となっている分野での活用に大きな可能性を見出しています。

実際に、DevDayでは400個のイチゴを電話注文するデモが披露され、自然な会話のやり取りに会場から大きな反響がありました。

OpenAIのリアルタイムAPIを使って400個のイチゴを電話注文するデモを披露。 pic.twitter.com/U34Hv1CvkB
— Tetsuro Miyatake (@tmiyatake1) October 1, 2024

このように、実用的な場面での活用が現実的なものとなっています。

著作権への配慮と制限

興味深い点として、ボイスモードには歌を歌わせることができないという制限が設けられています。

これは著作権に関する慎重な配慮によるもので、サム・アルトマン氏も開発者側が法的なリスクを冒すような機能は提供できないと説明しています。

我々は、このような制限が必要である一方で、将来的にはより細かい制御が可能になることで、創造的な活用の幅が広がることを期待しています。

まとめ

OpenAI DevDayで発表された新機能の中で、特に注目を集めたのがボイスモードのAPI公開です。

これにより、自然な会話機能を様々なアプリケーションに実装できるようになりました。

さらに、サム・アルトマン氏は2025年を「AIエージェントの年」と位置づけ、1ヶ月かかるタスクを1時間で処理し、同時に1000個のタスクを並行して実行できるような世界の到来を予告しています。

また、AGIという概念から離れ、より実践的な5段階のフレームワークによる開発アプローチへの転換も示されました。

教育分野での活用など、具体的な応用例も示され、AIの実用化が加速度的に進むことが予想されます。

我々のポッドキャスト「AI未来話」では、これまでAIエージェントについて全4回のシリーズで詳しく取り上げてきましたが、今回のOpenAI DevDayでの発表は、まさにその伏線回収とも言えるものでした。