「12 Days of OpenAI」の毎日の発表に点数を付けてみた
「12 Days of OpenAI」は、OpenAIが2024年12月5日から12月20日までの平日に、新製品や新機能を毎日発表するイベントです。
このイベントは、別名、Shipmasとも呼ばれています。Shipmasは、英語のship(出荷する)とChristmasを組み合わせた造語で、OpenAIが新製品や新機能を連続して「出荷」することをクリスマスの贈り物に見立てて表現しています。
この記事では、ChatGPTとその検索機能を使用して、OpenAIの発表内容について1日ずつまとめていきます。
○ 12 Days of OpenAIの公式サイト(毎日の発表動画を掲載)https://openai.com/12-days/
Day 1(12月5日)o1 & ChatGPT Pro
1. 高度なAIモデル「o1」の正式リリース
「o1」は、これまでプレビュー版として提供されていた高度な推論能力を持つAIモデルで、正式版では以下の改善が施されています。
性能向上: 数学、コーディング、生物学、物理学、化学などの専門的な問題において、従来のGPT-4.0を上回る性能を発揮しています。
マルチモーダル対応: 画像のアップロード機能が追加され、テキストと画像を組み合わせた質問や回答が可能になりました。
応答速度の最適化: 質問の難易度に応じて、シンプルな質問には迅速に、複雑な質問には適切な時間をかけて応答するよう最適化されています。
エラー率の低下と速度向上: プレビュー版と比較して、エラー率が34%削減され、処理速度が50%向上しています。
2. 新しい加入プラン「ChatGPT Pro」の発表
月額200ドルの新しい加入プラン「ChatGPT Pro」が導入され、以下の特典が提供されます。
o1を含む全モデルへの無制限アクセス: 特にo1モデルを頻繁に利用するユーザーにとって有益です。
「o1 Pro Mode」の搭載: 通常のo1よりも高度な計算処理能力を持ち、特に競争的な数学問題や複雑なワークフローでのパフォーマンスが向上します。
今後の機能拡張: ウェブブラウジングやファイルアップロード機能の導入が検討されています。
感想
o1の性能は確かにo1-previewより向上しており、数学、科学分野の質問やコーディング以外の用途でも、かなり使い勝手がよくなっています。また、出力トークン数が増えたことから、従来より長い文章を一度に出力できるようになっており、o1を使用するメリットは大きいでしょう。筆者もo1-previewの頃はGPT-4oを使用することの方が多かったのですが、現在はo1を使用することが増えています。
ChatGPT Proは、o1を無制限に使用でき、さらに、o1より高性能なo1 pro modeを使用できることから魅力的ですが、月200ドル(約3万円)という高額な料金がネックになっています。
評価 8点
o1モデルがChatGPTの性能を相当向上させたので10点としたいところですが、ChatGPT Proの料金が高すぎるので2点減点しました。
Day 2(12月6日)OpenAI's Reinforcement Fine-Tuning Research Program
1. 強化学習によるファインチューニング(RFT)技術の正式リリース
OpenAIは、AIモデルを特定のタスクやドメインに最適化する新たな手法として、「Reinforcement Fine-Tuning(RFT)」を正式にリリースしました。この技術により、ユーザーは自身のデータセットを用いてモデルをカスタマイズし、専門分野に特化したAIモデルを構築することが可能となります。
RFTの主な特徴:
少量データでの効果的な学習: 数十から数百の例示的データのみで、モデルの推論能力を大幅に向上させることができます。
専門分野への適用: 法律、金融、エンジニアリング、医療など、専門知識が求められる分野での応用が期待されています。
強化学習の活用: モデルが試行錯誤を通じて最適な回答パターンを学習し、未知の質問にも適切に対応できるようになります。
2. RFTリサーチプログラムの拡大
RFT技術のリリースに伴い、OpenAIは研究者、大学、企業向けにアルファアクセスを提供するリサーチプログラムを拡大しました。このプログラムに参加することで、最新のカスタマイズ技術をいち早く体験し、専門的なAIモデルの開発に取り組むことが可能となります。
プログラムの特徴:
限定された参加枠: 高品質なサポートを提供するため、参加枠は限られています。
専門的なサポート: OpenAIのエキスパートチームによる技術支援やコンサルティングが受けられます。
共同研究の機会: 他の参加者とのコラボレーションや知見の共有が可能です。
感想
個人として利用する人は少ないと思いますが、専門分野に特化したAIモデルを開発したい企業や研究者には魅力的な技術だと思います。
評価 0点
開発者には有用な技術ですが、筆者が利用することはないと思うので。
Day 3(12月9日)Sora
○ 動画生成プラットフォーム「Sora」の正式リリース
「Sora」は、テキストからリアルな動画を生成できるAIモデルで、クリエイターの創造性を大幅に拡張することを目的としています。
Soraの主な特徴:
テキストからの動画生成: ユーザーが入力したテキストプロンプトに基づき、最大20秒間の短編動画を生成します。
静止画からの動画生成: アップロードした画像を基に、関連する動画を作成することが可能です。
動画のリミックスやブレンド: 既存の動画に変更を加えたり、複数の動画を組み合わせて新しい映像を生成したりできます。
ストーリーボード機能: 複数のシーンやアクションを時系列で指定し、ストーリー性のある動画を作成することができます。
利用条件と提供地域:
ChatGPT PlusおよびProユーザー: これらのユーザーは追加料金なしでSoraを利用できます。
提供地域: 米国および多くの国で利用可能ですが、欧州や英国では現時点で未対応となっています。
感想
今年(2024年)2月にOpenAIが発表し、サービスの公開が待たれていた動画生成AIのSoraが今回やっと一般公開され、使用できるようになりました。その間に、Luma DreamMachine、Runway Gen-3、Hailuo AIなどの動画生成AIが公開され、Soraが発表された時ほどの驚きは無くなりましたが、依然、他の動画生成AIと比較しても品質が高く、高性能です。また、ストーリーボード機能やリミックス機能などの動画編集機能も使いやすく、現時点で最優秀の動画生成AIの一つと言えるでしょう。
しかし、Soraであっても、思い通りの動きをするように動画をコントロールすることはまだ難しく、更なる改善が期待されます。
評価 6点
高性能な動画生成AIを追加料金なしで使えるのは魅力的ですが、動画のコントロールが難しく、なかなか思い通りの動きをさせることができないので。
Day 4(12月10日)Canvas
○ 新しいインターフェース「Canvas」の全ユーザーへの提供開始
「Canvas」は、ChatGPTと共同で文書やコードを作成・編集できる新しいインターフェースです。これまでベータ版として一部のユーザーに提供されていましたが、今回すべてのユーザーが利用可能となりました。
Canvasの主な特徴:
リアルタイム共同編集: ユーザーとChatGPTが同じドキュメント上でリアルタイムに編集作業を行うことができます。
コードの直接実行: Canvas内でPythonコードを直接実行し、テキストやグラフィックの出力を即座に確認できます。
カスタムGPTとの統合: CanvasをカスタムGPTに組み込むことで、特定のタスク向けの高度なコラボレーションが可能になります。
利用方法:
ChatGPTの主要なインターフェースとして統合されており、ユーザーは特別な設定なしにCanvasを利用できます。
感想
ChatGPT Plusのユーザーは、今年の10月からCanvasを利用できました。生成した文書やコードを別画面に表示して、ChatGPTに修正させたり、自分で修正したりできるので、文章やプログラムの編集作業の際に便利です。
今回、Pythonコードの実行結果をテキストやグラフで出力できるようになったのは一歩前進ですが、Claudeのアーティファクトがアプリや様々なグラフィックデザインを表示できるのと比べると、まだ見劣りがします。
また、Canvasで外部APIを利用したコードを作成・実行したり、GPTsでCanvasを利用したりすることもできるようになりました。ただし、こうした機能の有効な使い方は、まだあまり見つかっていません。
評価 3点
筆者の場合、Canvas自体は以前から使用可能であり、今回、追加されたPythonコードの実行やGPTsとの連携には、それほど大きなインパクトがなく、Claudeのアーティファクトより見劣りがするため。
Day 5(12月11日)ChatGPT in Apple Intelligence
○ Appleとの連携による「ChatGPT x Apple Intelligence」の発表
Appleとの共同開発により、iOS、iPadOS、macOSの最新版にChatGPTが統合されました。
主な発表内容:
Siriとの統合: SiriがタスクをChatGPTに引き継ぐことで、より複雑な要求にも対応可能となりました。
文書編集支援: ユーザーは文書の要約やキーポイントの抽出、さらには文書作成をChatGPTのサポートを受けながら行うことができます。
ビジュアルインテリジェンス: iPhoneのカメラ機能を活用し、ユーザーが見ている対象物に関する情報をChatGPTが提供します。
macOSとの統合: Siriや入力ツールを通じて、PDFの要約や分析を容易に行えるようになりました。
感想
iOS 18.2などの最新のOSにアップデートすれば、これらの機能が使えるようになるはずなのですが、実は、iPhone 15 ProかiPhone 16以上の新しい端末でないと、そもそもApple Intelligenceが使えません。筆者のiPhoneも古いので、これらの機能は使えていません。また、Apple Intelligenceは、まだ日本語対応はしていないようです。
Siriとの連携は便利そうですが、ChatGPTの音声モードを直接使うのと比べて本当に便利なのかどうかは、実際に使ってみないと分かりません。
評価 0点
iPhone 15 ProかiPhone 16以上でないと使用できないため。
Day 6(12月12日)Advanced voice with video & Santa mode
1. ChatGPTの「Advanced Voice Mode」におけるビデオおよび画面共有機能の導入
このアップデートにより、ユーザーはChatGPTとの対話中にリアルタイムでビデオ通話や画面共有が可能となり、より直感的で効果的なコミュニケーションが実現します。
主な特徴:
リアルタイムビデオチャット: ユーザーはChatGPTとビデオ通話を行い、視覚的な情報を共有しながら対話できます。
画面共有機能: ユーザーは自身の画面を共有し、具体的なサポートやフィードバックを受けることが可能です。
利用方法:
最新のChatGPTモバイルアプリで順次提供されており、Plus、Pro、Enterpriseユーザーが対象となります。
2. 「Santa Mode」の追加
ホリデーシーズンに合わせ、ChatGPTに「Santa Mode」が導入され、ユーザーはサンタクロースと会話を楽しむことができます。
主な特徴:
サンタクロースとの対話: サンタに質問したり、クリスマス関連の物語を聞くことができます。
特別な音声トーン: サンタの声は陽気で親しみやすいトーンに設定されています。
利用方法:
Santa Modeはデスクトップおよびモバイルアプリで利用可能で、12月末までの期間限定機能となります。
感想
筆者のiPhoneアプリでは、12月15日にビデオチャット機能と画面共有機能が使用できるようになりました。早速、使用してみましたが、スマホのカメラで映した映像について質問したり、スマホ画面に映った情報について会話したりできるので、とても活用範囲が広いです。
実際の使用例を一つ挙げると、Xの投稿画面を表示して、投稿の内容について質問したり、日本語訳・要約を頼んだりするのが便利でした。
Santa ModeもiPhoneアプリで試してみました。12月末までの期間限定機能で、実用性はありませんが、使ってみると楽しいと思います。
評価 7点
ビデオチャット機能や画面共有機能は様々な活用法がありそうです。デスクトップでも使えるようになるとよいのですが。
Day 7(12月13日)Projects in ChatGPT
○ 新機能「Projects」の導入
複数のチャットや関連するデータ、画像、PDFなどをまとめて整理できるProjects機能が導入されました。カスタム指示を追加することもできます。
Projectsの主な特徴:
組織化されたチャット管理: ユーザーは関連するチャットをプロジェクトごとにまとめ、効率的に管理できます。
カスタマイズ可能なプロジェクト設定: プロジェクトのタイトル編集、アイコンの色設定、関連ファイルや指示の追加が可能で、ChatGPTの応答をプロジェクトごとに最適化できます。
過去のチャットの統合: 既存のチャットをプロジェクトに追加し、関連情報を一元管理できます。
利用可能なユーザー:
Projectsは現在、ChatGPT Plus、Pro、Teamsのユーザーに提供されています。無料ユーザーへの提供は「できるだけ早く」、EnterpriseおよびEduユーザーには「来年初め」に予定されています。
感想
早速、Projects機能を使ってみましたが、チャットをグループごとに整理できるのでとても便利です。また、カスタム指示を用途別に設定できるので、例えば「この英文を省略せずに正確に日本語訳して」などのカスタム指示を設定したProjectを作成しておけば、英文を貼り付けるだけで日本語訳を作成してもらえるので便利です。
発表当初は、Projects機能で使用できるモデルがGPT-4oに限定されていたのですが、12月15日より、o1モデルなどの他のモデルも選択できるようになりました。ただし、ファイルやカスタム指示を追加すると、GPT-4oに固定されて、o1モデルなどが使用できなくなります。
評価 5点
Projects機能は、バラバラになっていたチャットをグループごとに整理できるのが便利で、早速使っています。また、カスタム指示を用途別に設定できるのも便利です。あとは、o1モデルでも、Projects用のカスタム指示を設定できるようになれば、もっと有効活用できるようになるでしょう。
Day 8(12月16日)Search
○ Web検索機能の強化
ChatGPTのWeb検索機能を強化し、全ユーザーへの提供を開始しました。 
主な発表内容:
検索機能の全ユーザーへの提供: これまで有料ユーザーに限定されていたChatGPTの検索機能が、無料ユーザーを含むすべてのユーザーに開放されました。これにより、ChatGPTはリアルタイムの情報を提供できるようになり、最新のニュースやデータへのアクセスが可能となります。
モバイル向けの最適化: モバイルユーザー向けに、従来の検索エンジンに近いインターフェースが導入されました。特定の場所(例: レストランや観光地)を検索すると、画像、評価、営業時間などの情報が一覧表示され、地図や経路案内もアプリ内で確認できます。
特定サイトへの迅速なアクセス: 「ホテル予約サイト」などの特定のウェブサイトを探す際、ChatGPTは詳細な回答を生成する前に、関連するリンクを即座に提示します。これにより、ユーザーは必要な情報に迅速にアクセスできます。
Advanced Voice Modeでのウェブ情報提供: 有料ユーザー向けのAdvanced Voice Modeでは、最新のウェブ情報を音声で提供する機能が追加されました。これにより、音声対話中でも最新情報の取得が可能となります。
感想
Advanced Voice Modeと共に音声でWeb検索が使えるようになった以外は、今年10月末に発表された内容と同じです。有料ユーザーにとっては既に利用できていた機能なので、あまり新鮮味はありません。
Advanced Voice ModeでのWeb検索機能は、筆者の場合、まだ使用可能になっていませんが、音声でも最新の情報を扱えるようになるのは評価できると思います。
あとは、o1モデルでも、早くWeb検索機能が使えるようになって欲しいです。
評価 2点
最新の情報を扱えるChatGPTの新しいWeb検索機能自体は有能で、10月末に使用できるようになってから非常に使用頻度が高いのですが、今回の発表で追加されたものではないため、厳しい評価にしました。
これから初めて利用できるようになる無料ユーザーにとっては、価値のあるものだと思います。
Day 9(12月17日)Holiday treats for developers
1. o1モデルのAPIの提供
OpenAIは、高度な推論能力を持つo1モデルのAPIを正式に公開しました。このモデルは、科学、数学、コーディングなどの複雑なタスクに特化しており、以下の特徴を備えています。
Function Calling: 外部APIやデータへのシームレスな接続が可能です。
Structured Outputs: 指定したJSONスキーマに準拠した安定的な出力を生成します。
Developer Messages: トーンやスタイル、追加コンテキストの指示を付与できます。
ビジョン対応: 画像解析機能を備えています。
低遅延化: 推論に用いるトークン数を削減し、応答速度を向上させています。
reasoning_effortパラメータ: モデルが応答前に行う推論の深度を制御可能です。
最新のスナップショット「o1-2024-12-17」は、前身のo1-previewから多くのベンチマークで精度が向上しており、特に数学やコード生成、一般知識タスク、ビジョン(画像処理)領域で性能向上を示しています。
2. Realtime APIの改善
リアルタイム音声・テキスト対話を可能にするRealtime APIが強化されました。主な改善点は以下のとおりです。
WebRTC対応: ブラウザやモバイル、IoT機器などでのリアルタイム音声通信が簡易化されました。
コスト削減: GPT-4o音声入力トークンの価格が約60%低下し、GPT-4o-miniは従来比1/10のオーディオ料金で提供されます。
制御強化: 並行的な外部回答処理、カスタム入力コンテキスト、レスポンスのタイミング制御など、開発者の裁量幅が拡大しました。
セッション延長: 最大30分のセッション持続時間を実現しました。
これらの改善により、低遅延でコスト効率の良いリアルタイム対話が可能となります。
3. Preference Fine-Tuningの導入
OpenAIは、従来の教師ありファインチューニング(Supervised Fine-Tuning:SFT)とは異なる新たなモデルカスタマイズ手法として「Preference Fine-Tuning」を導入しました。これは、Direct Preference Optimization (DPO) を用いることで、モデルが「望ましい応答」と「望ましくない応答」を比較し、好ましい出力への傾向を学習する手法です。
主観的タスクへの適性: トーン、スタイル、創造性など明確な正誤基準がない分野で効果的です。
学習手法の違い: SFTは既定の正解出力を再現するようモデルを訓練しますが、Preference Fine-Tuningでは、ある2つの応答間でどちらが「好ましい」かをモデルに判断させ、その選好傾向を強化します。
実用例と効果: 金融分析向けのAIアシスタントを開発するRogo AIは、Preference Fine-Tuningにより、従来のSFTでは対応が難しかった未知の指標の取得や要望に柔軟に対応するモデルを実現し、モデルの精度とユーザー満足度の向上が確認されています。
4. GoとJava向けSDKの提供
OpenAIはGoとJava向けの公式SDKをベータリリースしました。これにより、Python、Node.js、.NETに加えて、GoやJavaでも公式サポートが整い、言語選択の幅が広がります。
Go対応: 並行処理やスケーラブルなバックエンド構築に向いたGo言語で、APIへのアクセスが容易になります。
Java対応: エンタープライズ開発で一般的なJavaでも、型安全なリクエストやレスポンス処理が可能になり、大規模システムや既存アプリケーションへの組み込みがスムーズです。
感想
筆者は開発者ではないので、今回発表された機能を利用する予定は特にありません。今後、o1 proモードのAPIが公開されれば、スポット的に利用するかもしれません。
評価 1点
開発者以外には、あまり役に立つ機能ではありません。OpenAIのPlaygroundでo1モデルを試してみたい無料ユーザーなどには、良いかもしれません。
Day 10(12月18日)1-800-CHATGPT
1. ChatGPTの電話対応
米国内のユーザーは、電話を使って音声でChatGPTと会話できるようになりました。
サービス名称は1-800-CHAT-GPT
電話番号は1-800-242-8478
月15分までの無料通話が可能
2. ChatGPTのWhatsApp対応
米国外のユーザーでも、インスタントメッセージングのWhatsAppでChatGPTとテキストで会話できるようになりました。
テキスト会話は日本語にも対応
将来的には、画像にも対応予定
以下のQRコードからWhatsAppでのチャットを開始できる
感想
音声電話でのアクセスは、米国内ユーザーのみ対応なので使えません。WhatsAppでのアクセスは日本からでも可能ですが、WhatsAppは、日本ではそれほど普及しておらず、このサービスを利用する人は少ないでしょう。
評価 1点
日本での利用は少ないと思われるので、低評価になりました。将来的に日本語での音声通話も可能になるのでしょうか。また、LINEに対応すれば、日本でもよく利用されるようになると思います。
Day 11(12月19日)Work with apps
ChatGPTデスクトップアプリの機能が強化されました。
1. Work With機能の拡張
ChatGPTデスクトップアプリのWork With機能(現在はMac版のみ対応)がターミナルアプリのWarpや、Notion、Apple Notesなどに対応しました。
ワンクリックで作業中のアプリのコンテンツをChatGPTに取り込み、データ分析、コード生成、文章編集などが可能
ユーザーが許可した場合しか、アプリのコンテンツにアクセスしないため、セキュリティ上も安心
今後、Windows版も対応予定
2. アドバンスド音声モードによる音声指示
アドバンスド音声モードを利用して、ChatGPTデスクトップアプリで音声による指示が可能になりました。
例えば、サンタの声を呼び出して、画面上の音楽セットリストを見せながら、改善の提案をしてもらうといったユニークな使い方ができます。
感想
Mac版デスクトップアプリのWork With機能やアドバンスド音声モードは、既に利用可能になっていたため、今回の新しい発表は、Warp、Notion、Apple Notesなどのアプリにも対応したことになります。特に、Notionユーザーには、ありがたい機能でしょう。
一方で、Windows版は、まだWork With機能に対応していません。今後、いつ導入されるのか、また、どんなアプリと連携できるようになるのかが気になるところです。
アドバンスド音声モードを利用した音声による指示については、面白いですが、実用性については少し疑問です。
評価 2点
筆者はWindowsユーザーで、まだこの機能を利用できないため、低い評価になりました。Notionもあまり使っていないため、今のところ、あまり魅力を感じていません。自分が普段使用するアプリと連携すれば、評価が上がると思います。