Advanced voice with video【概要&ファーストインプレッション】
OpenAIが開催する12日間の連続リリースイベント「12 Days of OpenAI」。本日は、Day 6「Advanced Voice with Video & Santa Mode」の内容をお届けします!今回のアップデートでは、ChatGPTのAdvanced Voice Mode(高度な音声機能)がさらに進化し、ビデオ認識・画面認識機能が加わりました。また、クリスマスシーズンにぴったりな期間限定のサンタ音声モードなど、新しい楽しみ方も追加されました。
概要
ビデオ機能
今回のアップデートに関するデモでは、ChatGPTがビデオ映像を認識し、映像に映る人物や状況に応じた会話を生成する様子が披露されました。たとえば、OpenAIの社員がビデオカメラで同僚を映しながら、「トナカイの角をかぶっている同僚はだれ?」と質問すると、ChatGPTは画面に映る人物を認識し、「ミシェルさんです」と答えるという流れが紹介されました。このデモでは、ChatGPTの映像認識能力が非常にスムーズに機能していることが強調されており、音声・映像の両方を活用した新しい形のインタラクションの可能性を感じさせます。
デモの中では、ChatGPTが「コーヒーをハンドドリップで淹れる手順」を教えるシーンも披露されました。これにより、ChatGPTが視覚的な情報を活用し、手順をより具体的かつ分かりやすく伝える能力が示されています。たとえば、必要な道具や手順をビデオの映像に基づいて的確に説明してくれるため、より実践的なサポートが可能になります。このような機能は、料理やDIYなど、ビジュアルが重要な分野での活用が期待されます。
画面共有機能
画面共有機能を使うと、さまざまなアプリケーションの画面をChatGPTに共有することができます。デモ動画では、メッセージアプリを開き、受信したメッセージや画像をChatGPTに認識させ、返信案を提案してもらう例が紹介されました。
期間限定!「Santa」音声の追加
このサンタ音声は、音声変更設定から「Santa」を選択もしくは、Advanced Voice Modeで発話の際に押す際の雪アイコンをクリックで利用可能です。私は、「メリークリスマス!素敵なクリスマスをお過ごしですか?」とサンタに話しかけられたので、「まだ12月13日なのでクリスマスじゃないんです」と返答してしまいました。クリスマスシーズンの会話がちょっと楽しくなる仕掛けですね。
ファーストインプレッション
個人的には、今回のビデオ機能については、すでにChatGPTがマルチモーダル機能を搭載している点を踏まえると、あくまでそのブラッシュアップであり、ユーザーから以前より多く寄せられていた要望への対応という印象を受けました。そのため、機能的な意味でのサプライズは正直ありませんでした。しかし、ビデオ認識を通じてマルチモーダル機能の実用性がさらに高まったことは評価したいと思います。
また、画面共有機能についても、スクリーンショットを撮影し、画像としてChatGPTにアップロードすることで同様のことができていたことを考えると、新規性の面で特段の驚きはありませんでした。ただ、スクリーンショットを撮る手間を省き、リアルタイムで画面を共有して質問や提案ができるようになることで、ユーザー側の操作フローが簡略化される点は大きなメリットです。総合的には、驚きこそ少ないものの、利便性向上に寄与する今回のアップデートは、素直に歓迎したいと感じました。
おわりに
「12 Days of OpenAI」もいよいよ後半戦に突入しました!今回のDay 6では、音声&映像の進化とホリデー限定のSanta音声という、技術と遊び心が詰まった内容をお届けしましたがいかがだったでしょうか。
では、また次のnoteでお会いしましょう。
関連記事
OpenAIの「12 Days of OpenAI」シリーズについては、過去記事で取り上げていますので、まだの方はぜひご覧ください。