
[09/28~10/04] 生成AI Weekly News #56|Realtime APIをピックアップ
今回も社内で話題になった生成AIに関するニュースをご紹介します。
ピックアップ| Realtime API -OpenAI DevDay
概要と機能
OpenAIが2024年10月1日に開催したDevDayで発表されたRealtime APIは、音声データをリアルタイムで処理する革新的なツールです。

このAPIは、音声入力と出力を統合し、低遅延で自然な会話体験を提供します。従来の音声対話型アプリケーションでは、音声認識、言語モデル、音声合成など複数のモデルを組み合わせる必要がありましたが、Realtime APIを使用することでこれらの処理が一つのAPIで実現できるようになります。これにより、開発者はよりスムーズで効率的なアプリケーションを構築できるようになります。
技術的な詳細
Realtime APIはWebSocket接続を利用しており、クライアントとサーバー間でJSON形式のメッセージをやり取りします。音声データは16ビットPCMオーディオまたはG.711フォーマットで送信され、テキストデータも同様に送信されます。このAPIでは、音声アクティビティ検出(VAD)機能が搭載されており、ユーザーが話し始めるタイミングを自動的に検出することができます。また、料金体系も明確で、テキストトークンとオーディオトークンがそれぞれ異なる価格設定になっています。具体的には、テキスト入力は100万トークンあたり5ドル、オーディオ入力は100万トークンあたり100ドルとなっています。
費用感としては、ざっくりと800〜1,300円程度なのではないかと言われております。
GPTの音声会話APIさん、なかなかのお値段
— 深津 貴之 / THE GUILD (@fladdict) October 1, 2024
100万インプットトークン$100。100万アウトプットトークン$200。
1分インプット$0.06。1分アウトプット$0.24。
ざっくり1分会話で0.15$。60分で9$。会話の間を考えて時給800〜1300円。
Introducing the Realtime API | OpenAI https://t.co/OXf37UIbdn
ユースケースと今後の展望
このAPIは、多くのユースケースに応用可能です。例えば、音声アシスタントやリアルタイム翻訳アプリケーションでは、ユーザーが異なる言語で会話できるようになります。また、対話型ゲームや教育アプリケーションでも活用されることでしょう。今後、このAPIがさらに進化し、画像や動画など他のメディア形式にも対応することが期待されています。これにより、より多様なインタラクションが可能になり、AI技術の普及が加速するでしょう。
OpenAI DevDayで発表されたRealtime APIは、その革新性と多様な応用可能性から、多くの開発者にとって注目すべき技術となっています。今後、このAPIがどのように進化し、新たなアプリケーションを生み出すかが楽しみです。
AI英会話アプリのSpeakが、数ヶ月前からOpenAIと協力・テストし、Realtime APIを導入したLive Roleplaysを発表しました。
AI英会話アプリのSpeakが、数ヶ月前からOpenAIと協力・テストし、Realtime APIを導入したLive Roleplaysを発表
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) October 1, 2024
- 人間のパートナーと同等以上で応答し、トーン、発音、韻律などを理解し、フィードバック提供
- よりニュアンスに富んだ言語学習特有のタスクはまだ向いていない
-… https://t.co/RRUoJ14rX4 pic.twitter.com/HTk0iftogL
プロダクト・サービス
ChatGPT新機能、「Canvas」
OpenAIは2024年10月3日、ChatGPTの新機能「Canvas」をリリースしました。Canvasは、ライティングやコーディング作業をより効率的に行うための視覚的なワークスペースを提供します。従来のチャット形式を超え、ユーザーがAIと協力してプロジェクトを進めるためのインタラクティブな環境を実現しています。現在はChatGPT PlusおよびTeamユーザー向けにβ版が提供されており、将来的には無料ユーザーにも開放される予定です。
We’re rolling out an early version of canvas—a new way to work with ChatGPT on writing & coding projects that go beyond simple chat.
— OpenAI (@OpenAI) October 3, 2024
Starting today, Plus & Team users can try it by selecting “GPT-4o with canvas” in the model picker. https://t.co/GoGZiRzCsB
【速報】ChatGPTに新機能「Canvas」登場
— ChatGPT研究所 (@ctgptlb) October 3, 2024
文章・コード作成がさらにスムーズに。
「Canvas」がPlusとTeamユーザー向けに提供開始。ChatGPTと別ウィンドウで共同作業が可能に。
文章の校正・編集、コードレビューも簡単に行えます。
使い方の詳細はスレッド👇🧵pic.twitter.com/UkaYozsikA
AIリップシンクのHedra、「Character-2」で進化
AIリップシンクサービスのHedraが新バージョン「Character-2」を公開しました。Character-2では、最大4分までのリップシンク生成が可能になり、日本人などの東洋系モデルへの対応も改善されています。この進化により、AIミュージックビデオやAIポッドキャストの制作が実用的なレベルに達したと言えます。
「焦点移動」ができる動画生成AI、「Seaweed」が発表
Bytedance社が新しい動画生成AIモデルを発表しました。Doubao-PixelDanceとDoubao-Seaweedで10月から利用可能の予定とのこと。
Seaweedでは動画のような焦点移動が可能なようです。
A new State of the Art AI Video Model called Seaweed has recently dropped and it is fairly mind blowing, doing at least 2 things I have not seen any other AI Video Generator do as of yet. pic.twitter.com/VgfyuTuGCp
— Theoretically Media (@TheoMediaAI) September 30, 2024
genspark、データソースにarxivなど追加
ArxivやSemantic Scholarのような権威あるデータベースとGensparkを接続し、2,000万以上の学術論文にアクセスできるようになりました。
(1/4) Yes, we’re back with updates again! We’re excited to roll out Partner Data Source Integration and an upgraded Autopilot Agent with Sparkpage. For those who use Genspark for research and work purpose, this will bring you more high-quality info and an even smoother workflow. pic.twitter.com/bnE7XdYhjr
— Genspark (@genspark_ai) October 3, 2024
ComfyUI-AdvancedLivePortrait、表情の細かい修正が得意な画像生成
表情を変えたい時は
— LUTA@AI (@luta_ai) October 1, 2024
「ComfyUI-AdvancedLivePortrait」いいかも😍
画像生成で
「もうちょっとだけこっち見て欲しい」
と思うことが、よくありますが
AdvancedLivePortraitでいい感じに修正できました🥰
限界はあるけど、
無理のない範囲であれば調整できるし… pic.twitter.com/y6Hah3O8Tc
動画生成AI、Pika 1.5
動画生成AI Pika 1.5が面白い!
— KEITO💻AIディレクター (@keitowebai) October 2, 2024
Pikaffect(特殊エフェクト)を使って
・Inflate it:膨らませる
・Melt it:溶かす
・Explode it:爆発させる
・Squish it:絞る
・Crush it:粉砕する
・Cake-ify it:ケーキ化する
が可能になった。… pic.twitter.com/QzVYrA7VfW
ニュース
OpenAIの共同創業者がまた1人、Anthropic入り
以前からOpenAIの創業メンバーの離脱が続いておりますが、また新たにOpenAIの共同創業者の一人であるDurk Kingma氏が、AIスタートアップのAnthropicへの入社を発表しました。
OpenAIが約1兆円の大型資金調達を実施
OpenAIは2023年10月2日、66億ドル(約9700億円)の資金調達を発表しました。この調達により、同社の企業価値は1570億ドル(約23兆円)に達し、約1年で倍増しました。主な投資家にはThrive Capital、Microsoft、NVIDIA、ソフトバンクなどが含まれています。調達された資金は、AI研究の強化やコンピューティング能力の向上、新しいツールの開発に充てられる予定です
ハローワーク、生成AI導入を検討 マッチングの効率化狙う OpenAI Japanの協力も視野に
AI開発規制法案 カリフォルニア州知事が署名拒否で成立せず
論文・技術系
LLMの間違いを人間によるチェックで修正することは難しい
Natureの論文は、LLMの間違いを人間によるチェックで修正することは難しいと結論づけた。
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) September 27, 2024
この実験では、LLMの出力を人間が評価し、LLMの回答を正解/間違い/回答保留に分類した。
その結果、LLMの間違いを人が正解と言ってしまうケースが多く、しかもモデルを強くすると悪化することがわかった。 https://t.co/5hD7VZsBiX pic.twitter.com/eLO9PGc2kH
RAG系まとめ
More focus on LLM reasoning and RAG this week.
— elvis (@omarsar0) September 28, 2024
Here are a few interesting research papers for the weekend:
- Logic-of-Thought: Proposes a new prompting technique called Logic-of-Thought (LoT) which employs propositional logic to generate and inject expanded logical information… pic.twitter.com/TejM17Vd5R
その他ニュース
AIに電話をかけさせてをイチゴを200個発注
今日発表された音声会話APIを使って、AIに電話をかけさせて🍓を200個発注。
— Kenn Ejima (@kenn) October 2, 2024
年配者向けの旅行代理店、ネット予約できないレストランの予約代行など、コンシェルジュ的なサービスは色々作れそう。
Admit AIでは、面接予行演習で使ってみる予定。
LLMは新たなフェーズに突入しましたね。 https://t.co/hM9L0p1tW1
Sam Altman氏が描く「知能の時代(The Intelligence Age)」 - 本人ブログより
OpenAIのCEO、Sam Altman氏が個人ブログで「The Intelligence Age(知能の時代)」と題した記事を公開しました。この中で、人工知能(AI)が人間の能力を超える「超知能AI」の実現が「数千日後」に可能になるという見解を示しています。Altman氏は、AIによって気候変動の解決や宇宙コロニーの設立、物理学の全解明などが可能になり、「大規模な繁栄」をもたらすと予測しています。
桂文枝、生成AIと共作で創作落語
[ご案内] 生成AI活用のお悩み相談、開催中

現在、DX推進者・新規事業担当者限定で、弊社生成AIコンサルタントとの壁打ち1時間を無料で実施しております。
「生成AIを活用したいが何からやればいいのかわからない」
「生成AIでやりたいことは決まっているが、本当に実現できるのかわからない」
という方はぜひご相談ください。
今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!
今週もお疲れ様でした!
=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪
X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!
「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase
生成AI事例集
会社HP