見出し画像

[09/28~10/04] 生成AI Weekly News #56|Realtime APIをピックアップ

今回も社内で話題になった生成AIに関するニュースをご紹介します。


ピックアップ| Realtime API -OpenAI DevDay


概要と機能

OpenAIが2024年10月1日に開催したDevDayで発表されたRealtime APIは、音声データをリアルタイムで処理する革新的なツールです。

https://openai.com/index/introducing-the-realtime-api/

このAPIは、音声入力と出力を統合し、低遅延で自然な会話体験を提供します。従来の音声対話型アプリケーションでは、音声認識、言語モデル、音声合成など複数のモデルを組み合わせる必要がありましたが、Realtime APIを使用することでこれらの処理が一つのAPIで実現できるようになります。これにより、開発者はよりスムーズで効率的なアプリケーションを構築できるようになります。

技術的な詳細

Realtime APIはWebSocket接続を利用しており、クライアントとサーバー間でJSON形式のメッセージをやり取りします。音声データは16ビットPCMオーディオまたはG.711フォーマットで送信され、テキストデータも同様に送信されます。このAPIでは、音声アクティビティ検出(VAD)機能が搭載されており、ユーザーが話し始めるタイミングを自動的に検出することができます。また、料金体系も明確で、テキストトークンとオーディオトークンがそれぞれ異なる価格設定になっています。具体的には、テキスト入力は100万トークンあたり5ドル、オーディオ入力は100万トークンあたり100ドルとなっています。

費用感としては、ざっくりと800〜1,300円程度なのではないかと言われております。

ユースケースと今後の展望

このAPIは、多くのユースケースに応用可能です。例えば、音声アシスタントやリアルタイム翻訳アプリケーションでは、ユーザーが異なる言語で会話できるようになります。また、対話型ゲームや教育アプリケーションでも活用されることでしょう。今後、このAPIがさらに進化し、画像や動画など他のメディア形式にも対応することが期待されています。これにより、より多様なインタラクションが可能になり、AI技術の普及が加速するでしょう。

OpenAI DevDayで発表されたRealtime APIは、その革新性と多様な応用可能性から、多くの開発者にとって注目すべき技術となっています。今後、このAPIがどのように進化し、新たなアプリケーションを生み出すかが楽しみです。

AI英会話アプリのSpeakが、数ヶ月前からOpenAIと協力・テストし、Realtime APIを導入したLive Roleplaysを発表しました。



プロダクト・サービス


ChatGPT新機能、「Canvas」

OpenAIは2024年10月3日、ChatGPTの新機能「Canvas」をリリースしました。Canvasは、ライティングやコーディング作業をより効率的に行うための視覚的なワークスペースを提供します。従来のチャット形式を超え、ユーザーがAIと協力してプロジェクトを進めるためのインタラクティブな環境を実現しています。現在はChatGPT PlusおよびTeamユーザー向けにβ版が提供されており、将来的には無料ユーザーにも開放される予定です。


AIリップシンクのHedra、「Character-2」で進化

AIリップシンクサービスのHedraが新バージョン「Character-2」を公開しました。Character-2では、最大4分までのリップシンク生成が可能になり、日本人などの東洋系モデルへの対応も改善されています。この進化により、AIミュージックビデオやAIポッドキャストの制作が実用的なレベルに達したと言えます。


「焦点移動」ができる動画生成AI、「Seaweed」が発表

Bytedance社が新しい動画生成AIモデルを発表しました。Doubao-PixelDanceとDoubao-Seaweedで10月から利用可能の予定とのこと。
Seaweedでは動画のような焦点移動が可能なようです。


genspark、データソースにarxivなど追加

ArxivやSemantic Scholarのような権威あるデータベースとGensparkを接続し、2,000万以上の学術論文にアクセスできるようになりました。


ComfyUI-AdvancedLivePortrait、表情の細かい修正が得意な画像生成


動画生成AI、Pika 1.5



ニュース


OpenAIの共同創業者がまた1人、Anthropic入り

以前からOpenAIの創業メンバーの離脱が続いておりますが、また新たにOpenAIの共同創業者の一人であるDurk Kingma氏が、AIスタートアップのAnthropicへの入社を発表しました。


OpenAIが約1兆円の大型資金調達を実施

OpenAIは2023年10月2日、66億ドル(約9700億円)の資金調達を発表しました。この調達により、同社の企業価値は1570億ドル(約23兆円)に達し、約1年で倍増しました。主な投資家にはThrive Capital、Microsoft、NVIDIA、ソフトバンクなどが含まれています。調達された資金は、AI研究の強化やコンピューティング能力の向上、新しいツールの開発に充てられる予定です


ハローワーク、生成AI導入を検討 マッチングの効率化狙う OpenAI Japanの協力も視野に


AI開発規制法案 カリフォルニア州知事が署名拒否で成立せず


論文・技術系


LLMの間違いを人間によるチェックで修正することは難しい


RAG系まとめ


その他ニュース


AIに電話をかけさせてをイチゴを200個発注


Sam Altman氏が描く「知能の時代(The Intelligence Age)」 - 本人ブログより

OpenAIのCEO、Sam Altman氏が個人ブログで「The Intelligence Age(知能の時代)」と題した記事を公開しました。この中で、人工知能(AI)が人間の能力を超える「超知能AI」の実現が「数千日後」に可能になるという見解を示しています。Altman氏は、AIによって気候変動の解決や宇宙コロニーの設立、物理学の全解明などが可能になり、「大規模な繁栄」をもたらすと予測しています。


桂文枝、生成AIと共作で創作落語


[ご案内] 生成AI活用のお悩み相談、開催中


現在、DX推進者・新規事業担当者限定で、弊社生成AIコンサルタントとの壁打ち1時間を無料で実施しております。

「生成AIを活用したいが何からやればいいのかわからない」
「生成AIでやりたいことは決まっているが、本当に実現できるのかわからない」
という方はぜひご相談ください。

お申し込みはコチラ



今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!

今週もお疲れ様でした!

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!

「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP


いいなと思ったら応援しよう!