
[09/21~09/27] 生成AI Weekly News #55
今回も社内で話題になった生成AIに関するニュースをご紹介します。
ピックアップ|
ChatGPT アドバンスボイスモード 提供開始
OpenAIが今週、ChatGPTの新機能「Advanced Voice Mode(高度な音声モード)」の提供を開始しました。
この機能は、ChatGPT PlusおよびTeamプランの利用者に順次展開されています。Advanced Voice Modeにより、ユーザーはより自然で直感的な音声対話をChatGPTと行うことができるようになりました。人間のような反応速度と感情豊かな応答が特徴で、9種類の個性的な音声から選択することも可能です。

1. アドバンスドボイスモードの概要
アドバンスドボイスモードは、ChatGPTが音声での対話を行うための新しい機能です。このモードでは、AIが人間のように自然な会話を行うことができ、感情を理解し、適切に表現する能力を持っています。主な特徴は以下の通りです:
この機能は、特にビジネスや教育の場面で役立つと期待されています。例えば、多言語での会議や語学学習などで活用されることが考えられます。
2. アドバンスドボイスモードの活用方法
アドバンスドボイスモードはさまざまなシーンで活用できます。具体的な利用例としては以下のようなものがあります:
リアルタイム通訳: 海外の取引先との会議で、AIがリアルタイムで通訳を行うことで、スムーズなコミュニケーションが可能になります5。
語学学習: ネイティブスピーカーとの会話練習パートナーとして利用することで、効果的な語学学習が実現します6。
カスタムキャラクターとの対話: ユーザーが設定したキャラクターとしてAIと対話することで、ゲームや物語の中に入り込んだような体験ができます7。
これらの活用方法により、業務効率や学習効果が向上することが期待されています。
3. アドバンスドボイスモードの設定と使い方
アドバンスドボイスモードを利用するには、まずChatGPT PlusまたはTeamプランに加入する必要があります。設定方法は以下の通りです:
ユーザーアイコンをクリック: ChatGPTにログイン後、右上のユーザーアイコンをクリックします。
カスタマイズメニューへアクセス: 「ChatGPTをカスタマイズする」を選択し、自分が望む応答スタイルやキャラクター設定を入力します。
設定を保存: 入力後、「保存」ボタンをクリックすると、数分後に設定が反映されます。
このように簡単な手順で、自分好みのAIとの対話体験を作り出すことができます。
アドバンスドボイスモードは、AIとのコミュニケーションに新たな次元をもたらす革新的な機能です。これを活用することで、より自然に日常にAIが溶け込んでいくことが期待されます。
プロダクト・サービス
OpenAIが新しいModeration API公開
OpenAIは、GPT-4oをベースにした新しいマルチモーダルなモデレーションモデル「omni-moderation-latest」をModeration APIで公開しました。
このモデルはテキストと画像の両方に対応し、有害なコンテンツをより正確に検出できます。特に非英語コンテンツに対する精度が向上しており、開発者がより堅牢なモデレーションシステムを構築できるようになりました。

GoogleがGeminiの新バージョン (Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002) をリリース
Googleは9月24日に、Gemini 1.5の新バージョンである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらの新モデルは、コンテキストウィンドウが200万トークンに拡大され、処理速度が向上しています。また、料金の大幅な値下げや、開発者向けのレート制限の引き上げも行われました。
Meta社がLlama 3.2を発表
MetaがAIモデル「Llama 3.2」を発表しました。
このモデルは画像認識機能を持つ大規模モデル(11Bと90B)と、エッジデバイスやモバイル向けの軽量テキストモデル(1Bと3B)を含んでいます。大規模モデルはグラフや図表の理解、画像へのキャプション付けなどの視覚タスクを処理でき、軽量モデルはオンデバイスでの個人向けAIアプリケーション開発に適しています。Metaはこれらのモデルをオープンソースで公開し、AIの民主化と革新を促進することを目指しています。
新たなOSSマルチモーダルモデル Molmo が登場
Allen Institute for Artificial Intelligence (AI2)が、オープンソースのマルチモーダルAIモデル「Molmo」を発表しました。
Molmoは、テキストと画像の両方を処理できる能力を持ち、特に画像認識タスクにおいて卓越した性能を示しています。最大の特徴は、OpenAIのGPT-4oやGoogleのGemini 1.5 Proに匹敵する性能を持ちながら、モデルサイズが約10分の1と非常に小さいことです。
New Open source SoTA Multimodal (Vision) Language model dropped - Molmo
— Rohan Paul (@rohanpaul_ai) September 25, 2024
Outperformed Claude 3.5 Sonnet, GPT4V, Gemini 1.5 Pro - using 1000x less data. 🤯
🗣️ Novel dataset (PixMo) with detailed human-spoken image captions
🧠 Architecture: Vision encoder + LLM
🔓 Open weights,… https://t.co/gOI5P7LYbl pic.twitter.com/JAb8GExDs3
【Molmo-7B-D-0924の追加情報】
— 金のニワトリ (@gosrum) September 26, 2024
日本語OCRはできなかったけど、画像中のオブジェクトの座標を精度良く取得出来ると聞いてデモで試してみました。
確かにかなり精度が良さそうで、このモデル実はめちゃくちゃ汎用性が高いかも知れない...! https://t.co/HhBlnWGbq8 pic.twitter.com/AKbdrAx1KV
Alibaba presents MIMO
Alibaba presents MIMO
— AK (@_akhaliq) September 25, 2024
Controllable Character Video Synthesis with Spatial Decomposed Modeling
Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D… pic.twitter.com/sAozQvggNz
NotionAI の新機能
Meet the new Notion AI—Search. Generate. Analyze. Chat. One AI tool that does it all. pic.twitter.com/d1S4kvOHLQ
— Notion (@NotionHQ) September 25, 2024
語学アプリ「Duolingo」、GPT-4oを使った英会話機能を開始
Googleの「NotebookLM」、YouTube動画の概要生成も可能に
ニュース
OpenAIからCTOに続き最高研究責任者と研究担当副社長も退社
「OpenAIが非営利から営利目的の法人に移行を計画中」とロイターが報道
性的なディープフェイク画像、見ても所持しても処罰 韓国で法改正
論文・技術系
[論文] OpenAIの新モデル「o1」は、『大規模"推論"モデル(Large Reasoning Model(LRM))』と呼ばれている
OpenAIの新モデル「o1」は、『大規模"推論"モデル(Large Reasoning Model(LRM))』と呼ばれています。
— AIDB (@ai_database) September 26, 2024
今回、o1は従来LLMが苦手だった”計画立案”を得意とすることが確認されました。https://t.co/9LIcu3lTdk
ただo1は時々、不可能な問題に創造的で意味不明な正当化をした解答も行うとのこと。…
[論文] 『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がない
「ステップバイステップで考えてください」などの指示によりLLMに段階的に推論させる手法『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がないことが明らかにされました。https://t.co/wAcGQBMzGh
— AIDB (@ai_database) September 24, 2024
ほぼすべての問題で直接回答より優れるとの見方を覆す結果です。…
OpenAI o1 API rate limitが大幅増
More OpenAI o1 rate limit increases:
— OpenAI Developers (@OpenAIDevs) September 25, 2024
Tier 5
- o1-preview: 5,000 requests per minute
- o1-mini: 10,000 requests per minute
Tier 4
- o1-preview: 1,000 requests per minute
- o1-mini: 5,000 requests per minute
その他ニュース
道内初!生成AIで接客サービス「AItube」登場 旭川空港の土産店で“AI技術”活用、音声や文字で土産品紹介や観光案内など ほかの空港でも導入を検討
ゆるキャラ、AIで制作を断念 松江市 著作権侵害などの恐れ
【松江】ゆるキャラ、AIで制作を断念 松江市 著作権侵害などの恐れ⚠️https://t.co/WV0NBK1DKA#松江市 が24日、市町村合併20周年などを記念して計画していた「#ゆるキャラ」制作で、生成人工知能(AI)を活用しないと発表した。
— 山陰中央新報 (@SaninChuo_) September 26, 2024
現状、著作権侵害などの危険性を排除できないのが理由としている。
AIを活用したメトロのディスプレイ
-メトロ最新AIディスプレイ-
— 鈴木直樹/LED TOKYO代表 (@nomad_suzuki) September 23, 2024
接客してるのは人ではなく、AIの自動生成映像。チケット販売や質問対応など様々な役割を果たすらしい。pic.twitter.com/TJCjwlx7t3
AIの安全性を“攻撃者視点”で評価するガイドライン IPAなどが無料公開 LLMへの8つの攻撃手法を紹介
今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!
今週もお疲れ様でした!
=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪
X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!
「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase
生成AI事例集
会社HP