[09/21~09/27] 生成AI Weekly News #55

2024年9月27日 17:27

今回も社内で話題になった生成AIに関するニュースをご紹介します。

ピックアップ｜

ChatGPT アドバンスボイスモード提供開始

OpenAIが今週、ChatGPTの新機能「Advanced Voice Mode（高度な音声モード）」の提供を開始しました。
この機能は、ChatGPT PlusおよびTeamプランの利用者に順次展開されています。Advanced Voice Modeにより、ユーザーはより自然で直感的な音声対話をChatGPTと行うことができるようになりました。人間のような反応速度と感情豊かな応答が特徴で、9種類の個性的な音声から選択することも可能です。

1. アドバンスドボイスモードの概要

アドバンスドボイスモードは、ChatGPTが音声での対話を行うための新しい機能です。このモードでは、AIが人間のように自然な会話を行うことができ、感情を理解し、適切に表現する能力を持っています。主な特徴は以下の通りです：

自然な音声理解と応答: AIはユーザーの発言を理解し、文脈に応じた適切な応答を生成します1 2。
多言語対応: 50以上の言語に対応しており、国際的なコミュニケーションをサポートします3。
感情表現: AIは会話中に感情を表現し、より人間らしい対話を実現します4。

この機能は、特にビジネスや教育の場面で役立つと期待されています。例えば、多言語での会議や語学学習などで活用されることが考えられます。

2. アドバンスドボイスモードの活用方法

アドバンスドボイスモードはさまざまなシーンで活用できます。具体的な利用例としては以下のようなものがあります：

リアルタイム通訳: 海外の取引先との会議で、AIがリアルタイムで通訳を行うことで、スムーズなコミュニケーションが可能になります5。
語学学習: ネイティブスピーカーとの会話練習パートナーとして利用することで、効果的な語学学習が実現します6。
カスタムキャラクターとの対話: ユーザーが設定したキャラクターとしてAIと対話することで、ゲームや物語の中に入り込んだような体験ができます7。

これらの活用方法により、業務効率や学習効果が向上することが期待されています。

3. アドバンスドボイスモードの設定と使い方

アドバンスドボイスモードを利用するには、まずChatGPT PlusまたはTeamプランに加入する必要があります。設定方法は以下の通りです：

ユーザーアイコンをクリック: ChatGPTにログイン後、右上のユーザーアイコンをクリックします。
カスタマイズメニューへアクセス: 「ChatGPTをカスタマイズする」を選択し、自分が望む応答スタイルやキャラクター設定を入力します。
設定を保存: 入力後、「保存」ボタンをクリックすると、数分後に設定が反映されます。

このように簡単な手順で、自分好みのAIとの対話体験を作り出すことができます。

アドバンスドボイスモードは、AIとのコミュニケーションに新たな次元をもたらす革新的な機能です。これを活用することで、より自然に日常にAIが溶け込んでいくことが期待されます。

プロダクト・サービス

OpenAIが新しいModeration API公開

OpenAIは、GPT-4oをベースにした新しいマルチモーダルなモデレーションモデル「omni-moderation-latest」をModeration APIで公開しました。
このモデルはテキストと画像の両方に対応し、有害なコンテンツをより正確に検出できます。特に非英語コンテンツに対する精度が向上しており、開発者がより堅牢なモデレーションシステムを構築できるようになりました。

https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/

GoogleがGeminiの新バージョン (Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002) をリリース

Googleは9月24日に、Gemini 1.5の新バージョンである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらの新モデルは、コンテキストウィンドウが200万トークンに拡大され、処理速度が向上しています。また、料金の大幅な値下げや、開発者向けのレート制限の引き上げも行われました。

Meta社がLlama 3.2を発表

MetaがAIモデル「Llama 3.2」を発表しました。
このモデルは画像認識機能を持つ大規模モデル（11Bと90B）と、エッジデバイスやモバイル向けの軽量テキストモデル（1Bと3B）を含んでいます。大規模モデルはグラフや図表の理解、画像へのキャプション付けなどの視覚タスクを処理でき、軽量モデルはオンデバイスでの個人向けAIアプリケーション開発に適しています。Metaはこれらのモデルをオープンソースで公開し、AIの民主化と革新を促進することを目指しています。

新たなOSSマルチモーダルモデル Molmo が登場

Allen Institute for Artificial Intelligence (AI2)が、オープンソースのマルチモーダルAIモデル「Molmo」を発表しました。
Molmoは、テキストと画像の両方を処理できる能力を持ち、特に画像認識タスクにおいて卓越した性能を示しています。最大の特徴は、OpenAIのGPT-4oやGoogleのGemini 1.5 Proに匹敵する性能を持ちながら、モデルサイズが約10分の1と非常に小さいことです。

New Open source SoTA Multimodal (Vision) Language model dropped - Molmo

Outperformed Claude 3.5 Sonnet, GPT4V, Gemini 1.5 Pro - using 1000x less data. 🤯

🗣️ Novel dataset (PixMo) with detailed human-spoken image captions
🧠 Architecture: Vision encoder + LLM
🔓 Open weights,… https://t.co/gOI5P7LYbl pic.twitter.com/JAb8GExDs3
— Rohan Paul (@rohanpaul_ai) September 25, 2024

【Molmo-7B-D-0924の追加情報】
日本語OCRはできなかったけど、画像中のオブジェクトの座標を精度良く取得出来ると聞いてデモで試してみました。

確かにかなり精度が良さそうで、このモデル実はめちゃくちゃ汎用性が高いかも知れない...！ https://t.co/HhBlnWGbq8 pic.twitter.com/AKbdrAx1KV
— 金のニワトリ (@gosrum) September 26, 2024

Alibaba presents MIMO

Alibaba presents MIMO

Controllable Character Video Synthesis with Spatial Decomposed Modeling

Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D… pic.twitter.com/sAozQvggNz
— AK (@_akhaliq) September 25, 2024

NotionAI の新機能

Meet the new Notion AI—Search. Generate. Analyze. Chat. One AI tool that does it all. pic.twitter.com/d1S4kvOHLQ
— Notion (@NotionHQ) September 25, 2024

語学アプリ「Duolingo」、GPT-4oを使った英会話機能を開始

Googleの「NotebookLM」、YouTube動画の概要生成も可能に

ニュース

OpenAIからCTOに続き最高研究責任者と研究担当副社長も退社

「OpenAIが非営利から営利目的の法人に移行を計画中」とロイターが報道

https://www.reuters.com/technology/artificial-intelligence/openai-remove-non-profit-control-give-sam-altman-equity-sources-say-2024-09-25/

性的なディープフェイク画像、見ても所持しても処罰　韓国で法改正

論文・技術系

[論文] OpenAIの新モデル「o1」は、『大規模"推論"モデル（Large Reasoning Model（LRM））』と呼ばれている

OpenAIの新モデル「o1」は、『大規模"推論"モデル（Large Reasoning Model（LRM））』と呼ばれています。
今回、o1は従来LLMが苦手だった”計画立案”を得意とすることが確認されました。https://t.co/9LIcu3lTdk
ただo1は時々、不可能な問題に創造的で意味不明な正当化をした解答も行うとのこと。…
— AIDB (@ai_database) September 26, 2024

[論文] 『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がない

「ステップバイステップで考えてください」などの指示によりLLMに段階的に推論させる手法『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がないことが明らかにされました。https://t.co/wAcGQBMzGh
ほぼすべての問題で直接回答より優れるとの見方を覆す結果です。…
— AIDB (@ai_database) September 24, 2024

OpenAI o1 API rate limitが大幅増

More OpenAI o1 rate limit increases:

Tier 5
- o1-preview: 5,000 requests per minute
- o1-mini: 10,000 requests per minute

Tier 4
- o1-preview: 1,000 requests per minute
- o1-mini: 5,000 requests per minute
— OpenAI Developers (@OpenAIDevs) September 25, 2024

その他ニュース

道内初！生成AIで接客サービス「AItube」登場旭川空港の土産店で“AI技術”活用、音声や文字で土産品紹介や観光案内などほかの空港でも導入を検討

ゆるキャラ、ＡＩで制作を断念　松江市　著作権侵害などの恐れ

【松江】ゆるキャラ、ＡＩで制作を断念　松江市　著作権侵害などの恐れ⚠️https://t.co/WV0NBK1DKA #松江市が24日、市町村合併20周年などを記念して計画していた「#ゆるキャラ」制作で、生成人工知能（AI）を活用しないと発表した。
現状、著作権侵害などの危険性を排除できないのが理由としている。
— 山陰中央新報 (@SaninChuo_) September 26, 2024

AIを活用したメトロのディスプレイ

-メトロ最新AIディスプレイ-
接客してるのは人ではなく、AIの自動生成映像。チケット販売や質問対応など様々な役割を果たすらしい。pic.twitter.com/TJCjwlx7t3
— 鈴木直樹/LED TOKYO代表 (@nomad_suzuki) September 23, 2024

AIの安全性を“攻撃者視点”で評価するガイドライン　IPAなどが無料公開　LLMへの8つの攻撃手法を紹介

今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです！

今週もお疲れ様でした！

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください！

「株式会社エクスプラザ（公式）」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP