[07/27~08/02] 生成AI Weekly News #48|ChatGPT ボイスモードをピックアップ!
今回も社内で話題になった生成AIに関するニュースをご紹介します。
ピックアップ|ChatGPT ボイスモード
ChatGPT ボイスモードが一部ユーザーに提供開始
OpenAIは、ChatGPT Plusユーザーの一部に対して、高度な音声モードの提供を開始しました。
この新機能は、より自然でリアルタイムな会話を可能にし、ユーザーの感情を認識して適切に応答する能力を持っています。現在はアルファ版としてテスト段階にあり、今秋までにすべてのChatGPT Plusユーザーが利用できるようになる予定です。
元々、2024年5月13日のOpenAI Spring Update で発表されていた内容で、ついにユーザーが手元で触れるようになりました。
5月の発表内容は↓こちら↓の記事をご覧ください!
技術的な内容
GPT-4oモデルを使用
45言語に対応
感情認識と適切な応答
リアルタイムでの自然な対話
プライバシー保護のための4つの音声
不適切な出力をブロックするシステム
今後期待できること
この高度な音声モードの導入により、ユーザーとAIとのコミュニケーションがより自然で効果的になることが期待できます。
感情認識機能により、AIがより人間らしい応答を行うことができ、多様な場面での活用が可能になるでしょう。また、OpenAIは今後、ビデオと画面共有機能もリリースする予定であることが発表されています。これにより、音声だけでなく視覚的なコミュニケーションも可能になり、教育、ビジネス、エンターテインメントなど、さまざまな分野での応用が期待できます。さらに、多言語対応により、グローバルなコミュニケーションツールとしての活用も広がると考えられます。
プロダクト・サービス
OpenAI、最大64,000の出力トークンを持つGPT-4oモデルを提供開始予定
OpenAIが新たに「gpt-4o-64k-output-alpha」モデルを発表しました。
このモデルは1リクエストあたり最大64,000トークンの出力が可能で、従来のGPT-4モデルの出力能力を大幅に拡張しています。長文生成や複雑なタスクの実行に適しています。ただし、高度な機能を反映して使用料金は従来モデルより高く設定されています。
https://openai.com/gpt-4o-long-output/
▼料金
meta、動画を切り抜けるAI 「SAM-2」
MetaがSegment Anything Model 2(SAM 2)を発表しました。
これは画像と動画の両方でリアルタイムにオブジェクトをセグメント化できる統合モデルです。SAM 2は前モデルの機能を拡張し、動画データにシームレスに対応します。ゼロショット汎化能力により、新しい視覚ドメインにも適応可能です。また、従来モデルの3分の1の操作時間で、より高精度なセグメント化を実現しています。
こちらの動画のように、動画の最初のフレームに印をつけるだけで、切り抜くことができるようになります。
Gemini 1.5 Pro がチャットボットアリーナで GPT-4o/Claude-3.5 を抜き1位に
GoogleDeepMind の新しい Gemini 1.5 Pro (Experimental 0801) が先週からアリーナでテストされ、12K を超えるコミュニティ投票を集めました。 初めて、Google Gemini が1300という素晴らしいスコアで GPT-4o/Claude-3.5 を抜き、1位の座を獲得しました。
Axcxept社、最新Gemma 2Bモデルの日本語性能を最速で向上:低コストカスタムLLM開発を実現する「DomainLLM」サービスを開始
Axcxept株式会社は、Googleが2024年7月31日にリリースした「Gemma-2 2B」モデルに対し、独自の安定したチューニング手法「EZO」を用いて、日本語処理能力を大幅に向上させることに成功しました。この成果を基に、業界特化型AI「DomainLLM」サービスの提供を開始し、低コストでの効率的なファインチューニング(FT)を実現するとのことです。
ニュース
「AI著作権チェックリスト&ガイダンス」 文化庁が資料公開
文化庁が「AIと著作権に関するチェックリスト&ガイダンス」という資料を7月31日に公開しました。
この資料は、生成AIの学習から著作物を保護することを目的としており、著作権上の問題点や対応策について解説しています。著作権侵害の立証方法や、AIの利用に関する著作権の考え方などが含まれており、企業や個人がAIを利用する際の指針となることが期待されています。
著作権侵害の要件として、類似性と依拠性が重要であると強調されていました。
今回は著作権者が取り得る措置として、差止請求や不当利益返還請求まで触れられていました。
病院で生成AIはどう使う? フル活用する病院が明かす“5つの事例”
愛媛県四国中央市にある228床のケアミックス型救急病院の HITO 病院での、病院DXに生成AIの活用を進めた事例が紹介されていました。
Metaがオープンソース化した"Llama 3.1 405B"、OpenAIのGPT-4oに迫る能力
オープンソースLLM がクローズドソースモデルに、差し迫っています。
論文・技術系
[論文] ByteDance、LLMエージェントによるエンド・ツー・エンド同時音声翻訳におけるヒューマンパリティの実現を目指すと発表
この論文では、高品質で人間らしい同時通訳システム「CLASI」(Cross Language Agent -- Simultaneous Interpretation)を紹介しています。主なポイントは以下の通りです:
プロの通訳者にインスピレーションを得た、データ駆動型の読み書き戦略を採用し、翻訳品質と遅延のバランスを取っています。
専門用語の翻訳に対応するため、マルチモーダル検索モジュールを使用して関連情報を取得し、翻訳を強化しています。
大規模言語モデル(LLM)を活用し、音声入力、過去の文脈、検索された情報を考慮してエラーに寛容な翻訳を生成します。
実験結果では、他のシステムを大幅に上回る性能を示しています。
評価には、プロの通訳者に合わせた新しい指標「有効情報比率(VIP)」を使用しています。
実世界のシナリオでは、中国語から英語への翻訳で81.3%、英語から中国語への翻訳で78.0%のVIPを達成しました。一方、最先端の商用または オープンソースシステムは35.4%と41.6%に留まっています。
非常に難しいデータセットでは、他のシステムのVIPが13%未満である中、CLASIは70%のVIPを達成しています。
AmongUs
文章に“多重電子透かし”を入れる技術、日立が開発 書き手が「人間」or「AI」か区別可能に
生成AIが“AI生成コンテンツ”を学習し続けるとどうなる?→「モデル崩壊」が起こる 英国チームが発表
その他ニュース
「Stable Diffusion XL」搭載のAI画像生成サービス、GMOが提供開始 Webブラウザから利用可能
さくら、データセンターに「NVIDIA H100」を2000基整備
生成AIによるリメイク漫画「児童福祉司 一貫田逸子」 全ページフルカラー化、コマ割りも再現
[ご案内] 生成AI PoC 「ハタアゲ」|10社限定キャンペーン中!
お客様のニーズに合ったプランで、生成AI PoC をスタートできます。確実に・早く結果を出す PoC「ハタアゲ」
▼ お申し込みはコチラ!
今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!
今週もお疲れ様でした!
=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪
X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!
「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase
生成AI事例集
会社HP