[07/27~08/02] 生成AI Weekly News #48｜ChatGPT ボイスモードをピックアップ！

2024年8月2日 15:20

今回も社内で話題になった生成AIに関するニュースをご紹介します。

ピックアップ｜ChatGPT ボイスモード

ChatGPT ボイスモードが一部ユーザーに提供開始

OpenAIは、ChatGPT Plusユーザーの一部に対して、高度な音声モードの提供を開始しました。
この新機能は、より自然でリアルタイムな会話を可能にし、ユーザーの感情を認識して適切に応答する能力を持っています。現在はアルファ版としてテスト段階にあり、今秋までにすべてのChatGPT Plusユーザーが利用できるようになる予定です。

元々、2024年5月13日のOpenAI Spring Update で発表されていた内容で、ついにユーザーが手元で触れるようになりました。
5月の発表内容は↓こちら↓の記事をご覧ください！

技術的な内容

GPT-4oモデルを使用
45言語に対応
感情認識と適切な応答
リアルタイムでの自然な対話
プライバシー保護のための4つの音声
不適切な出力をブロックするシステム

今後期待できること

この高度な音声モードの導入により、ユーザーとAIとのコミュニケーションがより自然で効果的になることが期待できます。
感情認識機能により、AIがより人間らしい応答を行うことができ、多様な場面での活用が可能になるでしょう。また、OpenAIは今後、ビデオと画面共有機能もリリースする予定であることが発表されています。これにより、音声だけでなく視覚的なコミュニケーションも可能になり、教育、ビジネス、エンターテインメントなど、さまざまな分野での応用が期待できます。さらに、多言語対応により、グローバルなコミュニケーションツールとしての活用も広がると考えられます。

プロダクト・サービス

OpenAI、最大64,000の出力トークンを持つGPT-4oモデルを提供開始予定

OpenAIが新たに「gpt-4o-64k-output-alpha」モデルを発表しました。
このモデルは1リクエストあたり最大64,000トークンの出力が可能で、従来のGPT-4モデルの出力能力を大幅に拡張しています。長文生成や複雑なタスクの実行に適しています。ただし、高度な機能を反映して使用料金は従来モデルより高く設定されています。

https://openai.com/gpt-4o-long-output/

▼料金

meta、動画を切り抜けるAI 「SAM-2」

MetaがSegment Anything Model 2（SAM 2）を発表しました。
これは画像と動画の両方でリアルタイムにオブジェクトをセグメント化できる統合モデルです。SAM 2は前モデルの機能を拡張し、動画データにシームレスに対応します。ゼロショット汎化能力により、新しい視覚ドメインにも適応可能です。また、従来モデルの3分の1の操作時間で、より高精度なセグメント化を実現しています。

こちらの動画のように、動画の最初のフレームに印をつけるだけで、切り抜くことができるようになります。

Damn, SAM-2 is goated

it's able to accurately segment out the waifu even during rapid pose changes in the end https://t.co/zVKPk3yu5g pic.twitter.com/7Ao6dSAKyK
— TDM (e/λ) (@cto_junior) July 30, 2024

that's sick...made with SAM 2 model by Meta pic.twitter.com/00xikoB0AU
— yadnyesh (@ydnysh) July 30, 2024

Gemini 1.5 Pro がチャットボットアリーナで GPT-4o/Claude-3.5 を抜き1位に

GoogleDeepMind の新しい Gemini 1.5 Pro (Experimental 0801) が先週からアリーナでテストされ、12K を超えるコミュニティ投票を集めました。初めて、Google Gemini が1300という素晴らしいスコアで GPT-4o/Claude-3.5 を抜き、1位の座を獲得しました。

Exciting News from Chatbot Arena!@GoogleDeepMind's new Gemini 1.5 Pro (Experimental 0801) has been tested in Arena for the past week, gathering over 12K community votes.

For the first time, Google Gemini has claimed the #1 spot, surpassing GPT-4o/Claude-3.5 with an impressive… https://t.co/SvjBegXbQ9 pic.twitter.com/6MTHdty1jb
— lmsys.org (@lmsysorg) August 1, 2024

Axcxept社、最新Gemma 2Bモデルの日本語性能を最速で向上：低コストカスタムLLM開発を実現する「DomainLLM」サービスを開始

Axcxept株式会社は、Googleが2024年7月31日にリリースした「Gemma-2 2B」モデルに対し、独自の安定したチューニング手法「EZO」を用いて、日本語処理能力を大幅に向上させることに成功しました。この成果を基に、業界特化型AI「DomainLLM」サービスの提供を開始し、低コストでの効率的なファインチューニング（FT）を実現するとのことです。

EZOチューニングの迅速性と安定性を活かし、各業界のドメインに特化したベースLLMを提供する新サービス「DomainLLM」の提供を開始いたします。このサービスは、モデルのファインチューニングを大幅に低コスト化し、AI導入の障壁を劇的に下げます。

現在開発中の業界向けLLM：
・弁護士LLM
・税理士LLM
・内科医LLM
・小児科医LLM
・宅建士LLM
・行政書士LLM

DomainLLMの特徴と低コストFTの実現：
・各ドメイン向けに事前調整されたベースパッケージを提供
・企業固有のニーズに合わせた追加FTが容易
・通常のFTやRAGシステム構築と比較して、大幅なコストと時間の削減を実現
・企業内ネットワーク上のサーバーで動作する軽量なAIモデル
・最新のベースモデルを各ドメインに迅速に適応

EZOチューニングの優位性
・迅速な適用: 新しいベースモデルに対して、数日～数週間以内に高品質なチューニングを実現（従来では数か月が多い）
・安定した結果: 一貫して高いパフォーマンスを発揮し、予測可能な成果を提供
・幅広い適用性: 2Bから70Bまで、様々なサイズのモデルで成功実績あり

ニュース

「AI著作権チェックリスト＆ガイダンス」文化庁が資料公開

文化庁が「AIと著作権に関するチェックリスト＆ガイダンス」という資料を7月31日に公開しました。
この資料は、生成AIの学習から著作物を保護することを目的としており、著作権上の問題点や対応策について解説しています。著作権侵害の立証方法や、AIの利用に関する著作権の考え方などが含まれており、企業や個人がAIを利用する際の指針となることが期待されています。

著作権侵害の要件として、類似性と依拠性が重要であると強調されていました。

類似性があるといえる場合、次に権利者としては、以下のような要素を主張・立証することで、依拠性を立証していくことになります。

AI利用者が権利者の作品（既存の著作物）を認識していたこと

より具体的には……
➢ Image to Imageのように、AI利用者が既存の著作物そのものを生成AIに入力していたこと
➢ AI利用者が既存の著作物の題号（タイトル）などの特定の固有名詞を入力していたこと
➢ AI利用者に、既存の著作物へのアクセス可能性（接する機会）があったこと*
　- 当該既存の著作物が公表されており入手可能であったことや、当該既存の著作物が著名又は周知であること等
➢ AI生成物が、既存の著作物と高度に類似していること等

今回は著作権者が取り得る措置として、差止請求や不当利益返還請求まで触れられていました。

病院で生成AIはどう使う？　フル活用する病院が明かす“5つの事例”

愛媛県四国中央市にある228床のケアミックス型救急病院の HITO 病院での、病院DXに生成AIの活用を進めた事例が紹介されていました。

糖尿病教育入院（糖尿病の理解を進めるための入院）の患者向けの食事アドバイスbotを開発した。
このbotは、病院の糖尿病治療チームが作成したレシピや情報をナレッジソースとして使用。「野菜が食べられない糖尿病患者の食事療法は？」などと質問すると、AIがアドバイスを提供する。

「症状詳記」という医師が診療報酬を請求するために作成する文書がある。HITO病院では、この文書を電子カルテに記載した内容から自動生成する仕組みを構築した。
実際に利用した医師からは「下書きとしては十分に使える」という評価が上がっているという。医師だけでなく、事務文書を作成する補助スタッフ「医療クラーク」の負荷軽減にもつながっているとしている。

Metaがオープンソース化した"Llama 3.1 405B"、OpenAIのGPT-4oに迫る能力

オープンソースLLM がクローズドソースモデルに、差し迫っています。

I made the closed-source vs. open-weight models figure for this moment. pic.twitter.com/Zkc6m0anNg
— Maxime Labonne (@maximelabonne) July 24, 2024

論文・技術系

[論文] ByteDance、LLMエージェントによるエンド・ツー・エンド同時音声翻訳におけるヒューマンパリティの実現を目指すと発表

この論文では、高品質で人間らしい同時通訳システム「CLASI」(Cross Language Agent -- Simultaneous Interpretation)を紹介しています。主なポイントは以下の通りです：

プロの通訳者にインスピレーションを得た、データ駆動型の読み書き戦略を採用し、翻訳品質と遅延のバランスを取っています。
専門用語の翻訳に対応するため、マルチモーダル検索モジュールを使用して関連情報を取得し、翻訳を強化しています。
大規模言語モデル(LLM)を活用し、音声入力、過去の文脈、検索された情報を考慮してエラーに寛容な翻訳を生成します。
実験結果では、他のシステムを大幅に上回る性能を示しています。
評価には、プロの通訳者に合わせた新しい指標「有効情報比率(VIP)」を使用しています。
実世界のシナリオでは、中国語から英語への翻訳で81.3%、英語から中国語への翻訳で78.0%のVIPを達成しました。一方、最先端の商用またはオープンソースシステムは35.4%と41.6%に留まっています。
非常に難しいデータセットでは、他のシステムのVIPが13%未満である中、CLASIは70%のVIPを達成しています。

ByteDance announces Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agenthttps://t.co/NawVKWZptn pic.twitter.com/u6cJuI4Wds
— AK (@_akhaliq) August 1, 2024

AmongUs

AmongUs（アクション要素のある人狼）をLLMがプレイできたとの実験報告。
また、性格の設定で進行が変わるとのこと。https://t.co/EMgQJKThw7
例えばクルー（人間陣営）に「懐疑的」「技術専門家」が両方いるとタスクが早く完了し、「観察者」が含まれるとゲームが長引く傾向が確認されています。
— AIDB (@ai_database) July 26, 2024

文章に“多重電子透かし”を入れる技術、日立が開発　書き手が「人間」or「AI」か区別可能に

生成AIが“AI生成コンテンツ”を学習し続けるとどうなる？→「モデル崩壊」が起こる　英国チームが発表

その他ニュース

「Stable Diffusion XL」搭載のAI画像生成サービス、GMOが提供開始　Webブラウザから利用可能

さくら、データセンターに「NVIDIA H100」を2000基整備

生成AIによるリメイク漫画「児童福祉司　一貫田逸子」　全ページフルカラー化、コマ割りも再現

まんが王国で独占配信中
「児童福祉司　一貫田逸子リメイク版」

生成AIを活用した人気漫画のリメイクプロジェクトの作品ですが、おかげさまで人気上昇中です！

昨日は女性ジャンル、デイリーランキング３位！！

リメイク版をきっかけにして、原作マンガを購入される方も多くいらっしゃいます。… pic.twitter.com/GqRbU7uL48
— 西村＠「まんが王国編集部」編集長。専門領域はマンガ編集と分析、生成AI漫画制作、WEBTOON (@MangaRyota) July 26, 2024

[ご案内] 生成AI PoC 「ハタアゲ」｜10社限定キャンペーン中！

この1年で、生成AIの法人様向けお問い合わせ相談数1,000件、PoC支援実績20件、本開発支援10件を突破しました。

お客様のニーズに合ったプランで、生成AI PoC をスタートできます。確実に・早く結果を出す PoC「ハタアゲ」

▼ お申し込みはコチラ！

今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです！

今週もお疲れ様でした！

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください！

「株式会社エクスプラザ（公式）」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP