Stable Audio, Firefly, etc - Generative AI 情報共有会 #8

Masatoshi Kurihara

2023年9月20日 16:00

今週、9月19日（火）にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。

この連載の背景や方向性に関しては第一回の記事をご覧ください。

Stability AI、音楽とサウンド生成のためのAIモデル「Stable Audio」発表

テキスト入力から音楽やサウンド生成ができるWebサービスとして公開。

サンプル（テキストプロンプトから音楽、楽器、効果音を生成した例）と技術詳細

生成される音声の内容と長さを制御できるように工夫。
推論時間が非常に短い。
- 44.1kHzの95秒のステレオ音声を1秒未満でレンダリング可能（NVIDIA A100 GPU）。
学習に利用したデータ
- AudioSparx社と契約し、音楽、効果音、単一楽器のステム、そして対応するテキストメタデータからなる80万以上（19,500時間以上の音声）からなるデータセット。

無料版とプロフェッショナル版（とエンタープライズ版）

参考 : Meta社から公開された、テキスト入力から音声や音楽を作成できる「AudioCraft」

Adobeの生成AI「Firefly」正式リリース

半年ほど前からβ版として非商用利用で提供されていたAdobeの「Firefly」が商用利用可能で一般提供開始。

できること

テキストから画像生成
生成塗りつぶし
- ブラシを使用してオブジェクトを削除したり、テキストの説明から新しいオブジェクトをペイント。

テキスト効果
- テキスト自体にスタイルやテクスチャを加える。

生成再配色
- 詳細なテキスト記述からベクターアートワークのカラーバリエーションを生成。

3Dから画像生成
- 3D要素のインタラクティブな配置から画像を生成

画像を拡張
- 画像の縦横比をワンクリックで変更可能。

料金プラン
無料プランとプレミアムプラン

無料 : 毎月25の生成クレジット
プレミアム（680円 / 月）
- 毎月100の生成クレジット
- Adobe Fontsを利用可能
- Fireflyによって生成された画像に透かしが入らない
  - この”透かし”が何を指しているのか不明

生成AIの責任ある使用

Fireflyのモデルの学習には、Adobe Stockの画像と、オープンライセンスのコンテンツおよび著作権の切れた一般コンテンツを使用。
Adobe製品のユーザーが作成したコンテンツのコピーが、Fireflyモデルの一部として使用されることはない。

ChatGPT plugin紹介

BrowserOp

Web上の最新情報をもとに回答をしてくれるプラグイン

行っていることはGoogle検索（”https://www.google.co.jp/search?q=*”）で得られた結果をプロンプトとしてChatGPTに投げてまとめさせている。

実行例（日本の新卒採用市場について）
「参照元」とされているリンクは踏んでも記事に飛べない

実行例（大谷翔平選手について）

AskYourPDF

PDFのリンクを渡すと内容について解説してくれる。

実行例（論文の解説をしてもらう）
リンクの末尾が “.pdf” でないと読めない（ログに "error": "URL must end with \\".pdf\\” の記載）。失敗例
前回紹介した Ai PDF は読めた。

もう一つ PDF 解説系の人気のプラグインとして ChatWithPDF がある。

上記2つと異なり、インストールのためにGoogleやメールアドレスでのログインが必要となる（ので試用はしていない）。
説明にあるように、Google Drive上のドキュメントなどの解説もしてくれる模様。

WebPilot

WebページやPDFなどについて内容をまとめてくれる（上記紹介したプラグインでできること全てできるように見える）。…が質は安定しない（かも？）。

実行例（論文解説）
あまりちゃんとまとめられている感じはしない。
同じ内容でも論文の内容を取得できないこともあった（失敗例）

実行例（日本の新卒採用市場について）