Stable Audio, Firefly, etc - Generative AI 情報共有会 #8
今週、9月19日(火)にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。
この連載の背景や方向性に関しては 第一回の記事 をご覧ください。
Stability AI、音楽とサウンド生成のためのAIモデル「Stable Audio」発表
テキスト入力から音楽やサウンド生成ができるWebサービスとして公開。
サンプル(テキストプロンプトから音楽、楽器、効果音を生成した例)と技術詳細
生成される音声の内容と長さを制御できるように工夫。
推論時間が非常に短い。
44.1kHzの95秒のステレオ音声を1秒未満でレンダリング可能(NVIDIA A100 GPU)。
学習に利用したデータ
AudioSparx社と契約し、音楽、効果音、単一楽器のステム、そして対応するテキストメタデータからなる80万以上(19,500時間以上の音声)からなるデータセット。
無料版とプロフェッショナル版(とエンタープライズ版)
参考 : Meta社から公開された、テキスト入力から音声や音楽を作成できる「AudioCraft」
Adobeの生成AI「Firefly」正式リリース
半年ほど前からβ版として非商用利用で提供されていたAdobeの「Firefly」が商用利用可能で一般提供開始。
できること
テキストから画像生成
生成塗りつぶし
ブラシを使用してオブジェクトを削除したり、テキストの説明から新しいオブジェクトをペイント。
テキスト効果
テキスト自体にスタイルやテクスチャを加える。
生成再配色
詳細なテキスト記述からベクターアートワークのカラーバリエーションを生成。
3Dから画像生成
3D要素のインタラクティブな配置から画像を生成
画像を拡張
画像の縦横比をワンクリックで変更可能。
料金プラン
無料プランとプレミアムプラン
無料 : 毎月25の生成クレジット
プレミアム(680円 / 月)
毎月100の生成クレジット
Adobe Fontsを利用可能
Fireflyによって生成された画像に透かしが入らない
この”透かし”が何を指しているのか不明
生成AIの責任ある使用
Fireflyのモデルの学習には、Adobe Stockの画像と、オープンライセンスのコンテンツおよび著作権の切れた一般コンテンツを使用。
Adobe製品のユーザーが作成したコンテンツのコピーが、Fireflyモデルの一部として使用されることはない。
ChatGPT plugin紹介
BrowserOp
Web上の最新情報をもとに回答をしてくれるプラグイン
行っていることはGoogle検索(”https://www.google.co.jp/search?q=*”)で得られた結果をプロンプトとしてChatGPTに投げてまとめさせている。
実行例(日本の新卒採用市場について)
「参照元」とされているリンクは踏んでも記事に飛べない
AskYourPDF
PDFのリンクを渡すと内容について解説してくれる。
実行例(論文の解説をしてもらう)
リンクの末尾が “.pdf” でないと読めない(ログに "error": "URL must end with \\".pdf\\” の記載)。失敗例
前回紹介した Ai PDF は読めた。
もう一つ PDF 解説系の人気のプラグインとして ChatWithPDF がある。
上記2つと異なり、インストールのためにGoogleやメールアドレスでのログインが必要となる(ので試用はしていない)。
説明にあるように、Google Drive上のドキュメントなどの解説もしてくれる模様。
WebPilot
WebページやPDFなどについて内容をまとめてくれる(上記紹介したプラグインでできること全てできるように見える)。…が質は安定しない(かも?)。
実行例(論文解説)
あまりちゃんとまとめられている感じはしない。
同じ内容でも論文の内容を取得できないこともあった(失敗例)
(ビジネス事例)生成AIを活用した採用業務の効率化やマッチング向上
AI技術開発をリードしてきた株式会社KandaQuantumと手を組むことで、新たな採用支援システムの開発に乗り出す。
背景
AI技術の進歩により、採用業務に求められるスキルや期待される成果も変化。求人票の自動作成やスカウトメールのテンプレート作成など、効率化/自動化によって人材要件の定義やマッチングの質が高まることから新サービスの開発に着手。
本サービスの特徴と目標
必要な人材要件の定義や求職者と企業のマッチングの質を高める。
これを実現するために、業務効率化や条件定義の高度化、さらには様々なジャンルでの細やかなマッチングを可能にする。
ただ企業の業務効率を向上させるだけではなく、社会全体に対する影響も考慮。
障害者、女性、中高年、外国人など、多様な人材が活躍できる場を提供することで、社会全体のキャパシティを広げることも重要な課題。
地方や中小企業での採用活動も支援し、働き方の多様化と労働市場全体の活性化に貢献。
(ビジネス事例)バーチャルオフィスとパーソナルAI技術を組み合わせたDX
バーチャルオフィスにおける議事録の自動作成・要約・リアルタイム翻訳に加え、発話者の音声に基づいたリアルタイム同時翻訳なども視野に入れたサービス開発を行うことで、人が働く上での非生産的制約・物理的制約を解消することを目的としたサービスの実現を目指す。
oViceが有するバーチャルオフィスの技術と、オルツが有するAIによる高精度音声認識技術を組み合わせることで、以下のサービスの実現に取り組む。
従業員の会話や会議、商談を自動テキスト化および企業にとっての資産化
同時翻訳による言葉の壁の解決に加え、高精度なリアルタイム音声認識・翻訳・音声合成を組み合わせた、さらなるグローバルコミュニケーションの活性化
パーソナルAI技術を活用した「バーチャルアシスタント」の普及による、より自走できるオフィス環境の提供