【2/25-3/3】生成AIツール/研究-Weeklyまとめ
今週のAIに関するツールや研究情報をまとめた記事です。
ツール
・AIアプリ制作者用に、信頼性を検証し向上させるツール、Critique
・チャット検索のNeevaAIが、マルチパースペクティブAIなるものを紹介
色んなソースと観点から結果を確認でき、好みに合わせて特定のトピックをより把握できるとのこと。Bias Buster スライダーを動かすと、AI の回答を変更できる。
https://neeva.com/blog/neevaai-bias-buster
・Landbot AI ノーコードでGPTチャットボットをWhatsApp、Web、または Messengerに構築できる
リードの生成、プロセスの自動化、キャンペーンの開始、質の高いカスタマー サービスの提供が可能 lineがline公式チャットの機能の一つとしてやってきそう
https://landbot.io/ai
・@aivtuber_zero さんが誰でもキャラクターAIが作れるサービスを開発
属性・声などをテキスト入力するだけで、誰もが簡単にオリジナルのキャラAIを生成可能。
・GPTなどを利用したAppleショートカットマーケットプレイス
スプレッドシート自動補完や文章整形など様々なGPTショートカットを売買できる コミュニティも運営していくとのことで、この場所であらゆるプロンプトツールを集約させていこうとしてそう
http://promptplays.ai
・GPT3 とコンピューター ビジョンを使用した Chrome のRPA
CRM 統合、請求書の提出、電子メールへの返信、会議メモの要約などなど https://getlassoai.com
・Kraftful: ユーザーからのフィードバックをAIで分析
https://kraftful.com
・ChatLLaMA - RLHF をベースにした LLaMA のオープンソース実装
ChatGPTより15倍速い学習プロセスを主張している。また、ChatLLaMAのアシスタントをカスタマイズすることができる。
https://github.com/nebuly-ai/nebullvm/tree/main/apps%2Faccelerate%2Fchatllama…
・QuoraのPoeをリバースエンジニアリングしたAPIだそう
AnthropicのClaudeにターミナルでアクセスしてる
http://github.com/vaibhavk97/Poe
・Snapchat が AI チャットボットのMyAIをリリース
https://theverge.com/2023/2/27/23614959/snapchat-my-ai-chatbot-chatgpt-openai-plus-subscription…
・huggingfaceで、画像を編集等されないように免疫化するデモが公開
自分の画像を免疫化し、画像を編集してみることでどうなるかチェックできる
https://huggingface.co/spaces/hadisalman/photoguard…
ブログ: http://gradientscience.org/photoguard/
論文: http://arxiv.org/abs/2302.06588
github: https://github.com/MadryLab/photoguard
・langchain AGIハッカソンで1位を取ったLife Copilot テキストと画像を理解し、ブラウザ処理を自動化する@MultiON_AIを使い、最適な提案や処理を代行するAIアシスタント
動画は、サラダ画像をアップし、そのサラダのデリバリー注文を自動代行
他事例はスレッド)
・TikTokに手をかざしてもフィルターが外れない「Beauty filter」
・テキストto UIデザインのGalileo AI
アーリーアクセス: https://usegalileo.ai
・テキストから3Dキャラクター生成
waiting list: https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAANAAUIQFilUNjNGM0NLUUhEUEkxVlRFTkw0OVA3NzlVNS4u
・人の写真をアップロードすると、AI がインターネット上のすべての同じ顔画像を見つけるサイト
https://pimeyes.com/en
・adsai はヘルプデスクやカスタマーサポート向けの動くマニュアルをクリックするだけで作成できるツール「secondz」を日本市場向けにローンチ
今後、ChatGPT などと組み合わせ、ユーザと対話的にやり取りできるツールへと進化させる計画。
https://thebridge.jp/2023/03/adsai-officially-launches-seconds-for-japan…
・ChatCAD:レントゲンなどの医療画像から自動診断した症状をチャット形式で教えてくれるシステム
言語モデルとCAD(コンピュータ検出/診断支援)ネットワークの組み合わせ 医療画像を3つのAI(画像分類、病変セグメンテーション、報告書生成)に送り込み、レポート生成AIが診断報告書を作成、GPTが編集する
https://www.itmedia.co.jp/news/articles/2303/01/news070.html
・Uizard Screenshotってツールで、スクショ画像を編集可能なモックアップに変換できるらしい
つまり、好きなアプリ、ウェブサイト、独自のソフトウェアの画面をスクショして、アップロードするだけで、その画面を編集したり、新しいプロジェクトを開始できる
https://uizard.io/blog/uizard-screenshot-convert-screenshots-to-mockups/…
・Uizardの手書きのワイヤーフレームスキャナー機能
手書きのワイヤーフレーム画像を編集可能なデジタルワイヤフレームにすばやく変換 企画者さんの細かいイメージを、爆速で表現できるようになった
https://uizard.io
・PortfolioPilot Insights 何百万ものマクロ経済関係をくまなく調べて、純資産に影響を与える洞察を自動的に生成
https://portfoliopilot.com/?utm_source=producthunt&utm_campaign=insightslaunch
・仕事用のSlack AI検索アシスタントDashworks Slack
チャンネルに追加するだけで、Wiki、チャット、その他の仕事用アプリに埋もれている情報から質問に応答
https://dashworks.ai/for-slack
・ChatGPTをLINEで使えるサービス
http://lin.ee/rnlquLs
・セールス Co-PilotのGoldie
Goldieは、ベストプラクティスを提案し、あなたに代わって営業を実行することで、より短時間でより多くの案件を成約することができるツール
まだ未公開:
・stablediffusion用の新しい Blender プラグイン
ツール内でテクスチャ、ビデオなどを生成できる。
無料でダウンロード: https://platform.stability.ai/docs/integrations/blender…
・SnapChatのMinecraftレンズだそう
AR で 現実世界 x Minecraftができる。スティーブのように掘ったり、戦ったり、建てたり https://lens.snapchat.com/0d8bfe42b05849648c0eea39a99801e3?utm_source=Lens_Creator_Email
・perplexity拡張機能でサイト要約もできるようになってた
閲覧しているニュース、記事、論文に対してワンクリックで要約したり、テキストでQAできるとのこと。色んなAIツールがこれ一本でよくなってる。
https://chrome.google.com/webstore/detail/perplexity-ask-ai/hlgbcneanomplepojfcnclggenpcoldo
・ChatGPTを搭載した栄養アシスタントNaraがリリース
好みに合わせた新しいレシピ、外食オプション、フードデリバリーのおすすめを24時間365日パーソナライズして提案してくれる yconのW22にも参加 やってみたけどプロンプトが仕込まれてるって感じ。
https://trynara.com
・roomGPTの発表
AIで部屋を数秒でデザインし直そすことができる無料ツール
リリースから12時間で
◆ 14,000 ルームが生成
◆ 10,000 人のユニークユーザー
◆ 400のGitHub スター
◆ かかったモデル推論代224 ドル
http://roomgpt.io
研究
・Metaが7B から 65B パラメータまでの 4 つの基盤モデル LLaMA をリリース
LLaMA-13B は、ほとんどのベンチマークで OPT および GPT-3 175B よりも優れている。 LLaMA-65B は、チンチラ 70B および PaLM 540B と競合
商用利用は禁止
・Composer: 数十億の(テキスト、画像)ペアで学習した大規模(50億パラメータ)な制御可能な拡散モデル
github: https://github.com/damo-vilab/composer…
paper: https://arxiv.org/abs/2302.09778
project: https://damo-vilab.github.io/composer-page/
・基盤LLMを開発するのにかかった費用
Facebookの65B LLaMA: 合計約5億円
2048個のNvidia A100 GPUで21日間学習。(GCPが1時間3.93ドルとして)
Googleの540B PaLM: 合計約37億円
6144 v4 TPUで1200時間学習。(1時間あたり3.22ドルとして)
・プロンプトを変えることで画像を編集
https://huggingface.co/spaces/kadirnar/prompt-to-prompt_stable-diffusion
・ChatGPTは弁護士の代わりになるか? 「カタツムリ混入ビール事件」の判例で香港の研究チームが検証
研究チームは、総合的には有能な訴訟弁護士ほど高度ではなく、ChatGPTが作成する草稿や研究作業は法学部の1年生ほどと考察 (あくまでChatGPTは)
・外部の知識と自動化されたフィードバックを使用して大規模な言語モデルを改善
言語モデルに、例えばタスク特化DBに格納された外部知識に基づく応答を生成させ、プロンプトを繰り返し修正し、応答の事実性スコアなどをもとにしたフィードバックを用いて、モデルを改善
論文: https://arxiv.org/abs/2302.12813
・ELITE 高速かつ正確なカスタマイズされたテキストから画像への合成のための、新しい学習ベースのエンコーダ
0.05sでDreamboothてきなことができる画像生成。
論文: http://arxiv.org/abs/2302.13848
github(まだ何もない): https://github.com/csyxwei/ELITE
・FedCLIP: 連合学習におけるCLIPのための高速な汎化・個別化
abs: http://arxiv.org/abs/2302.13485
・Internet Explorer クエリを使用しネットの画像検索、ダウンロードした画像の自己監視トレーニング、有用な画像の判断、次に検索する画像の優先順位付けを繰り返し、タスクに寄与するデータで学習
1 つのGPUのみを使用して30,40時間クエリを実行することで、CLIP oracleを上回るか、同等まで。
・KOSMOS-1、マルチモーダル入力を認識し、指示に従い、マルチモーダル タスクのコンテキスト内学習を実行できるマルチモーダル言語モデル
画像を元に対話したり、ビジュアルIQテストに合格したり、コンテンツの画像を分析したりなど
https://arxiv.org/abs/2302.14045
・与えられたテキストスクリプトと顔画像から音声を生成
顔でなんとなく声を想像できるよね、というところから着想
abs: https://arxiv.org/abs/2302.13700
プロジェクト: https://facetts.github.io
・CoH: chain of hindsight 「次の要約は悪い」など、比較の形で正と負の両方のフィードバックで構成される文を作成し学習
要約および対話タスクでは、SFT、RLHFより精度向上
Paper: https://arxiv.org/abs/2302.02676
Code: https://github.com/lhao499/CoH
・画像生成AIの高品質なプロンプトを盗む攻撃の検証と防御策の提案
生成画像が与えられたとき、対応するプロンプトを推測することができるのかという課題に対し画像からプロンプトを盗む攻撃を検証 PromptShieldと呼ぶプロンプトを適切に推測できないように攻撃を防ぐ手法も提案
https://itmedia.co.jp/news/articles/2303/01/news071.html
・100倍少ないデータ量と計算量でOpenAI CLIPを打ち負かしたそうな
データセット:fliker, mscoco
タスク:ゼロショット画像検索
ブログ:https://unum.cloud/blog/2023-02-20-efficient-multimodality…
huggingface: https://huggingface.co/unum-cloud/uform…
github : https://github.com/unum-cloud/uform…
・Vid2Seq:高密度ビデオキャプションのための視覚言語モデルの大規模な事前学習
論文: https://arxiv.org/abs/2302.14115
・複数の画像素材からうまくフィットするようにコラージュする Collage Diffusion
論文:https://arxiv.org/abs/2303.00262
・自然言語でドローンを動かす
・サイズ無制限の画像復元
abs: https://arxiv.org/abs/2303.00354
github: https://github.com/wyhuai/DDNM
・WhisperX: 長時間音声の時間精度の高い音声文字起こし
abs: https://arxiv.org/abs/2303.00747
GitHub: https://github.com/m-bain/whisperX
・All-In-One-Deflicker 様々なビデオからあらゆる欠陥を除去できる後処理フレームワーク
https://chenyanglei.github.io/deflicker/
・言語モデルで科学の新しい仮説発見検証
-研究目標と2つの大きなコーパスを与える
-コーパスレベルの差分について仮説を立てる
-言語モデルは、関連する重要な仮説を提案 675 のビジネス、科学、健康などの問題について評価
論文: https://arxiv.org/abs/2302.14233
コード: https://github.com/ruiqi-zhong/D5
・Flan-UL2 20Bがオープンソースで公開
- フォームなし、Apache ライセンス
- UL2 20BモデルをFlanでインストラクショントレーニングしたもの
- MMLU/Big-BenchハードでのベストOSモデル
- Flan-T5 XXLを上回り、Flan-PaLM 62Bに匹敵
https://www.yitay.net/blog/flan-ul2-20b
・Google USM
100 以上の言語で自動音声認識 (ASR) を実行する大規模モデルである Universal Speech Model (USM) 1/7 のラベル付き学習データと事前トレーニング用の大量のラベルなしデータを使用したウィスパーと比較して、同等またはそれ以上の結果
https://arxiv.org/abs/2303.01037
・ImageNet での 3D 生成
論文: https://arxiv.org/abs/2303.01416
プロジェクト: https://snap-research.github.io/3dgp
・学習済みの視覚言語モデルを使用したオープンワールド オブジェクト操作
言語コマンドと画像物体検出手法で情報を抽出し、現在のロボットポリシーを調整するMOOを提案 ゼロショットで幅広い新しいオブジェクトと環境に一般化し、指差しなどの非言語入力での対象指定も可能に。
論文: https://arxiv.org/abs/2303.00905
プロジェクト: https://robot-moo.github.io/
・テキスト動画生成(英語のみ)
1, テキスト特徴量取得
2, 1より画像特徴量取得
3, 2より動画生成
4, 動画補間
5, 動画アップスケール
モデルはまだダウンロード不可
詳細: https://modelscope.cn/models/damo/cv_diffusion_text-to-video-synthesis/summary
・頭脳MRIから、見られた画像を再現
https://sites.google.com/view/stablediffusion-with-brain/?pli=1