【2/11-2/16】生成AIツール/研究-Weeklyまとめ
ツール
・CustomGPT
あなた自身のデータで「あなただけのChatBOTを構築」することができる。自分のデータをもとに、ブログ記事を書いたり、カスタマーサービスに関する質問に答えたり、さらに100以上のユースケースを実現。
・PEFT: 「パラメータを効率的に微調整」するためのライブラリ。 https://github.com/huggingface/peft…
・synthesic users
アイデアや製品をAIユーザーにテストインタビューできるサービス AIユーザーは、製品の特徴や阻害要因を明らかにするためのユニークなコメントを提供してくれる。
https://syntheticusers.com
・3ステップでLangChainアプリをデプロイ可能なツール https://steamship.com/build/langchain-apps
・Text to Space
テキストでインタラクティブな仮想体験を生成
http://Versy.ai
・extractGPT 構造化および非構造化ページからデータをスクレイピングするためのブラウザー拡張機能。
必要なテーブル列を指定するだけで、後は自動で実行可能! 拡張機能に落ちて誰でも使えるようになったのは大きい。
https://airtable.com/shruPamX8OWa5tqdp
・AI生成ツールで作成された映画やビデオリスト
Grin Machine のトリッピーなミュージック ビデオから、Paul Trillo の広告まで
・ブログやウェビナーなどの長編コンテンツから 1 か月分の動画やソーシャルコンテンツを数分で生成するAI
無料でお試し: http://pictory.ai
・Pix2Pix Videoのデモ「人をロボットにする」
・LangChainのReActにキャラクター性を持たせる方法
・GPTによる探検ゲーム
AIが毎回違ったストーリーを考えてくれて、プレイヤーの選択次第で展開が変わっていく。
・GPT3でコード生成することで3Dモデリング
・RunwaymlのGen1による下動画から上の動画生成
・Codeium search
AI を利用した自然言語ベースのコード検索と合成
・全てのBLIP-2 チェックポイントが 8bit の推論をサポート
性能低下なしに、これらのモデルの実行に必要なメモリがおよそ半分に。 https://huggingface.co/spaces/hysts/BLIP2-with-transformers
・AUTOMATIC1111でControlnetが利用可能に (現在、Pose, Scribble, M-LSD, Depth Map, Normal Mapに対応)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/7784
・Krikeyは、http://Stability.aiと提携して AI Text-to-Animation ツールを立ち上げ
テキスト(歩く、走る、ジャンプ、ムーンウォークなど) を使用して、数分でアバター アニメーションを生成可能とのこと。
詳細: https://cartoonbrew.com/tech/stable-diffusion-is-launching-an-ai-text-to-animation-tool-in-partnership-with-krikey-225919.html
・アニメフィギュアが生成できるLoRAモデルが公開 https://civitai.com/models/7984/figma-anime-figures
・Patterns: ビジネスデータによるGPT
ChatGPTのような AI を実際のビジネス データに接続し、アクションを促進できる。Slack ボットを構築して、既存のドキュメントを使用して顧客からの質問に回答したり、製品に AI アシスト機能を追加したりできる。https://www.patterns.app
・ECマーケターのための 200 万以上のChatGPT プロンプト
説得力のあるページの見出し、説明、マーケティング メッセージを作成して、トラフィックを促進できるメッセージを生成できる
https://www.ecommerceprompts.com
・text to sqlのOuterbase
GPT-3 ベースのテキストから SQL への変換ツールである SQL または EZQL を使用すると、ユーザーはデータをすべて 1 か所で簡単に編集、表示、クエリ、視覚化できる。Postgres、MySQL、およびその他のRDBでデータを管理できる。
https://outerbase.com/
研究
・BLIP-2
画像を基にした質問回答が可能
Docs: https://huggingface.co/docs/transformers/main/en/model_doc/blip-2…
7 checkpoints: https://huggingface.co/models?other=blip-2…
デモ: https://huggingface.co/spaces/Salesforce/BLIP2…
・In-N-Out
3D対応GANを用いた顔動画編集 by Adobe 仮装やマスクやメガネなどを外したり付与したり、表情を変化させたりなどできる
abs: https://arxiv.org/abs/2302.04871
プロジェクト: https://in-n-out-3d.github.io
・テキストから画像への条件付き制御の追加 線画や骨格点から画像生成が可能
paper:https://github.com/lllyasviel/ControlNet/raw/main/github_page/control.pdf…
github: https://github.com/lllyasviel/ControlNet
・EVA3D: 2D 画像コレクションからの合成 3D 人間生成 huggingfaceも出てる
huggingface: https://huggingface.co/spaces/hongfz16/EVA3D…
Official Github Repo: https://github.com/hongfz16/EVA3D
Project Page: https://hongfz16.github.io/projects/EVA3D.html…
arXiv Link: https://hongfz16.github.io/projects/EVA3D.html…
・offsite-tuning
モデルへ直接アクセスなしに独自データでチューニングできる フルモデルファインチューニングと同等の精度ながら、プライバシー保護と効率化を両立し、6.5倍の高速化と5.6倍のメモリ削減を実現 エンプラ対応、個々人用モデル作成で重宝されそう
github: https://github.com/mit-han-lab/offsite-tuning…
論文: https://arxiv.org/abs/2302.04870
・MEGANE META が目鏡用の3D構成モーフィング可能なAIを発表
ライティングやレンズ変更などもかなり自然。触覚以外の試着体験はバーチャルでも良さそう。
Review https://bit.ly/3jOWifu
Paper https://arxiv.org/pdf/2302.04868.pdf
Project http://junxuan-li.github.io/megane
・現在最大の220億パラメータに対応するスケーリングViT 様々なタスク評価
ViT-22Bはスケールアップに伴い性能が向上することが示された。さらに、公平性と性能のトレードオフの改善など、スケールによる他の興味深い利点も観察された。
論文: http://arxiv.org/abs/2302.05442
・Swearing (英語でいう "fuck", "shit"など) が入っているコードは、入っていないコードよりも高品質
GitHubにおける数千個のCソースコードを検査した結果
・Read and Reward フレームワーク
説明書を読むことで Atari ゲームの強化学習アルゴリズムを高速化 報酬がまばらな 4 ゲームを改善し、Atari で最も難しいゲームである Skiing での以前の SOTA Agent 57 と比較して、1000 分の 1 に。
論文: https://arxiv.org/abs/2302.04449
・「GPT-3」などの最新言語モデルが自然に他者の心を推察する能力である「心の理論」を獲得していたという研究論文
・ IBMの自然言語と化学言語を翻訳する高精度モデル
マルチタスクで学習した点がポイントのようです。 例えば原料や作り方を入力するとできる分子を教えてくれるとのこと。
https://arxiv.org/abs/2301.12586v1
・Google Research は、最大 12 時間前に雨を予測できる MetNet-2 のコードと論文を公開
スーパーコンピューターで実行される巨大な物理シミュレーションである現在の天気予報モデルを凌駕する。
https://arxiv.org/abs/2302.04449
https://colab.research.google.com/github/google/ai-weather-climate/blob/main/metnet2/colab.ipynb
・大規模言語モデルにおける道徳的自己修正能力
道徳的自己修正の能力は 22B モデル パラメーターで出現し、通常はモデル サイズの増加と RLHF トレーニングによって向上するとわかった。
論文: https://arxiv.org/abs/2302.07459
・LiveHand: リアルタイムでリアルな手の生成
論文: https://arxiv.org/abs/2302.07672
・AIによるクロスワード パズル 最後、仮で埋め込んだ単語が間違ってるのをちゃんと修正してる
論文: https://arxiv.org/abs/2205.09665
デモ: https://berkeleycrosswordsolver.com
・どんな入力からでも画像生成できるアルゴリズム
再学習せずに、任意の条件によって拡散モデルを制御することができるユニバーサルガイダンスアルゴリズムを提案。セグメンテーション、物体検出、分類器の信号等から画像生成可能に
論文: https://arxiv.org/abs/2302.07121
github: https://github.com/arpitbansal297/Universal-Guided-Diffusion
・MarioGPT
テキストからマリオのマップ、ステージ?を生成。「たくさんの土管」「たくさんのブロック」「敵なし」などの言葉を入力するだけで生成が可能です。実際に88%のステージはプレイ可能なレベルに https://arxiv.org/abs/2302.05981
・Transformer関連手法についてのメタサーベイ記事
・SinMDM
拡散モデルとノイズ除去ネットワークを使って、限られたデータで人間、動物、想像上の生物のリアルなアニメーションを合成。
abs: http://arxiv.org/abs/2302.05905
proj: http://sinmdm.github.io/SinMDM-page/
video: https://www.youtube.com/watch?v=dU9WR8rWAJI
・ChatGPTのゼロショットタスク検証
7 つの代表的なタスク カテゴリをカバーする 20 の一般的な NLP データセットで評価 推論機能 (算術推論など) を優先する多くのタスクでうまく機能したが、シーケンスのタグ付けなどの特定のタスクは課題
論文: https://arxiv.org/abs/2302.06476
・音声認識の学習データの話者数は一人で十分とする
論文: https://researchgate.net/profile/Moacir-Ponti/publication/359730124_A_single_speaker_is_almost_all_you_need_for_automatic_speech_recognition/links/62faf0cfe3c7de4c345e41b8/A-single-speaker-is-almost-all-you-need-for-automatic-speech-recognition.pdf