見出し画像

【4/17-4/21】生成AIツール/研究-Weeklyまとめ

今週のAIに関するツールや研究情報をまとめた記事です。

ツール

・BLIP2やSegment Anythingなどの情報をChatGPTに投げ込んでパラグラフを生成するimage2paragraphがHuggingFace Spaceで利用できるように


・ChatGPTのUIUXを改善したTypingMindが、複数の会話を並行してできるように
他にも、
-自分のAPIキーを使用
-GPT3.5やGPT4を利用可能
-ログインの繰り返しがない
-検索機能
-プロンプトライブラリ
など
https://typingmind.com


・高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | TechnoEdge テクノエッジ


・AWSのAI
Amazon Titan: ChatGPTライク
Stable Diffusion: 画像生成
Claude: 会話、Q&Aなど
Jurassic-2: 複数言語モデル
Amazon CodeWhisperer: コーディングアシスタント


・リッチ テキストを使用した表現力豊かなテキストから画像の生成がHuggingfaceで利用可能に
https://huggingface.co/spaces/songweig/rich-text-to-image


・Adobeが画像生成AI Fireflyをビデオツールに導入予定
テキストでカラーグレーディングなどの動画編集、カスタムサウンドや音楽の生成、字幕やロゴ、タイトルカードなどの作成も また、スクリプトからストーリー、ひいてはプリビジュアライゼーションの自動生成も計画中


・InVideo AIからテキスト動画生成が、来週アーリーアクセスリリース
waiting list: http://bit.ly/3olgW9b


・AI面接官サービス


・Adobe Lightroomの最新機能
-被写体の服や顔の毛を自動選択し、色や質感を素早く調整できるオプション
-「髭を暗くする」「ポートレートに磨きをかける」「服を強調する」の3種類のプリセット -「デジタルノイズ」を除去するDeNoiseツールも
https://www.theverge.com/2023/4/18/23687862/adobe-lightroom-update-adaptive-presets-beard-ai-features


・US版メルカリ、ChatGPTを活用した新しいお買い物アシスタント
「Merchat AI」の提供を開始 出品されている何百万もの商品を数秒でくまなく調べ、チャットで入力された要望に基づいておすすめの商品をリアルタイムで表示
MerchatAI: http://mercari.com/merchat 
ブログ: https://about.mercari.com/press/news/articles/20230419_merchat/


・AutoGPTがHuggingfaceで試せるように
使い方
-このスペースを複製(複製しないと動作しない! )
-OpenAI API Keyを入力
-値を入力し、「開始」をクリック
-ひたすらYes
https://huggingface.co/spaces/aliabid94/AutoGPT


・Snap は、「My AI」チャットボットを Snapchat の 7 億 5000 万人の月間ユーザー全員にも無料でリリース
グループ チャットに追加され、AR フィルターなどを推奨する機能が追加され、まもなく Snapchat 内で写真を生成することもできるように
https://www.theverge.com/2023/4/19/23688913/snapchat-my-ai-chatbot-release-open-ai


・Snapchat、ジェネレーティブAIを搭載したARレンズの提供を開始、まずは「Cosmic Lens」を新設
「Cosmic Lens」は、没入感のあるSFアニメーションのシーンに変えることが可能


・大規模言語モデル x 視覚情報のMiniGPT-4のデモ
https://huggingface.co/spaces/Vision-CAIR/minigpt4


・GPT含む複数AIモデルを利用・比較




研究

・CyberAgent より、画像生成タスクにおける新たな評価指標の提案


・Web LLM Web


・OpenAI APIのファインチューニングの学習データのガイドライン


・マルチモーダル C4コーパス
43Bの英語のトークンと585M の画像を含む103Mのドキュメント
https://github.com/allenai/mmc4


・テキスト生成のAUTOMATIC1111/stable-diffusion-webui
Alpaca 以降コミュニティによって構築されたチャット AI約 12 個すべてのためのオープンソース Web UI
https://github.com/oobabooga/text-generation-webui


・Inpaint Anything: 何でもセグメント化して画像修復
論文: https://arxiv.org/abs/2304.06790
github: https://github.com/geekyutao/Inpaint-Anything


・ChatGPT+VITS+Live2DのChatWaifu…のさらにスマホ版


・落合さんのLLM論文紹介


・LangChainアプリをJina AI
Cloud上に数秒でデプロイするlangchain-serveで、 Jina AI Cloudにbabyagiをワンコマンドデプロイ


・商用利用可なオープンなRedPajama


・DINOv2
画像レベルの視覚タスク(画像分類、インスタンス検索、ビデオ理解)とピクセルレベルの視覚タスク(深度推定、セマンティックセグメンテーション)に適した普遍的な特徴を抽出
1億4,200万枚の画像からなるデータセットを利用
商用は不可
https://dinov2.metademolab.com 
https://github.com/facebookresearch/dinov2


・冷蔵庫 x 物体検出 x ChatGPTで、残りモノからのレシピ生成
個人的には、自動生成じゃなくていいから、クックパッドとかクラシルレシピの方がオススメしてほしい


・GPT-4以上? 自分で何度も“推敲”し完成度を上げる言語生成AI「Self-Refine」


・50億バラメーターの大規模言語モデルCamel


・databricks-69k-ja-en-translation


・【前編】LangChainによるGenerative Agents実装まとめ


・【後編】LangChainによるGenerative Agents実装まとめ


・Gisting


・拡散モデル生成データで学習したら分類精度向上したらしい


・NVIDIA Omniverse と Replicator を使用しての合成データの生成→モデル微調整に関するブログ投稿


・Llama Lab:LlamaIndexを使った最先端のプロジェクトを構築するための専用レポ


・画像チャットのLLaVA


・AI専門家の次は、AIチームを作るデモ
MultiGPT タスクと予算を設定すると、専門家のチーム(複数のexpertGPT)を作り、支援する
https://github.com/rumpfmax/Multi-GPT
詳細はスレッドに続く


・iPhoneのヘルスケアデータを連動して、対話するHealthGPT


・Segment Everything Everywhere All at Once のhuggingface demo
ちなみにSEEMは、視覚的プロンプト(ボックス、走り書きなど)、言語プロンプト(テキスト、オーディオ)など、様々なプロンプトでセグメンテーションできるモノ
SAMとの違いは意味を踏まえられることらしい
https://huggingface.co/spaces/xdecoder/SEEM


・MetaAIより Avatars Grow Legs: 拡散モデルを使用しての滑らかな人間の動き生成
Githubなぜか開けない
論文: https://arxiv.org/abs/2304.08577
プロジェクト: https://dulucas.github.io/agrol/


・Text2Performer: テキストによる人物動画生成
合成された人間の外観を維持しながら、動作を行う動画生成研究 ファッション系とかへの応用が期待されそう
プロジェクト: https://yumingj.github.io/projects/Text2Performer.html…
github(モデルやコードは無い): https://github.com/yumingj/Text2Performer…
論文: https://arxiv.org/abs/2304.08483


・Video LDMs: 潜在拡散モデルによる最大解像度1280×2048の高解像度のテキスト動画生成
DreamBoothを組み込むことで、パーソナライズされた動画も生成可能(スレッドに)
プロジェクト: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
論文: http://arxiv.org/abs/2304.08818


・LLaMA-7Bのモデル、Guanaco
-複数言語 -システムプロンプトによる正確な外部知識の統合
-マルチターン対話
-ChatGPT API的ロール対応(システム、アシスタント、ユーザー)


・開発に使える?ChatGPTとプロンプトエンジニアリング


株式会社松尾研究所のリサーチャーの方のAI系の研究・開発に関する情報収集元


・LangchainでAutoGPT
langchainで、AutoGPTプロンプト+AgentExecutorを実装(モデル、ベクターストア、ツールなど)


・StableLM:Stability AI 言語モデル!!!
-3Bと7BのStableLM-alphaモデルがリリース!
-15B、30B、65B、175Bのモデルも公開予定!
-しかも、ベースモデルはCC BY-SA-4.0、Fine-tunedモデルは非商用
-最大1.5兆個のトークンで学習
-コンテキスト長は4096トークン
huggingface: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
github:
 https://github.com/stability-AI/stableLM/


・RVC向け学習済みボイスモデルデータをMITライセンスで無料配布


・MaskFreeVIS
ビデオまたは画像マスクのアノテーションなしで、正確なビデオインスタンスセグメンテーションを取得可能
詳細:http://vis.xyz/pub/maskfreevis
github:https://github.com/SysCV/MaskFreeVIS
論文:https://arxiv.org/abs/2303.15904


・UEマケプレにOpenAIのAPIを叩ける無料プラグイン


・某国のChatGPT禁止でどれだけ生産性に影響があったをGitHubへのコミット量で調べてみたという論文。


・Microsoftがわずか数秒のサンプルから会話や歌声を再現できる音声合成AI「NaturalSpeech 2」を発表


・WALDO v1.0: ドローン / 地球観測衛星 / 飛行船などからの物体の頭上検出のための FOSS 事前学習済みモデル
github:https://github.com/stephansturges/WALDO


・NeRFの参照ガイド付き制御可能な修復
めちゃくちゃ綺麗に消せてるなー
論文: https://arxiv.org/abs/2304.09677 
プロジェクト: https://ashmrz.github.io/reference-guided-3d/


・構造認識拡散モデルによるスケッチを使用した参照ベース画像合成
服着せ替えたり、翼生やしたり、背景変えたりと、結構雑なマスク・スケッチで、反映されてる
論文: https://arxiv.org/abs/2304.09748
GitHub:https://github.com/kangyeolk/Paint-by-Sketch


・Bark: http://suno.aiが作成したテキストオーディオ生成モデル
多言語音声、音楽、バックグラウンドノイズ、簡単な効果音などの音声や、笑い、ため息、泣き声などの非言語コミュニケーションも生成可能
github: https://github.com/suno-ai/bark
hf: https://huggingface.co/spaces/suno/bark


・Whisper JAX:Whisperを70 倍高速化 GPU と TPU の両方に対して最適化されている 1 時間分の音声を 15 秒以内に文字起こし
hf:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
github:https://github.com/sanchit-gandhi/whisper-jax#available-models-and-languages


・検索 x チャットボットの信頼性評価
Bing Chat、NeevaAI、http://perplexity.ai、YouChatを検証し、裏付けのない文章や不正確な引用が含まれていることがわかった。平均、生成文章のうち引用による完全サポートは51.5%、引用によって関連文章をサポートしているのは74.5%


・LMQL(Language Model Query Language)概観


いいなと思ったら応援しよう!