![見出し画像](https://assets.st-note.com/production/uploads/images/101468695/rectangle_large_type_2_efa678fbaf12a2a32278bedf8918ba21.jpeg?width=1200)
【3/25-3/31】生成AIツール/研究-Weeklyまとめ
今週のAIに関するツールや研究情報をまとめた記事です。
ツール
・GPT-4を使い保護者をサポートするco-parentのMiloも初期のChatGPTプラグインの1つに
サッカーのメールや学校のリマインダーといった子供関係情報の管理などを解決。
![](https://assets.st-note.com/img/1680087151590-tfXoh2wEdm.png)
![](https://assets.st-note.com/img/1680087155384-NtHEKTECLI.png)
・どんな本ともチャットできるプラットフォーム
実際に本を読み込んでいるというより、本を指定することでGPTの記憶ベースで色々質疑応答できるっぽそう
https://bookai.chat
![](https://assets.st-note.com/img/1680090253595-CwHV2Gl8Xn.png)
![](https://assets.st-note.com/img/1680090258085-54YVQ2O7tY.png)
・http://PixelBin.ioの製品用背景生成ツール
プロンプトを入力するだけで、プロ級の製品用背景を生成 マーケティング x 画像生成のツールも増えてきてるけど、実際どうなのか
https://pixelbin.io
![](https://assets.st-note.com/img/1680090284687-3JxGSJyf8W.png)
・Luma AIがVideo-to-3D APIをリリース
1 ドルでシーン (またはオブジェクト)生成
https://captures.lumalabs.ai/luma-api
![](https://assets.st-note.com/img/1680090357865-ix4yF5jvak.png)
![](https://assets.st-note.com/img/1680090361585-6aixLHyeoE.png)
・ファッションモデルを生成するサービス「AI model」
>同サービスはむしろモデルの生活を支える技術である、と答えています。一般に男性モデルは30歳まではカジュアル系ファッションの案件が続き、40代以降はスーツを着用する案件が増える傾向にありますが、30代ではキャリアに空白が生じてしまいます。こうしたなかAI modelを活用して顔を案件に合わせて変えれば、30代でも活躍できるようになる
・Apple Watchでの「Hey GPT」
インストール: https://icloud.com/shortcuts/0cc3e4195dfe46ffb901cb3348bc3c1e
My Siri replacement “Hey GPT” doesn’t just work on your iPhone…
— Mckay Wrigley (@mckaywrigley) March 27, 2023
It works on all your Apple devices!
See it in action on my Apple Watch - you can even scroll through the text.
Apple better hurry up with the next Siri…
Install: https://t.co/88mScIF4v7 pic.twitter.com/dLk3DYLYFS
・Web サイト右下のAIチャット配置
ユーザーがドキュメント、よくある質問、プライバシー ポリシーなどを読む必要がなくなる
waiting list: http://questionbox.co
Who wants a pretty AI-powered widget on their website??
— Franz Stupar (@franzstupar) March 27, 2023
So that your users won't have to read your docs/FAQs/Privacy Policies and all that stuff!
Check out my new project -> https://t.co/IlrLLvbKzo
Still VERY MUCH in beta, please give me feedback!
built with @LangChainAI :) pic.twitter.com/cCczfVcDet
・GPT-4ウォーレンバフェット金融アナリストが、イーロンマスクのTesla 10-k 年次報告書 (2020-2022)の複数PDFファイル (~1000 ページ) と「チャット」して分析するデモ 専門家AIは増えそう
チュートリアルYoutube: https://youtube.com/watch?v=Ix9WIZpArm0…
テンプレGithub: https://github.com/mayooear/gpt4-pdf-chatbot-langchain
I built a GPT-4 'Warren Buffett' financial analyst to 'chat' with and analyze multiple PDF files (~1000 pages) across @elonmusk's Tesla 10-k annual reports (2020-2022)#gpt4 #openai #investing #stocks #finance pic.twitter.com/AX75f28mBA
— Mayo (@mayowaoshin) March 27, 2023
・GPT-4をDAWに統合することで、テキストで指示し音楽を編集したりできる。
「もうちょっと静かに」や、「メロディーをxxxみたいな感じでもう少し面白い音に」など。
https://wavtool.com
By making GPT-4 give us instructions we can parse into actions, we can seamlessly integrate our Conductor AI into the DAW! It can take descriptions and suggest changes that can be executed with a click of a button. pic.twitter.com/sYwxAlUomv
— WavTool (@wavtoolofficial) March 20, 2023
・AI研究の第一人者のRichard Socherさんが開発しているhttp://You.comからYouwriteとかいうライティングAIが使えるようになってた
画像にあるけど、他のJasperやhttp://copy.aiと比べても遥かに安そう(同じ条件ではない)
https://you.com/search?q=how+to+write+well&tbm=youwrite
![](https://assets.st-note.com/img/1680091604102-qQYN292meE.png)
![](https://assets.st-note.com/img/1680091608409-zEufiBLI38.png)
![](https://assets.st-note.com/img/1680091614509-SnAdoMC9LQ.png)
・AIを尋問するゲーム
良かった!殺人容疑がかかったAIを尋問して自白に追い込む『ドキドキAI尋問ゲーム』。自由に入力できるので開幕自分が自白して犯人になるアクロバティックな尋問も可能。殺人容疑者の尋問というシチュエーションに落とし込むことでAIとの対話の揺らぎに説得力を出し体験を高めている。最後まで遊ぼう。 pic.twitter.com/mfapLkoa2l
— ロッズ (@rods_skyfish) March 28, 2023
・AIスタイリスト
ChatGPT活用して、洋服をおすすめしてくれる、その名も「AIスタイリストさん🪄」をリリースしました!
— 長井大輔 / DROBE COO (@daisukenagai) March 29, 2023
DROBEのLINEを友だち追加してもらえれば誰でも利用可能です!DROBEのデータも使って、商品提案もしてくれるのでチェケラしてみてください😎 pic.twitter.com/PY6IQS2fFl
・Taxy AI GPT-4を使ったAdeptライクなアプリケーション
依頼テキストを入力すればブラウザのタスクを自動化してくれる。将来的には、保存されたワークフローやスケジュールされたワークフローもサポートする予定。
github: https://github.com/TaxyAI/browser-extension…
waiting: https://docs.google.com/forms/d/e/1FAIpQLScAFKI1fZ1cXhBmSp2HM93Jvuc8Jvrxh5iSbkKhtwKN-OHoTQ/viewform…
GPT-4 coming for Adept
— Jordan Burgess (@jordnb) March 29, 2023
Here's Taxy – an OSS extension that uses GPT to automate browser tasks
- simplified DOM
- Reason + Act prompting
- executes the action using the chrome.debugger API.
Here it is: doing something esoteric with github settingshttps://t.co/hKhVN3hwj8 pic.twitter.com/LSUb9AXBva
・エラーが出ると勝手にGPT-4に聞いてコードを勝手に修正してくれるWolverine
GPT-4でコードを書かせて、それをそのままエディターにコピペしてエラーが出たら、それをまたGPT-4にコピペする、人間がコピペ役になっているのを解決するために出てきたのがWolverine。
— Tetsuro Miyatake (@tmiyatake1) March 30, 2023
エラーが出ると勝手にGPT-4に聞いてコードを勝手に修正してくれる。pic.twitter.com/AO2mfwUZpF
・BetterChatGPT
ChatGPT UIクローンサービス
・Noty.ai ChatGPTを搭載したMTGアシスタントで、MTGからをアクション、タスク、サマリーを抽出
ZoomやGoogleMeetなどと連携可能
https://noty.ai
https://t.co/o0sH8FL2D3
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 31, 2023
ChatGPTを搭載したMTGアシスタントで、MTGからをアクション、タスク、サマリーを抽出
ZoomやGoogleMeetなどと連携可能https://t.co/SoFCzMDOnX pic.twitter.com/3MSXxtLV0O
・Spline AI プロンプトで、3Dオブジェクト、アニメーション、テクスチャーを生成したり編集したり可能
waiting: https://spline.design
Spline AI
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 31, 2023
プロンプトで、3Dオブジェクト、アニメーション、テクスチャーを生成したり編集したり可能
waiting: https://t.co/1zWC8eLIWT pic.twitter.com/aeyDMAJiW7
・VisualizeAI
プロトタイプの作成、デザインの視覚化、インスピレーションの生成、アイデアの再構築を数秒で スケッチから画像生成したり、既存のデザインや空間をリ・スタイル&リ・デザインできる
https://visualizeai.pro
![](https://assets.st-note.com/img/1680271718344-KuVJHkQnGs.png?width=1200)
![](https://assets.st-note.com/img/1680271722322-JU9ANci3KD.png?width=1200)
研究
・TemporalNetが公開
https://huggingface.co/CiaraRowles/TemporalNet
#TemporalNet has been published!
— CiaraRowles (@CiaraRowles1) March 24, 2023
You can access the model to give it a try yourself here:https://t.co/0tdfmGxsVH
Curious to see how far people can push it ^^#ControlNet #AIart #stablediffusion pic.twitter.com/hd0e3MEFhG
・UnrealEngine5のmetahuman + stablediffusion Multi-ControlNetのテスト
Tests using a #metahuman from #UnrealEngine5 with #stablediffusion Multi-ControlNet. Applied diff. amounts of deflickering in #DaVinciResolve. Mainly seeing how it handles 3D camera moves. #aicinema #controlnet #aiia @UnrealEngine #aiphotography #MachineLearning #DeepLearning pic.twitter.com/fcbTXDQk7h
— CoffeeVectors (@CoffeeVectors) March 6, 2023
・拡散モデルから概念を消し去るモデルのデモ
>以前の方法とは異なり、私たちのアプローチは、推論時に出力を変更するのではなく、拡散モデルから概念を永久に削除できるため、ユーザーがモデルの重みにアクセスできたとしても、回避することはできません。
デモ: https://huggingface.co/spaces/baulab/Erasing-Concepts-In-Diffusion…
プロジェクト: https://erasing.baulab.info
![](https://assets.st-note.com/img/1680089077028-tG16n2zXtf.png?width=1200)
・text2video-zeroのデモ
ポーズ条件、エッジ条件、エッジ条件+dreamboothの動画生成に対応
https://huggingface.co/spaces/PAIR/Text2Video-Zero
![](https://assets.st-note.com/img/1680089404723-JdU4gxJ84x.png?width=1200)
・PAniC-3D: アニメキャラクターのポートレート画像からシングルビュー3D再構成
論文: https://arxiv.org/abs/2303.14587
GitHub: https://github.com/ShuhongChen/panic3d-anime-reconstruction…
PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters
— AK 🤗 in SF for the Open-Source AI meetup (@_akhaliq) March 28, 2023
abs: https://t.co/F2USsjqznq
github: https://t.co/HcHf2YkFbx pic.twitter.com/kRwOhKbvoZ
・Anti-DreamBooth: DreamBoothからユーザーを保護
論文: https://arxiv.org/abs/2303.15433
プロジェクト: https://anti-dreambooth.github.io
GitHub: https://github.com/VinAIResearch/Anti-DreamBooth
![](https://assets.st-note.com/img/1680090438166-Xluc1Gn4r2.png?width=1200)
・ChatGPTがテキストアノテーションタスクでクラウドワーカーを凌駕
- タスク 2,382のツイートのサンプルを用いて、関連性、スタンス、トピック、フレーム検出を含むいくつかのアノテーションタスク
- 結果 ChatGPTのゼロショット精度は5タスク中4タスクでクラウドワーカーを上回り、ChatGPTのアノテーション単価は0.003ドル以下で、MTurkの約20倍の安さ
論文: https://arxiv.org/abs/2303.15056
![](https://assets.st-note.com/img/1680090565730-9vml3yTWX3.png?width=1200)
・単眼RGBDビデオシーケンスからの未知のオブジェクトのリアルタイム6-DoF追跡
"near real-time method for 6-DoF tracking of an unknown object from a monocular RGBD video sequence [...] a Neural Object Field that is learned concurrently with a pose graph optimization process in order to robustly accumulate information into a consistent 3D representation" https://t.co/Mn9qSHgslE pic.twitter.com/LBtKJvgxfd
— Fabien Benetou (@utopiah) March 27, 2023
・CelebV-Text
-外観やアクション、感情、光など顔動画に対する詳細な説明付きの大規模な顔動画データセット
-テキスト顔動画生成検証やVisualChatGPTでの生成デモも掲載
-非営利の研究目的でのみ
論文: https://arxiv.org/abs/2303.14717
プロジェクト: https://celebv-text.github.io
CelebV-Text
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 28, 2023
-外観やアクション、感情、光など顔動画に対する詳細な説明付きの大規模な顔動画データセット
-テキスト顔動画生成検証やVisualChatGPTでの生成デモも掲載
-非営利の研究目的でのみ
論文: https://t.co/OSez8cv73h
プロジェクト: https://t.co/UGlg6AWcT3 https://t.co/CbMsUTXidm pic.twitter.com/lWLHuWVfOU
・ChatGPT 人間のフィードバックから強化学習した対話AI
・2022年度AIPシンポジウム成果報告会の特別講演「大規模言語モデルの驚異と脅威」
・RWKVをalpacaとcodealpacaでファインチューニングしたRaven
デモ: https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B…
Raven 7B: https://huggingface.co/BlinkDL/rwkv-4-pile-7b/blob/main/RWKV-4-Pile-7B-Instruct-test4-20230326.pth…
Raven14B: https://huggingface.co/BlinkDL/rwkv-4-pile-14b/blob/main/RWKV-4-Pile-14B-Instruct-test4-20230327-ctx1024.pth…
codealpaca: https://github.com/sahil280114/codealpaca
![](https://assets.st-note.com/img/1680091650433-Mc2x0OBWp1.png)
・90億パラメータの視覚&言語モデル「OpenFlamingo」
90億パラメータの視覚&言語モデル「OpenFlamingo🦩」が発表された(学習と評価のためのフレームワークも)
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) March 28, 2023
Metaが発表した70億パラメータの言語モデル「LLaMA🦙」に基づいて構築。
約1年前にDeepMindが発表した最大800億パラメータのモデル「Flamingo」の複製
目標はGPT-4https://t.co/4V2qdAHTVQ
・ソニーグループからのInstruct 3D-to-3D
テキストの指示に従って、特定の 3D シーンを別のシーンに変換
論文: https://arxiv.org/abs/2303.15780
プロジェクト: https://sony.github.io/Instruct3Dto3D-doc/
ソニーグループからのInstruct 3D-to-3D
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 29, 2023
テキストの指示に従って、特定の 3D シーンを別のシーンに変換
論文: https://t.co/FM72HtfEIk
プロジェクト: https://t.co/zjpcYhwI53 https://t.co/HTb35rGs05 pic.twitter.com/LvBYyNenIb
・Modelscopeのテキスト動画生成で生成された「スパゲッティを食べるウィル・スミス」
"Will Smith eating spaghetti" generated by Modelscope text2video
— Magus Wazir (@MagusWazir) March 28, 2023
credit: u/chaindrop from r/StableDiffusion pic.twitter.com/ER3hZC0lJN
・VIVE3D: 3D 対応 GAN を使用した視点に依存しないビデオ編集
論文: https://arxiv.org/abs/2303.15893
プロジェクト: http://afruehstueck.github.io/vive3D/
![](https://assets.st-note.com/img/1680091916813-EdU1yKoKZ8.png?width=1200)
・オープンソースで最大130億パラメータの言語モデル「Cerebras-GPT」が発表
オープンソースで最大130億パラメータの言語モデル「Cerebras-GPT」が発表された。chinchillaのスケーリング則を参考に挑戦。7つのサイズがある(パラメータ数: 111M、256M、590M、1.3B、2.7B、6.7B、13B)。オープンなデータセットを用いてスケーリング則を導出。非GPUで実行https://t.co/D6h3okiO2i
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) March 28, 2023
・セレブラスシステムズのOSS言語モデル
セレブラスシステムズのOSS言語モデル気になる!
— forasteran (@forasteran) March 29, 2023
Cerebras-GPTモデルが🤗で公開されてる
1.1億から130億パラメータの7種
🤗https://t.co/HMQeQtckSA
非GPUのAI用Andromedaスパコンで学習
→Chincilla論文に従いスケールできる!
Nパラのモデルを20Nトークンで最適LLMを学習https://t.co/yJxZTsdwbJ pic.twitter.com/yPAiDCZidw
・lit-llama: 完全にオープンソース(Apache 2.0) で高性能な llama の実装を発表だそう
llamaのモデルをlit-llamaフォーマットに変換して利用してる
github: https://github.com/Lightning-AI/lit-llama…
discord: @LightningAI
AI should be fully open source and part of the collective knowledge!
— William Falcon ⚡️ (@_willfalcon) March 28, 2023
Excited to announce a fully open-source (Apache 2.0), high-performance implementation of llamahttps://t.co/vtcbmSa4yI
Join our discord (@LightningAI) to build AI https://t.co/rqabvFnNew… pic.twitter.com/DPSglnYRsd
・GPT4All - コード、ストーリー、対話を含むクリーンなデータで学習された7Bモデル(LLaMAに基づく)
80万件のデータサンプル、データキュレーション手順、学習コード、モデルを公開。 また、CPU上で動作する量子化4ビット版モデルもリリース。
https://github.com/nomic-ai/gpt4all
![](https://assets.st-note.com/img/1680092092519-bu7fhBG2LP.png)
・ChatGPT と既存の文法誤り訂正 (GEC) ツールの精度を比較
ChatGPT と既存の文法誤り訂正 (GEC) ツールの精度を比較した話。Grammarly は保守的で校正が不十分気味な一方で、ChatGPT は自信満々に過剰校正する傾向があるとのこと https://t.co/DJPrdU9hX7
— 𝐩𝐞𝐢𝐧𝐚𝐧 (@so1owingpixy) March 29, 2023
・TaskMatrix.AI
基盤モデル(脳のような中央システムとして)と他のAIモデルやAPI(サブタスクソルバーとして)を使用して、デジタルと物理の両方で多様なタスク達成を目指すAIエコシステム Visual ChatGPTはその一例
gIthub: https://github.com/microsoft/visual-chatgpt/tree/main/TaskMatrix.AI…
論文: https://arxiv.org/abs/2303.16434
![](https://assets.st-note.com/img/1680165635433-46FVN7mCUE.png)
![](https://assets.st-note.com/img/1680165638563-4sTsa92r9b.png)
・Vicuna:オープンソースのチャットボットで、GPT-4を90%のChatGPTクオリティ
・高速SDのためのトークンマージ
冗長トークンをマージすることで、画像生成を最大 2 倍高速化し、メモリ消費を最大 5.6 倍削減
github: https://github.com/dbolya/tomesd
論文: https://arxiv.org/abs/2303.17604
![](https://assets.st-note.com/img/1680270196639-xu620LrF06.png?width=1200)
![](https://assets.st-note.com/img/1680270201167-F50aFkjAoF.png?width=1200)
・BloombergGPT: 金融特化の大規模言語モデル
幅広い金融データで学習させた500億パラメータの言語モデル。Bloombergのデータに基づく3630億トークンの最大のドメイン固有データセットを構築。 一般的なベンチマークの性能を維持し、金融タスクにおいて既存を上回る性能を達成
https://arxiv.org/abs/2303.17564
![](https://assets.st-note.com/img/1680270219051-Ut5gheiLnd.png)
・Chatbot UI: ChatGPT UI の MIT ライセンス、コミュニティ主導のクローン
・視覚言語モデルが合成データを用いて名詞に限らずより高度な理解を実現
視覚言語モデルは、名詞以外の視覚言語概念理解、属性/動作/関係/状態などの非物体語の意味理解、文中の単語順序が持つ意味理解、が困難 合成データで欠点克服を検証
論文:https://arxiv.org/abs/2303.17590
pj:https://synthetic-vic.github.io
・DiffCollage:拡散モデルによる大規模コンテンツの並列生成
-無限の画像生成
-学習データよりも長い時間のヒューマンモーション合成
-通常の画像のみで学習させた拡散モデルで360°のパノラマ画像を生成
-多彩な生成・画像変換が可能
pj: https://research.nvidia.com/labs/dir/diffcollage/…
論文: https://arxiv.org/abs/2303.17076
![](https://assets.st-note.com/img/1680270291950-kchSIzkjGe.png)
![](https://assets.st-note.com/img/1680270301607-D8AbF0xK0P.png)
・HuggingGPT
-ChatGPTなどを活用し、機械学習コミュニティ(HuggingFaceなど)内の様々なAIモデルを連携しAIタスクを解決するシステムを提案
-ユーザリクエストに対しタスク計画
-HuggingFaceの機能説明に従って適切なAIモデルを選択
-各サブタスクを実行し結果をまとめる
https://arxiv.org/abs/2303.17580
![](https://assets.st-note.com/img/1680270325743-qGoNvxX4ru.png?width=1200)
・AvatarCraft: パラメータ化された形状とポーズ制御を使用してテキストをアバターに変換
論文: https://arxiv.org/abs/2303.17606
プロジェク: https://avatar-craft.github.io
AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
— AK 🤗 in SF for the Open-Source AI meetup (@_akhaliq) March 31, 2023
abs: https://t.co/DCzUEhuNlL
project page: https://t.co/zrLLseChXk pic.twitter.com/8KwJRXmtY2
・PAIR-Diffusion:構造と外観のペア拡散モデルによるオブジェクトレベルの画像編集
構造を編集することができるが、個々の要素のスタイルは変更しないため、オブジェクトの特性を保持しながら編集ができる 論文: https://arxiv.org/abs/2303.17546
![](https://assets.st-note.com/img/1680270386909-7171o4IWNM.png?width=1200)
・chatGPT-NeoX 20B モデルの新しいバージョンをリリース
デモ: https://huggingface.co/spaces/togethercomputer/OpenChatKit…
モデル: https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B
![](https://assets.st-note.com/img/1680270697932-uAcJGE33v6.png?width=1200)