![見出し画像](https://assets.st-note.com/production/uploads/images/100407473/rectangle_large_type_2_2ba90af95677399ebed32c1eeef093c6.jpeg?width=1200)
【3/11-3/17】生成AIツール/研究-Weeklyまとめ
今週のAIに関するツールや研究情報をまとめた記事です。
ツール
・国勢調査データベースに対しQ&Aできるサイト
信頼性が高いDBに対してインデックス貼ってチャット対応できるようにするのは一通り出てきそう WikipediaQ&Aとか
https://censusgpt.com
![](https://assets.st-note.com/img/1678952209593-iUCQSgfJ2t.png?width=1200)
・Trellis: AI先生
コードや数式をわかりやすく説明したり、複雑な文章を簡単化したり、異なる言語に翻訳したり、フレーズから図やビジュアルを生成してくれるとのこと standford, Nvidia, OpenAI, Meta出身(?)の人が開発
https://readtrellis.com
非常に良さそうな匂いがする(waiting list)
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 11, 2023
Trellis: AI先生
コードや数式をわかりやすく説明したり、複雑な文章を簡単化したり、異なる言語に翻訳したり、フレーズから図やビジュアルを生成してくれるとのこと
standford, Nvidia, OpenAI, Meta出身(?)の人が開発https://t.co/PZrrQSV0QB pic.twitter.com/2kfFCNTiys
・Visual ChatGPTを試す。
langchainのToolたくさんで、Colabで動かなそうなので減らして実行。https://github.com/microsoft/visual-chatgpt
![](https://assets.st-note.com/img/1678952423571-VnjBL5absI.png?width=1200)
・Perplexity の iPhone アプリのwaiting listが解放されてた http://perplexity.ai/iphone
Get instant answers to any question with Perplexity's iPhone app! Don't miss out – join our waitlist now and be the first to try it out. https://t.co/hUz0Sz3Ksv pic.twitter.com/CfnLwSIAAI
— Perplexity AI (@perplexity_ai) February 23, 2023
・NotionやMiroに続いてGrammarlyも 生成AI機能「GrammarlyGO」の早期アクセス申請を公開
-数単語のプロンプトから数秒でドラフト生成
-トーン、明瞭さ、長さをカスタマイズ -ブレインストーミング
-メール生成 -好みのスタイルコントロール など
https://grammarly.com/grammarlygo?utm_source=linkedin_org&utm_medium=social&utm_campaign=grammarlygo-launch
![](https://assets.st-note.com/img/1678952475858-eFSmbcLCiP.png)
・「Snack」は自分の分身のAIアバターが自分の代わりに他ユーザーのアバターとデートしてくれて「この人なら」と思った相手をユーザーに教えてくれる。
Z世代向けのマッチングアプリ「Snack」は自分の分身のAIアバターが自分の代わりに他ユーザーのアバターとデートしてくれて「この人なら」と思った相手をユーザーに教えてくれる。
— KAJI | 梶谷健人 (@kajikent) March 11, 2023
実は自分も全く同じアイデアを過去に考えたことがあって、これがどうなるか凄く興味ある笑https://t.co/TpGX3Ov8Dj
・世界初のAI生成ニュースチャンネルhttp://NewsGPT.aiが開始
世界中の関連するニュースソースをリアルタイムでスキャンすることができ、正確で、最新で、偏りのないニュース記事やレポートを作成 世界中の読者に偏りのない事実に基づくニュースを提供することを目指す
・AI 動画 gif
AI 動画 gif
— 852話 (@8co28) March 13, 2023
マリ箱のモーションを白ハゲモデルに踊らせてマリン船長へ変換。変換するにあたって公式のMMDモデルは未使用。
モーション @ not_be_shirohttps://t.co/dQj1NQTb48 pic.twitter.com/jFzWVjNIp3
・Minecraft × ChatGPTでの生成
Minecraft × ChatGPT 、promptを工夫したら少しまともなものを作れるようになってきた。
— Kawamata Ryo (@KawamataRyo) March 13, 2023
ほぼ同じ言葉でも毎回ぜんぜん違う建物ができて面白いw#chatgpt #マイクラ pic.twitter.com/vlGZvZC9ph
・@Polycam3Dすごい
スマホで家スキャンして正確な 3D モデルを作成したり(添付)、クッパとか人とか色んな物体の3Dモデルを綺麗に作成できてる(スレッド)
https://apps.apple.com/us/app/polycam-lidar-3d-scanner/id1532482376?ppid=25067a5e-0244-4f85-92a4-344
@Polycam3D すごい
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 13, 2023
スマホで家スキャンして正確な 3D モデルを作成したり(添付)、クッパとか人とか色んな物体の3Dモデルを綺麗に作成できてる(スレッド)https://t.co/vskXOH6XPg pic.twitter.com/g4xPQQ0AFo
・Uizardがまた来た(近日)
Uizard Autodesigner:UI のアイデアを入力することで編集可能なデザインを生成 対応したいデバイス、生成したいデザイン詳細、スタイルやキーワードを入力することで生成できる。
waiting list: https://uizard.io/autodesigner/
Uizard Autodesigner is coming soon 💫
— uizard ✨ (@uizard) March 13, 2023
By describing your UI idea, you can generate editable designs. You bring the ideas. AI does the rest.
Sign up to our exclusive waiting list here: https://t.co/jXd4S1kP3O#uizard #ai #generativeai #aidesign #aitools pic.twitter.com/IX0QaLnii7
・B2Bセールスアシスタント: Jason AI
ChatGPTを搭載し、営業メール作成、マルチチャネルのシーケンス作成、見込み客のメールへの回答生成、ミーティングの予約など
https://jasonai.tech
B2Bセールスアシスタント: Jason AI
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 14, 2023
ChatGPTを搭載し、営業メール作成、マルチチャネルのシーケンス作成、見込み客のメールへの回答生成、ミーティングの予約などhttps://t.co/V6i3o6tctB pic.twitter.com/grh0LgGT8Y
・Collato:ツール横断のナレッジQAサービス
Confluence、Jira、Figma、Google Drive など、色んなツールに分散された情報に対して、AIを駆使したセマンティック検索により、埋もれている情報を見つけ出したり、質問に回答してくれたりするとのこと
https://collato.com
Collato:ツール横断のナレッジQAサービス
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 15, 2023
Confluence、Jira、Figma、Google Drive など、色んなツールに分散された情報に対して、AIを駆使したセマンティック検索により、埋もれている情報を見つけ出したり、質問に回答してくれたりするとのことhttps://t.co/tZAkdlIRA7 pic.twitter.com/DYTvGOVTv4
・Chatfuel
ChatGPTをベースにした、ビジネスについて顧客に説明したり、営業したり、売上を増やしたり、サポートを自動化したりできるチャットボットを数分で作成できる
https://ai.chatfuel.com
![](https://assets.st-note.com/img/1678958111102-69IxNSLhVX.png?width=1200)
・親会社がMicrosoftのLinkedInが、プロフィール文や職務記述書生成ツールを発表
プロフール文:ユーザープロフィールをスキャンしてスキルや経験を調べ、他の欄に追加する文章や要約候補を生成
職務記述書:雇用主が役職や会社名など職務に関する情報を与えると生成
https://theverge.com/2023/3/15/23640947/linkedin-ai-profile-job-description-tools
親会社がMicrosoftのLinkedInが、プロフィール文や職務記述書生成ツールを発表
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 16, 2023
プロフール文:ユーザープロフィールをスキャンしてスキルや経験を調べ、他の欄に追加する文章や要約候補を生成
職務記述書:雇用主が役職や会社名など職務に関する情報を与えると生成https://t.co/X2UjW7qGZT pic.twitter.com/RkUsfvWoQx
・AssemblyAIがConformer-1という最新の音声認識モデルを発表
650,000 時間の音声データでトレーニングされ、人間に近いレベルのパフォーマンスを実現し、他の ASR モデルよりもノイズの多いデータのエラーを最大 43% 削減 新しいモデルは、API を通じて既に利用可能
・Shopifyによる、ChatGPT を利用したショッピングアシスタントShopをウェブに導入
以下からすぐお試し可能 http://Shop.ai
Shopifyによる、ChatGPT を利用したショッピングアシスタントShopをウェブに導入
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) March 16, 2023
以下からすぐお試し可能https://t.co/R6YIk1TeiT pic.twitter.com/Cr7vLRoIbC
・目に見える変更なく、AIに学習されることを防ぐGlaze が公開
画像使われたくないアーティストは必見かも ただ、Glaze対策したAIが出てくるとも言い切れない
https://glaze.cs.uchicago.edu
![](https://assets.st-note.com/img/1678958651537-BdJTnkiUNO.png?width=1200)
・テキストからワールドを生成してる(未公開)
自分の好きな世界を喋るだけで作り上げることができる世界線
ウォレットのアドレスをリプで返したらwaiting list登録されるってことかな?
Introducing a GPT-powered AI tool for text to world building ✨
— ᴏɴᴄʏʙᴇʀ (@oncyber) March 15, 2023
here’s a sneak peek, where your creativity can flow from your brain to web3D.
stay tuned for public access — notifs on 🫡,
🔽 for early access pic.twitter.com/0GzkpYoMBC
・AIチャットがレコメンドの窓口になる事例
先日の、まずは個々人のAIアバター同士で対話して、よければマッチするマッチングアプリのような
【こぼれ話】AIを活用した新しいSNS「半区」がベータテストとなっています。半区は現在は大学生を対象に、最初にAIと会話し、AIが最適な話題の討論グループに誘導し、交流するSNSです。大学生の内向性や発達の単純化をトークの経験により解決するツールを目指すそうhttps://t.co/6z7QYTW9bY pic.twitter.com/wM1sMwRrlg
— 36Kr Japan@中国NO.1テック・スタートアップ専門メディア (@36krJ) March 16, 2023
・FlutterFlow AI Gen:アプリ開発アシスタント
テキストからFlutterFlowとシームレスに統合された美しいデザインとコードを生成可能
3月末公開予定(waitlist: https://flutterflow.io/ai-gen)
Introducing FlutterFlow AI Gen ✨, your intelligent assistant for app creation in @FlutterFlow
— FlutterFlow (@flutterflow) March 16, 2023
Provide a prompt and watch it craft beautiful designs and code that integrate seamlessly with FlutterFlow.
Launching end of March! Join the waitlist → https://t.co/9zb05Ebv8f pic.twitter.com/IUi4ZXCqui
研究
・分析された44個の臨床・生物医学言語モデルについて
トレーニングデータセット、コードとモデルの重さ、性能測定に使用したタスクなど
https://huggingface.co/spaces/katielink/biomedical-language-models
![](https://assets.st-note.com/img/1678952316389-TKVQuJlaFW.png?width=1200)
・ディープフェイクの質が高い。
ハリー・ポッターの動く校長絵画作れるな。 少し前のSamsungLabsによるMegaPortraitsというアバター生成論文 動かしたい画像と動かすイメージを伝える動画があればディープフェイク完成
github:(まだ)
サイト: https://samsunglabs.github.io/MegaPortraits/
Deepfakes are getting scary good.
— Rowan Cheung (@rowancheung) March 11, 2023
MegaPortraits by SamsungLabs uses new neural architectures that produce high-quality avatars from medium-resolution videos and high-resolution images.
Everyone will be able to be anyone soon. pic.twitter.com/eug4VPZfgN
・ChatGPT のオープンソース代替:EleutherAI
-GPT-NeoX-20B をチャット用に調整、4,300 万を超える命令チューニング
-コード、モデル、学習データを Apache-2.0 ライセンスで
-カスタマイズ可能
-APIやその他ソースから応答を補強可能
ブログ: https://together.xyz/blog/openchatkit…
デモ: https://huggingface.co/spaces/togethercomputer/OpenChatKit
![](https://assets.st-note.com/img/1678952848629-fz9gwpAkJB.png?width=1200)
・ChatGPT APIとゲームAIを連携してチャットでプレイングを教える
・オープンソースのChatGPT代替モデルGPT-NeoXT-Chat-Base-20Bがhuggingfaceに
demo: https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming…
モデル: https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B
![](https://assets.st-note.com/img/1678953375355-s1tegbE1tE.png?width=1200)
・LLaMA 7B モデルを 4GB RAM の ラズパイで動かしてる方が
約 10 秒/トークン
I've sucefully runned LLaMA 7B model on my 4GB RAM Raspberry Pi 4. It's super slow about 10sec/token. But it looks we can run powerful cognitive pipelines on a cheap hardware. pic.twitter.com/XDbvM2U5GY
— Artem Andreenko 🇺🇦 (@miolini) March 12, 2023
・ユーザーにとって魅力的なチャットボットを目指し強化学習したチャットボット
-平均会話時間、返信率、ユーザー評価、ユーザー維持率を評価
- GPT-J 6B モデルのユーザー維持率が 30% 以上向上
- モデルとコードのオープンソース化 これは各所で導入されそうだなー
モデル: https://huggingface.co/ChaiML
論文: https://arxiv.org/abs/2303.06135
![](https://assets.st-note.com/img/1678954445971-jsECSHoYCY.png?width=1200)
・MVImgNet:多視点画像データ
-238クラス -22万の動画から650万フレーム
-マスク、カメラパラメータ、点群などのアノテーション
MVPNet: 点群データ
-150カテゴリ
-87,200サンプル
-各点群にクラスラベル付与
論文: https://arxiv.org/abs/2303.06042
project: https://gaplab.cuhk.edu.cn/projects/MVImgNet/…
![](https://assets.st-note.com/img/1678954561045-xA45NGIZfr.png)
・StyleGANEX
色んな解像度で柔軟性高く各タスクが実行できる
論文: https://arxiv.org/abs/2303.06146
プロジェクト: https://mmlab-ntu.com/project/styleganex/…
github: https://github.com/williamyang1991/StyleGANEX…
StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces
— AK (@_akhaliq) March 13, 2023
abs: https://t.co/Nu2pOK2FyR
project page: https://t.co/1XzxnWMHzF
github: https://t.co/rRfV5VSxXX pic.twitter.com/S7XBC1kvQ5
・基盤モデル×ロボティクス資料
東大松尾豊研の深層強化学習 スプリングセミナー2023の「基盤モデルとロボティクス」の講義資料を改変した資料とのこと。
https://speakerdeck.com/mertcooking/foundation-model-and-robotics-ji-pan-moderutoroboteikusu…
・LLaMA が Pixel 6 で動作
@ggerganov's LLaMA works on a Pixel 6!
— anishmaxxing (@thiteanish) March 13, 2023
LLaMAs been waiting for this, and so have I pic.twitter.com/JjEhdzJ2B9
・LINEさんが、高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開!
-高性能・高速・軽量
-Hugging Faceのtransformersから利用可能
-商用利用可能なApache License 2.0
huggingface: https://huggingface.co/line-corporation/line-distilbert-base-japanese…
github: https://github.com/line/LINE-DistilBERT-Japanese…
記事: https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model
![](https://assets.st-note.com/img/1678954913340-G0VTYsyP5g.png?width=1200)
・拡散モデルから概念を消し去る
>以前の方法とは異なり、私たちのアプローチは、推論時に出力を変更するのではなく、拡散モデルから概念を永久に削除できるため、ユーザーがモデルの重みにアクセスできたとしても、回避することはできません。
proj: https://erasing.baulab.info
abs: https://arxiv.org/abs/2303.07345
![](https://assets.st-note.com/img/1678955085325-6dcbxeOW25.png?width=1200)
・限られたGPUメモリで大規模な言語モデルを実行するための高スループット生成エンジンFlexGenの論文
abs: https://arxiv.org/abs/2303.06865
GitHub: https://github.com/FMInference/FlexGen
・スタンフォード大が70億パラメータの言語モデル「アルパカ」を発表。デモ+学習レシピ+データ公開。モデルは公開予定
https://crfm.stanford.edu/2023/03/13/alpaca.html…
スタンフォード大が70億パラメータの言語モデル「アルパカ🦙」を発表。デモ+学習レシピ+データ公開。モデルは公開予定
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) March 13, 2023
OpenAIの「text-davinci-003(ChatGPT開発に用いたGPT-3.5群の一つ)」に匹敵。自動生成した指示文で「LLaMA」を微調整(クラウドでは100ドル(約1.3万円)以下https://t.co/TzYvsX9WAU
・MIM: 新しい事前学習パラダイム
MIM(2.7B)は、CodeGen 16B, Incoder 6.7B, PaLM 540B, LLaMA 65B, FIM 2.7B をコード生成タスクで凌駕
http://arxiv.org/abs/2303.07295
![](https://assets.st-note.com/img/1678955424326-niRCCbsbMS.png?width=1200)
・東京大学の研究室でChatGPTに関する知見を共有するために使用した資料を公開
-ChatGPTの使い方
-ChatGPTの関連技術
-コア技術の強化学習,InstructGPT
など
・MetaによるToMe(Token Merging)
追加学習なしで既存の Vision Transformer モデルにおいて、精度維持したまま推論速度を2倍に 特に大きなモデルや大きな入力に対して有効
GitHub: https://github.com/facebookresearch/ToMe…
論文: https://arxiv.org/abs/2210.09461
![](https://assets.st-note.com/img/1678955842003-56Xcpn3WBt.png?width=1200)
・中国語特化でChatGPT同様にRLHFなどで強化されたモデル
・会話や歩行分析で認知症発見
マルチモーダルのAIは増えていきますね
— 河野 健一 世界初の脳手術支援AI開発 CEO 脳外科医 (@CeoImed) March 14, 2023
「認知症発見のAI開発へ、会話や歩行を分析」
・ コニカミノルタは、認知症早期発見につながるソリューション開発に向けてエモテック・ラボと提携
・ 画像認識と音声解析を合わせて総合的に解析https://t.co/BPAOKSSOuN pic.twitter.com/iEaBZzOPZ2
・npakaさんによるAlpacaまとめ
・MeshDiffusion: メッシュのグラフ構造を利用した3Dメッシュ生成
テキストでテクスチャも生成してる。
論文: https://arxiv.org/abs/2303.08133
projectページ: https://meshdiffusion.github.io
github: https://github.com/lzzcd001/MeshDiffusion/
![](https://assets.st-note.com/img/1678957307097-phgXT0D1u7.png?width=1200)
・Edit-A-Video: オブジェクト認識の一貫性を備えたビデオ編集
学習済みテキスト画像生成モデルと単一のテキストビデオペアのみで一貫性があるビデオ編集を実現
論文: https://arxiv.org/abs/2303.07945
プロジェクト: https://edit-a-video.github.io
Edit-A-Video: Single Video Editing with Object-Aware Consistency
— AK (@_akhaliq) March 15, 2023
abs: https://t.co/xUQaSgVyPQ
project page: https://t.co/JiKY6R4pD9 pic.twitter.com/oi9A8q55la
・画像拡散モデルに3次元的な整合性を持たせてのテキスト3D生成
by 韓国の大学とNaver AI lab
論文: https://arxiv.org/abs/2303.07937
プロジェクト: https://ku-cvlab.github.io/3DFuse/
Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation
— AK (@_akhaliq) March 15, 2023
abs: https://t.co/cb6zgKEgUH
project page: https://t.co/R7G8ykfLv1 pic.twitter.com/VHXkOTVrI0
・ChatCaptioner:ChatGPTが問い、BLIP-2が答える。より豊かな視覚的説明のための自動質問法
ChatGPTがBLIP-2に有益な質問をし続け、最後にその会話を最終キャプションとして要約することで、BLIP-2の画像キャプションをより豊かに
論文: https://arxiv.org/abs/2303.06594
GitHub: https://github.com/Vision-CAIR/ChatCaptioner
ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions
— AK (@_akhaliq) March 15, 2023
abs: https://t.co/yZldjLrRfp
github: https://t.co/gqyQvQaqvc pic.twitter.com/xMR3bbkCrK
・Re-ReND
スマホやARVRデバイスなど、リソースに制約のあるデバイスにおいて、学習済みNeRFをリアルタイムでレンダリングするための新しいアプローチの提案 スマホでその場でレンダリング
https://arxiv.org/abs/2303.08717
![](https://assets.st-note.com/img/1678958579369-OHAq06XWvG.png?width=1200)
・最近話題になった大規模言語モデルまとめ|npaka
・動画に対してゼロショット・テキストベース編集ができるFateZero
プロジェクト: https://fate-zero-edit.github.io
github: https://github.com/ChenyangQiQi/FateZero…
論文: https://arxiv.org/abs/2303.09535
Fate/Zero: Fusing Attentions for Zero-shot Text-based Video Editing
— Aran Komatsuzaki (@arankomatsuzaki) March 17, 2023
proj: https://t.co/XLzlNvs1oJ
repo: https://t.co/ejCb3AAX8O
abs: https://t.co/t86paT47mb pic.twitter.com/eEkuZloyty
・alpaca-lora
Stanford Alpaca InstructLLaMAの結果を個々人で再現するためのコード 単一の RTX 4090 5 時間で学習できるそう (商用可能なモデルバージョンの欲しい)
github: https://github.com/tloen/alpaca-lora
![](https://assets.st-note.com/img/1679052271255-hDHMv2XD3z.png?width=1200)
・LLaMaがトランスフォーマーのメインブランチに導入
スタンフォードの Alpaca データセットで微調整して、GPT-3.5 と同様の品質のモデルを作成可能
データセット: https://huggingface.co/datasets/tatsu-lab/alpaca…
トレーニング コード: https://github.com/tatsu-lab/stanford_alpaca#fine-tuning…
![](https://assets.st-note.com/img/1679052317427-vLvLJmqRSj.png?width=1200)
・ART
arxiv.org/abs/2303.09014
https://github.com/bhargaviparanjape/language-programmes/
自動的な多段階推論とツール利用を組み合わせることで、few-shot promptingとautomatic CoTを大幅に超える改善ができたとする論文。GitHubもあるので試せそう。https://t.co/WyppedF1zohttps://t.co/2N84K7kQRZ https://t.co/mmmZIyx8KX pic.twitter.com/jB9bYguIly
— Shinji Yamada (@santa128bit) March 17, 2023