見出し画像

【3/11-3/17】生成AIツール/研究-Weeklyまとめ

今週のAIに関するツールや研究情報をまとめた記事です。

ツール

・国勢調査データベースに対しQ&Aできるサイト
信頼性が高いDBに対してインデックス貼ってチャット対応できるようにするのは一通り出てきそう WikipediaQ&Aとか
https://censusgpt.com


・Trellis: AI先生
コードや数式をわかりやすく説明したり、複雑な文章を簡単化したり、異なる言語に翻訳したり、フレーズから図やビジュアルを生成してくれるとのこと standford, Nvidia, OpenAI, Meta出身(?)の人が開発
https://readtrellis.com


・Visual ChatGPTを試す。
langchainのToolたくさんで、Colabで動かなそうなので減らして実行。https://github.com/microsoft/visual-chatgpt


・Perplexity の iPhone アプリのwaiting listが解放されてた http://perplexity.ai/iphone


・NotionやMiroに続いてGrammarlyも 生成AI機能「GrammarlyGO」の早期アクセス申請を公開
-数単語のプロンプトから数秒でドラフト生成
-トーン、明瞭さ、長さをカスタマイズ -ブレインストーミング
-メール生成 -好みのスタイルコントロール など
https://grammarly.com/grammarlygo?utm_source=linkedin_org&utm_medium=social&utm_campaign=grammarlygo-launch


・「Snack」は自分の分身のAIアバターが自分の代わりに他ユーザーのアバターとデートしてくれて「この人なら」と思った相手をユーザーに教えてくれる。


・世界初のAI生成ニュースチャンネルhttp://NewsGPT.aiが開始
世界中の関連するニュースソースをリアルタイムでスキャンすることができ、正確で、最新で、偏りのないニュース記事やレポートを作成 世界中の読者に偏りのない事実に基づくニュースを提供することを目指す


・AI 動画 gif


・Minecraft × ChatGPTでの生成


@Polycam3Dすごい
スマホで家スキャンして正確な 3D モデルを作成したり(添付)、クッパとか人とか色んな物体の3Dモデルを綺麗に作成できてる(スレッド)
https://apps.apple.com/us/app/polycam-lidar-3d-scanner/id1532482376?ppid=25067a5e-0244-4f85-92a4-344 


・Uizardがまた来た(近日)
Uizard Autodesigner:UI のアイデアを入力することで編集可能なデザインを生成 対応したいデバイス、生成したいデザイン詳細、スタイルやキーワードを入力することで生成できる。
waiting list: https://uizard.io/autodesigner/


・B2Bセールスアシスタント: Jason AI
ChatGPTを搭載し、営業メール作成、マルチチャネルのシーケンス作成、見込み客のメールへの回答生成、ミーティングの予約など
https://jasonai.tech 


・Collato:ツール横断のナレッジQAサービス
Confluence、Jira、Figma、Google Drive など、色んなツールに分散された情報に対して、AIを駆使したセマンティック検索により、埋もれている情報を見つけ出したり、質問に回答してくれたりするとのこと
https://collato.com


・Chatfuel
ChatGPTをベースにした、ビジネスについて顧客に説明したり、営業したり、売上を増やしたり、サポートを自動化したりできるチャットボットを数分で作成できる
https://ai.chatfuel.com


・親会社がMicrosoftのLinkedInが、プロフィール文や職務記述書生成ツールを発表
プロフール文:ユーザープロフィールをスキャンしてスキルや経験を調べ、他の欄に追加する文章や要約候補を生成
職務記述書:雇用主が役職や会社名など職務に関する情報を与えると生成
https://theverge.com/2023/3/15/23640947/linkedin-ai-profile-job-description-tools 


・AssemblyAIがConformer-1という最新の音声認識モデルを発表
650,000 時間の音声データでトレーニングされ、人間に近いレベルのパフォーマンスを実現し、他の ASR モデルよりもノイズの多いデータのエラーを最大 43% 削減 新しいモデルは、API を通じて既に利用可能


・Shopifyによる、ChatGPT を利用したショッピングアシスタントShopをウェブに導入
以下からすぐお試し可能 http://Shop.ai


・目に見える変更なく、AIに学習されることを防ぐGlaze が公開
画像使われたくないアーティストは必見かも ただ、Glaze対策したAIが出てくるとも言い切れない
https://glaze.cs.uchicago.edu


・テキストからワールドを生成してる(未公開)
自分の好きな世界を喋るだけで作り上げることができる世界線
ウォレットのアドレスをリプで返したらwaiting list登録されるってことかな?


・AIチャットがレコメンドの窓口になる事例
先日の、まずは個々人のAIアバター同士で対話して、よければマッチするマッチングアプリのような


・FlutterFlow AI Gen:アプリ開発アシスタント
テキストからFlutterFlowとシームレスに統合された美しいデザインとコードを生成可能
3月末公開予定(waitlist: https://flutterflow.io/ai-gen) 


研究

・分析された44個の臨床・生物医学言語モデルについて
トレーニングデータセット、コードとモデルの重さ、性能測定に使用したタスクなど
https://huggingface.co/spaces/katielink/biomedical-language-models


・ディープフェイクの質が高い。
ハリー・ポッターの動く校長絵画作れるな。 少し前のSamsungLabsによるMegaPortraitsというアバター生成論文 動かしたい画像と動かすイメージを伝える動画があればディープフェイク完成
github:(まだ)
サイト: https://samsunglabs.github.io/MegaPortraits/


・ChatGPT のオープンソース代替:EleutherAI
-GPT-NeoX-20B をチャット用に調整、4,300 万を超える命令チューニング
-コード、モデル、学習データを Apache-2.0 ライセンスで
-カスタマイズ可能
-APIやその他ソースから応答を補強可能
ブログ: https://together.xyz/blog/openchatkit…
デモ: https://huggingface.co/spaces/togethercomputer/OpenChatKit


・ChatGPT APIとゲームAIを連携してチャットでプレイングを教える


・オープンソースのChatGPT代替モデルGPT-NeoXT-Chat-Base-20Bがhuggingfaceに
demo: https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming…
モデル: https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B


・LLaMA 7B モデルを 4GB RAM の ラズパイで動かしてる方が
約 10 秒/トークン


・ユーザーにとって魅力的なチャットボットを目指し強化学習したチャットボット
-平均会話時間、返信率、ユーザー評価、ユーザー維持率を評価
- GPT-J 6B モデルのユーザー維持率が 30% 以上向上
- モデルとコードのオープンソース化 これは各所で導入されそうだなー
モデル: https://huggingface.co/ChaiML
論文: https://arxiv.org/abs/2303.06135


・MVImgNet:多視点画像データ
-238クラス -22万の動画から650万フレーム
-マスク、カメラパラメータ、点群などのアノテーション
MVPNet: 点群データ
-150カテゴリ
-87,200サンプル
-各点群にクラスラベル付与
論文: https://arxiv.org/abs/2303.06042
project: https://gaplab.cuhk.edu.cn/projects/MVImgNet/…


・StyleGANEX
色んな解像度で柔軟性高く各タスクが実行できる
論文: https://arxiv.org/abs/2303.06146
プロジェクト: https://mmlab-ntu.com/project/styleganex/…
github: https://github.com/williamyang1991/StyleGANEX…


・基盤モデル×ロボティクス資料
東大松尾豊研の深層強化学習 スプリングセミナー2023の「基盤モデルとロボティクス」の講義資料を改変した資料とのこと。
https://speakerdeck.com/mertcooking/foundation-model-and-robotics-ji-pan-moderutoroboteikusu…


・LLaMA が Pixel 6 で動作


・LINEさんが、高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開!
-高性能・高速・軽量
-Hugging Faceのtransformersから利用可能
-商用利用可能なApache License 2.0
huggingface: https://huggingface.co/line-corporation/line-distilbert-base-japanese…
github: https://github.com/line/LINE-DistilBERT-Japanese…
記事: https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model


・拡散モデルから概念を消し去る
>以前の方法とは異なり、私たちのアプローチは、推論時に出力を変更するのではなく、拡散モデルから概念を永久に削除できるため、ユーザーがモデルの重みにアクセスできたとしても、回避することはできません。
proj: https://erasing.baulab.info
abs: https://arxiv.org/abs/2303.07345


・限られたGPUメモリで大規模な言語モデルを実行するための高スループット生成エンジンFlexGenの論文
abs: https://arxiv.org/abs/2303.06865
GitHub: https://github.com/FMInference/FlexGen


・スタンフォード大が70億パラメータの言語モデル「アルパカ」を発表。デモ+学習レシピ+データ公開。モデルは公開予定
https://crfm.stanford.edu/2023/03/13/alpaca.html…


・MIM: 新しい事前学習パラダイム
MIM(2.7B)は、CodeGen 16B, Incoder 6.7B, PaLM 540B, LLaMA 65B, FIM 2.7B をコード生成タスクで凌駕
http://arxiv.org/abs/2303.07295


・東京大学の研究室でChatGPTに関する知見を共有するために使用した資料を公開
-ChatGPTの使い方
-ChatGPTの関連技術
-コア技術の強化学習,InstructGPT
など


・MetaによるToMe(Token Merging)
追加学習なしで既存の Vision Transformer モデルにおいて、精度維持したまま推論速度を2倍に 特に大きなモデルや大きな入力に対して有効
GitHub: https://github.com/facebookresearch/ToMe…
論文: https://arxiv.org/abs/2210.09461


・中国語特化でChatGPT同様にRLHFなどで強化されたモデル


・会話や歩行分析で認知症発見


・npakaさんによるAlpacaまとめ


・MeshDiffusion: メッシュのグラフ構造を利用した3Dメッシュ生成
テキストでテクスチャも生成してる。

論文: https://arxiv.org/abs/2303.08133
projectページ: https://meshdiffusion.github.io
github: https://github.com/lzzcd001/MeshDiffusion/


・Edit-A-Video: オブジェクト認識の一貫性を備えたビデオ編集
学習済みテキスト画像生成モデルと単一のテキストビデオペアのみで一貫性があるビデオ編集を実現
論文: https://arxiv.org/abs/2303.07945
プロジェクト: https://edit-a-video.github.io


・画像拡散モデルに3次元的な整合性を持たせてのテキスト3D生成
by 韓国の大学とNaver AI lab
論文: https://arxiv.org/abs/2303.07937
プロジェクト: https://ku-cvlab.github.io/3DFuse/


・ChatCaptioner:ChatGPTが問い、BLIP-2が答える。より豊かな視覚的説明のための自動質問法
ChatGPTがBLIP-2に有益な質問をし続け、最後にその会話を最終キャプションとして要約することで、BLIP-2の画像キャプションをより豊かに
論文: https://arxiv.org/abs/2303.06594
GitHub: https://github.com/Vision-CAIR/ChatCaptioner


・Re-ReND
スマホやARVRデバイスなど、リソースに制約のあるデバイスにおいて、学習済みNeRFをリアルタイムでレンダリングするための新しいアプローチの提案 スマホでその場でレンダリング
https://arxiv.org/abs/2303.08717


・最近話題になった大規模言語モデルまとめ|npaka


・動画に対してゼロショット・テキストベース編集ができるFateZero
プロジェクト: https://fate-zero-edit.github.io
github: https://github.com/ChenyangQiQi/FateZero…
論文: https://arxiv.org/abs/2303.09535


・alpaca-lora
Stanford Alpaca InstructLLaMAの結果を個々人で再現するためのコード 単一の RTX 4090 5 時間で学習できるそう (商用可能なモデルバージョンの欲しい)
github: https://github.com/tloen/alpaca-lora


・LLaMaがトランスフォーマーのメインブランチに導入
スタンフォードの Alpaca データセットで微調整して、GPT-3.5 と同様の品質のモデルを作成可能
データセット: https://huggingface.co/datasets/tatsu-lab/alpaca…
トレーニング コード: https://github.com/tatsu-lab/stanford_alpaca#fine-tuning…


・ART
arxiv.org/abs/2303.09014
https://github.com/bhargaviparanjape/language-programmes/ 


いいなと思ったら応援しよう!