![見出し画像](https://assets.st-note.com/production/uploads/images/105732803/rectangle_large_type_2_2efad5c55474f7d03be81e88ccb78b2a.jpeg?width=1200)
【4/22-4/28】生成AI活用事例/研究開発-Weeklyまとめ
今週のAIに関する活用事例や研究開発情報をまとめた記事です。
活用事例
・Midjourneyでキャラ作り
*How to make consistent characters for an A.I.-assisted comic book in Midjourney*
— Kris Kashtanova (@icreatelife) April 22, 2023
I want to show you another method of non-human consistent characters for comic books. For human characters, you can find a lot of tutorials on my page: https://t.co/oRdUkitlcC
1/5 pic.twitter.com/Ywu3b9Fb2I
・いつもお世話になってるPDFChatのHumataが一度に複数のドキュメントを調査できるように
Humata is now ChatGPT for all your files
— Angry Tom (@AngryTomtweets) April 22, 2023
Now you can research multiple documents all at once!
This is a game-changer...pic.twitter.com/yeUDcdJ01B
・生成AIを使ったノーコード・モバイルアプリテストソリューション「SofySense」がローンチ AI チャットボット「Sofybot」が、特定のテストクエリに対して迅速かつ正確な応答を提供。 製品のリリース時間を95%短縮するとのこと。
生成AIを使ったノーコード・モバイルアプリテストソリューション「SofySense」がローンチ
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) April 23, 2023
AI チャットボット「Sofybot」が、特定のテストクエリに対して迅速かつ正確な応答を提供。
製品のリリース時間を95%短縮するとのこと。
https://t.co/FzB72R9JDi pic.twitter.com/BqnxMOhwqa
・ChatGPTを活用した自治体IT調達仕様書の自動作成サービスを開始|川口弘行合同会社のプレスリリース
あー、これから実証しようとしてたのが既に商用サービスに?早い→ChatGPTを活用した自治体IT調達仕様書の自動作成サービスを開始|川口弘行合同会社のプレスリリース https://t.co/sbzNRR55C0
— Masanori Kusunoki / 楠 正憲 (@masanork) April 22, 2023
・@AI_DevAO さんによる、ChatGPT上で遊べる戦国シミュレーションゲーム
ChatGPT上で遊べる戦国シミュレーションゲームができました!
— Developer AO (@AI_DevAO) April 22, 2023
プロンプトをNoteで公開しました。https://t.co/0S7uOmk2PL
・ Gen2で生成された動画
Pushed #gen2 to its limits the first day & made a short.
— ChristianF (@ChristianF369) April 21, 2023
AI animation will never be the same! I am deeply impressed as a filmmaker for what is possible now and where we are already in terms of quality.
It will only get better from here on. 😍🎞️🙏 Thanks @runwayml 🥳#aianimation pic.twitter.com/9CpHiCNNdY
・これもGen2
visuals were 100% generated from text ONLY using #Gen2
— 🍥 Timmy 🍥 (@IXITimmyIXI) April 23, 2023
I thought this one was cute and funny so I added some ambient noise and did a little voice acting lol
I've got tons of clips like this, I can't wait to show y'all somethting a bit longer with narration as well. #ai pic.twitter.com/4X6MlTTPN5
・@forever_voiceにおけるAIセラピストのサーシャ
リアルな双方向音声を使い、はCBT(認知行動療法)、DBT(弁証法的行動療法)、マインドフルネス瞑想を専門としユーザーとやり取り
・ 『ロゴデザインの方向性を作り上げる方法やプロンプト』
AIを活用して
— しょーてぃー / Experience Designer & Prompt Designer (@shoty_k2) April 23, 2023
『ロゴデザインの方向性を作り上げる方法やプロンプト』を置いておきますね〜。
私の記事の抜粋になるので少し文脈飛んじゃう可能性があり、気になったら読んでみてくださーい。
所要時間:15分
アウトプット:50枚=複数コンセプト案作成×各4〜16枚の生成… pic.twitter.com/8aVhW8zI4q
・ChatGPTで財務分析も可能に、請求書受領サービス「ジュリオ」
ジュリオは、紙、メール、ウェブダウンロード版等、請求書をオペレーターがPDF化してアップロードし、データ化するサービス。溜めたデータを解析分析する為に「財務GPT」というプロダクトも同時に開発。
・Stable Diffusion開発元が3Dアニメーション生成AI「Stability For Blender」を発表
「Blenderで作成したラフ画像を元に好みの画像を生成」「テクスチャのラフ画像からリアルなテクスチャ生成」「アニメーションを生成」など
・AI TikToker
やっぱり元素材に顔だけAI生成でnoiseかけてたのか。Deep Fakeとかi2iとか。
— Nazuna@−8時間 (@challisnazu) April 24, 2023
フルAIだったら夢あったけど、こんだけ動いて顔崩れないのは普通にすごい・○・
AI TikToker今後たくさんでてきそう🫶🏻pic.twitter.com/fwnEwIbdXd https://t.co/THI3X4tlcj
・全員AI。人間禁止のAIボット専用SNS
全員AI。人間禁止のAIボット専用SNS
— しょーてぃー / Experience Designer & Prompt Designer (@shoty_k2) April 24, 2023
振り切ってんなー笑
AI同士がソーシャルネットワーキングをひたすらしてる笑https://t.co/ZKraNT2Rpn
・RunwayのiOSアプリが発表
Gen-1(動画のスタイル変換)をスマホから利用可能に
・ギブリー、ChatGPTを行政機関内で活用できるプラットフォーム「行政GPT」をリリース
-専用環境で「ChatGPT」を利用可能
-会話データはモデルのトレーニングに使用ない
-個人情報や機密情報の入力を抑止する機能を標準提供
・言語モデルxサイバーセキュリティ
Googleは、サイバーセキュリティ向けに設計された言語モデル Sec-PaLMを搭載したGoogle Cloud Security AI Workbenchを発表
独自の脅威情報データをMandiantの情報とともに処理し、悪意のある活動の特定と抑制、および対応措置の調整をする
・自然言語で動画検索
例:「白いシャツを着て踊っている女性」
If you've felt that "tip of my tongue" feeling recently, you'll love this.
— Pete (@nonmayorpete) April 24, 2023
You can search for videos in natural language ("woman wearing a white shirt dancing")
Demo: pic.twitter.com/Vme0cKjgKk
・一般的な電話対応に対して3倍の生産性を実現へ
トランスコスモスが、デジタルフロントをすべてカバーするTCI-DXサービスにおいて、ChatGPT活用を公表
問い合わせに対してChatGPTが自動応答するだけでなく、困難な問い合わせに対してシームレスに有人対応への切り替えが実現
・プロダクトハント情報に対してチャット検索できるphai(非公式)
プロダクトハント情報に対してチャット検索できるphai(非公式)https://t.co/d7McrBWiO0 pic.twitter.com/NLXfKPABCf
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) April 25, 2023
・NVIDIAが、テキスト生成AIモデルをより安全にするNeMo Guardrailsをリリース
NeMo Guardrailsは、多くの生成言語モデルで動作し、外部の「安全でない」ソースへの接続、不正確な情報、有害な言語に対して制限を設けることができる
・特定ドメインのAIエージェントを構築可能にするプラットフォームを提供するMindverse
Alibabaとa16zが支援するファッションスタートアップCiderで試験運用中。
1000万ドルの調達も予定している。
動画: EC向け仮想アシスタント
特定ドメインのAIエージェントを構築可能にするプラットフォームを提供するMindverse
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) April 25, 2023
Alibabaとa16zが支援するファッションスタートアップCiderで試験運用中。
1000万ドルの調達も予定している。
動画: EC向け仮想アシスタントhttps://t.co/yUrgIIPuET pic.twitter.com/4w7ujzuj9e
・ChatGPTのチャット履歴と学習を無効にできる機能を追加。
ただし、不正行為を監視するために必要な場合には確認される。
また、ChatGPT Businessを数ヶ月以内に提供する予定。
専門家や企業向けにデータをより詳細に管理するためのもので、データは学習に使われない。
you can now disable chat history (and training) in ChatGPT, and we will offer ChatGPT Business in the coming months.https://t.co/jjxuUxYJSa
— Sam Altman (@sama) April 25, 2023
・TikTokが生成AIアバターをローンチ
Leak: TikTok is launching generative AI avatars and here’s what they look like https://t.co/WDkw1S9Xs6 pic.twitter.com/RvBwxHo8IE
— The Verge (@verge) April 26, 2023
・Bloombergによると、アップルが有料のAIヘルスコーチを構築中
コードネーム「Quartz」と呼ばれ、AIとApple Watchのデータを使って、特定のユーザーに合わせた提案やコーチングプログラムを作成し、運動、睡眠、食習慣の改善を支援
来年に登場する予定。
・SpotifyとAI音楽
-昨年追加された2千万曲の内、多くが人間の手によるものではない
-Spotifyは、リアーナやドレイクを模したAI楽曲を、彼らの許可なく削除
しなければならない事態に陥っている
-レコード会社は、自分たちの音楽がAIモデルの訓練に使われるのを
防ぐよう要求
・ 「STUDIO AI」がProduct Huntでリリース
「STUDIO AI」をProduct Huntでリリースしました!🚀
— Joe Ishii / STUDIO (@ytk141) April 26, 2023
STUDIO AIは、話しかけたり、テキストを入力するだけで、自動でデザイン作業をしてくれるデザインアシスタント WebDesignAI を搭載。これまでとは全く異なる新時代のWeb制作フローを実現しています。
Product… pic.twitter.com/sTgyPkCXQf
・Appleのエンジニア
ChatGPTのようなチャットボットを同社の音声アシスタントSiriに組み込むことを提案
・Microsoft DesignerがEdgeに統合
AIが生成したソーシャルコンテンツが利用できるように
このプラットフォームは、まもなくEdgeウェブブラウザから直接アクセスできるように
・デロイト、物流・小売業の接客にQuartzのAIソリューションを提供
Quartz AIは、NvidiaのAI EnterpriseおよびOmniverseプラットフォーム上に構築され、物流やルート最適化のためのCompass AI、小売店やクイックサービスレストラン、顧客サービスのためのFrontline AIが含まれる
・Topaz Video AI
Topaz Video AI試してみたけど、これすごい!
— SHAKE (@shirokawashion) April 27, 2023
fps30→15に下げてからFrame InterpolationとEnhancementで解像度上げてfps30に補正
DEflickerの残像少し軽減したのと動きが見やすくなってる
この動画は一か月前ので、controlnetもやり方も最新のじゃないんだけど… pic.twitter.com/8GyvSet91W
・ Gen2でテキストだけでエフェクト動画生成
Gen2でテキストだけでエフェクト動画生成してる。ヤベーな https://t.co/UsqH7tS2Lf
— Hirokazu Yokohara (@Yokohara_h) April 28, 2023
・中国テック大手、より低価格なAI製品の提供を目指す
-Baiduは、ERNIE Botの推論効率を10倍向上、推論コストを1/10に
抑えたと発表
-他にも、高品質なビジネスデータを使用した業界固有モデルの
学習などを計画
-TencentやAlibabaも低価格のAI製品にするための効率化に取り組む
・アイアクトのCogmo Search、ChatGPTと連携 セキュアなナレッジマネジメントが可能に
-Cogmo SearchとChatGPTを連携しAI検索機能を強化
-入力がChatGPTの学習に使われず、情報が外に漏洩しない
-AI検索結果一覧を提示し、間違った情報取得を避けることが可能
・runwayml
runwayml https://t.co/6DLb2vTMja
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) April 28, 2023
研究開発
・MS Azure OpenAIのDevelopers Seminarのスライド
・ LangChainの新機能Contextual Compression Retrieverを試す|mah_lab / 西見 公宏 @mah_lab #note
コンテキストを圧縮できるやーつ
— mah_lab / Masahiro Nishimi (@mah_lab) April 22, 2023
LangChainの新機能Contextual Compression Retrieverを試す|mah_lab / 西見 公宏 @mah_lab #note https://t.co/Zton40gnhu
・AutoGPTなど、BabyAGIのコンセプトにインスパイアされた、または基に作られたプロジェクト集
AutoGPTs
— Pavel Curda (@pavelcurda) April 22, 2023
which appeared just last week, are designed to automate GPT-4 tasks, enabling the creation of agents that complete tasks for you without any intervention.
The most popular ones are BabyAGI by @yoheinakajima and Auto-GPT by @SigGravitashttps://t.co/iCIsVMStsz
・Vicuna
オープンソースLLMで日本語でコンテキストを元に質問応答できるモデル
Vicunaすげえわ。オープンソースLLMで日本語でコンテキストを元に質問応答できるモデル初めて見た pic.twitter.com/Epmwbu1gWB
— うみゆき@AI研究 (@umiyuki_ai) April 22, 2023
・BabyAGIが更新
BabyAGI classic (OG)がv0.10ブランチとして利用可能に
Llama.ccpの統合により、Llama、Alpaca、GPT4allを実行できるように
などなど
👶🤖 @BabyAGI_ updates!!!👶🤖
— Yohei (@yoheinakajima) April 22, 2023
🌐https://t.co/OEUcrR7yXn is live!
🎞️BabyAGI classic (OG) available as v0.10 branch
🔵@trychroma added as alt for @pinecone, now default for new users
🏃🏻Default @openai model is GPT3-turbo
🦙Llama.ccp integration allows running Llama, Alpaca,… pic.twitter.com/PMABS7Ahe9
・MPT-1b-RedPajama-200b-dolly
RedPajamaデータで事前学習され、Dollyデータでチューニングされた1.3Bのデコーダのみトランスフォーマー
Llamaシリーズのモデルで使われたのと同じ割合でRedPajamaデータセットから200Bトークンを事前学習
Cool to see this model from @MosaicML being trained on RedPajama and Dolly data. Fully open source AI is becoming a reality -- open source efficient training, curated web dataset, and instruction data. Still early and small model but it will get better. https://t.co/pGzuYxcrZR
— Matei Zaharia (@matei_zaharia) April 22, 2023
・3DCoMPaT++
10.000のユニークなモデルからなる大規模なデータセットで、1モデルあたり1000のスタイルが生成され、アノテーションもあるよ、と
Doc: https://t.co/2HM3e1qayV
Github:https://t.co/z1RpojPwpY
Thrilled to announce the release of 3DCoMPaT++: a richly annotated, multimodal 2D/3D dataset of more than 10 million stylized 3D shapes!🎉
— Habib Slim (@habib__slim) April 22, 2023
🏆Challenge @CVPR 2023: https://t.co/BxX4x9q1K8
📚Doc: https://t.co/yRiLGduuYC
💻Code: https://t.co/l8nyyXn5Y9
🧵👇 pic.twitter.com/5qGKqjCXw8
・ RWKVマルチ言語トークナイザー
将来の #RWKV モデルに使う想定の新しいRWKVマルチ言語トークナイザーができた!
— forasteran (@forasteran) April 22, 2023
欧州言語やCJKなど多言語対応のトーカナイザ🎉
ってソース中の分割対象文字列が思いっきり日本語の例やんw
これは期待♪
ChatRWKV/tokenizer/rwkv_tokenizer.py https://t.co/uIx4jC9cQZhttps://t.co/qnEAGagCnK pic.twitter.com/LpyIikJSSL
・Inpaint Anythingの新機能
3Dシーンからあらゆる3Dオブジェクトを除去することができる「Remove Anything 3D」
github: https://t.co/k9RfD7w85y
hf: https://t.co/dAweTp79Jb https://t.co/CBamWZql8i
Check out our Inpaint Anything’s new feature: Remove Anything 3D, which is able to remove any 3D object from a 3D scene!
— Matt (@matt_tao_yu) April 23, 2023
GitHub Repo: https://t.co/eyVzXHwPFB
Website: https://t.co/MBXOWAn4DP#InpaintAnything #SegmentAnything pic.twitter.com/rdBCjqHcUp
・RMTでTransformerを1Mトークン以上に拡張
リカレントメモリトランスフォーマーというアーキテクチャを活用することで、モデルの有効文脈長を200万トークンまで増やすことに成功。
Scaling Transformer to 1M tokens and beyond with RMT
— Aran Komatsuzaki (@arankomatsuzaki) April 24, 2023
By leveraging the Recurrent Memory Transformer architecture, they have successfully increased the model’s effective context length to an unprecedented two million tokens.https://t.co/jYAogMQRGY pic.twitter.com/0xSx6sFJpx
・Ask-Anything、ChatGPT、miniGPT4、StableLMを使用した
ビデオチャット用ツール
github: https://t.co/Q1qPoHUU60
デモ: http://106.14.223.212:7860/ https://t.co/096WHyCgbR
Ask-Anything, tool for chatting about video with chatGPT, miniGPT4 and StableLM
— AK (@_akhaliq) April 23, 2023
github: https://t.co/dTI6OxgrWV@Gradio demo: http://106.14.223.212:7860/ pic.twitter.com/f6HKaobcNJ
・GPT4Tools: LLMにセルフインストラクションでツール活用を教える
ローカルマシンで動く、Vicuna-13Bで初めて、self -instruct tuningによるビジュアルモデルの利用を可能に
Welcome to check out our impressive GPT4Tools (https://t.co/30VVy9YAUu) that democratizes the tool use ability of language models!
— Yixiao Ge (@ge_yixiao) April 24, 2023
We for the first time enable Vicuna-13B to use visual models via self-instruct tuning. The system can be deployed on local machines without APIs! pic.twitter.com/Cq2o4nkEhS
・Relate Anything Model
画像を入力とし、SAMを利用して画像内の対応するマスクを特定。その後、任意のオブジェクトのマスク間の関係を分析することが可能
github: https://t.co/J2p2vCm5RY
デモ: https://t.co/9dwrbf4gMA
Check out **RAM** (Relate Anything Model) !
— Ziwei Liu (@liuziwei7) April 24, 2023
- We empower Segment Anything Model (SAM) with the capability to recognize various visual relations between different visual concepts.
- Code: https://t.co/44ouTiYOrw
- Demo @huggingface: https://t.co/zY99mcYVal pic.twitter.com/xz7QVKMeKo
・LLM の fine-tuning において、出力層 + 最後の数層だけを finetune することで、全ての層に行うのとほぼ同等の結果が得られる。
LLM の fine-tuning において、出力層 + 最後の数層だけを finetune することで、全ての層に行うのとほぼ同等の結果が得られる。 https://t.co/4g6WXo6hW4
— Kai INUI (@_kaiinui) April 24, 2023
・Vicunaを作ってるとこがチャットボットアリーナを開催してる
2つの匿名モデルを並べてチャットし、どちらが優れているかの投票が集計されていく
VicunaやStableLM、Alpaca, LLaMaとかがいる
Introducing Chatbot Arena 🤖 ⚔️ 🤖 :
— lmsys.org (@lmsysorg) April 24, 2023
We have collected the most popular open-source LLMs and need your help to determine which LLM is the best. In in this epic battle of AI versus AI, only you can decide the winner.
Let the battle begin https://t.co/RtniQ8E9WE! pic.twitter.com/bGSOgKlDkM
・Track Anything: 動画のあらゆるものをセグメント化
Segment Anythingをベースに、トラッキングしたいものを指定し、ユーザーのクリック操作のみでセグメンテーションを行うことが可能
github: https://t.co/eoN4Jn5BEF
論文: https://t.co/sfh9o6dAv1 https://t.co/zgxAtUX6KP
Track Anything: Segment Anything Meets Videos
— Aran Komatsuzaki (@arankomatsuzaki) April 25, 2023
repo: https://t.co/adxhgxaaQq
abs: https://t.co/ePWkoN2nzS pic.twitter.com/fUOOluuNdn
・LLMの仕事での活用
-実験:5,179人のカスタマーサポートにLLMを時期をずらし導入
-生産性(1時間あたりの問題解決数)が平均14%向上
-低スキルの労働者に最も大きな影響
-高スキル労働者には最小限の影響
-顧客感情を改善し、経営介入の要請を減らし、従業員の定着率を向上
Using LLMs at Work
— John Nay (@johnjnay) April 24, 2023
-Experiment: staggered intro of LLM w/ 5,179 customer support agents
-Large increase in productivity
-Small impact on high-skilled workers
-Big positive impact on low-skilled workers
-Improved customer sentiment & employee retentionhttps://t.co/k2W8qxgP6h pic.twitter.com/Jn6HwKXvKo
・ OpenAIのブランドガイドライン
OpenAIのブランドガイドラインが出ていた。
— Dory | AI Agent (@dory111111) April 25, 2023
ChatGPTやGPT-4で開発されたサービスの名称として〇〇GPT(例:MeowlyticsGPT)のような便乗ネーミングはNGとしている模様。国内でも直撃しているところはめっちゃ多そう(思い当たりまくる)https://t.co/UwtxDQ5Q8K
・GUI認識込みのアプリ版Adept?
文章入力でスマホアプリ操作を自動化する「DroidBot-GPT」
「ここをクリックすればカメラに切り替わる」など、アプリ上のGUIをテキストに落とし込む
1. 「ここをクリックすればカメラに切り替わる」など、アプリ上のGUIをテキストに落とし込む
2. 画面上の情報や行動履歴、タスクを組み合わせてプロンプトを作成し、ChatGPTに送信
3. ChatGPTは適切なアクションを生成して送り返し、システムはスマートフォン上で操作を実行 例えば、「番号1234567とメールアドレスalice@github.comをAliceという名前で連絡帳に登録」といったプロンプトを入力すると、アプリを自動操作可能
・NeRF を使用してあらゆるものを 3D でセグメント化Segment Anything Model (SAM)の3D適用研究
github: まだ
論文: https://t.co/EX3nwxsQJQ
プロジェクト: https://t.co/sizOxZtNdL https://t.co/DUQ0kWJzPr
Segment Anything in 3D with NeRFs
— AK (@_akhaliq) April 25, 2023
abs: https://t.co/sHhXriZxyv
project page: https://t.co/omv3tIlI8Y pic.twitter.com/7mAJvOfbVC
・Google等より、GPU を考慮した最適化による大規模拡散モデルのオンデバイスアクセラレーション
GPU 搭載モバイルデバイスで、20 回の反復で 512 × 512 画像の INT8 量子化なしの Stable Diffusion 1.4 で 12 秒未満を達成
mediapipeとかtensorflowに実装されたりするんかな
Speed Is All You Need: On-Device Acceleration of Large Diffusion Models via GPU-Aware Optimizations
— AK (@_akhaliq) April 25, 2023
present a series of implementation optimizations for large diffusion models that achieve the fastest reported inference latency to-date (under 12 seconds for Stable Diffusion 1.4… pic.twitter.com/oTdrchhsqy
・Baby-AGIの日本語解説
Baby-AGIの日本語解説はこのブログが良さそう
— Cygきち (@Cygkichi) April 22, 2023
メインの処理に沿って各構成要素を説明している
所々ゆるくお気持ちが書かれているところもイイ
じっくり読みたくなったので、今日は一旦寝る。
Baby-AGIなるAI連動型の推論システムを評価してみた | IIJ Engineers Blog https://t.co/xCmEnmdpkX
・HuggingChatがリリース
Open Assistantの最新モデル(現在最高のオープンソースチャットモデル)oasst-sft-6-llama-30bを利用(リクエスト集中してて動かない)
Some people said that closed APIs were winning...
— Julien Chaumond (@julien_c) April 25, 2023
but we will never give up the fight for open source AI ⚔️⚔️
Today is a big day as we launch the first open source alternative to ChatGPT:
HuggingChat 💬
Powered by Open Assistant's latest model – the best open source chat… pic.twitter.com/LjKN78XaI7
・百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】
・@mah_lab さんによるnoteで紹介されてる大規模言語モデル間の性能比較シートのボリュームがすごい
note: https://t.co/fN1vfsdj84
シート: https://t.co/ZQx19GsIOW https://t.co/8xSW2wbieg
@mah_lab さんによるnoteで紹介されてる大規模言語モデル間の性能比較シートのボリュームがすごい
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) April 26, 2023
note: https://t.co/fN1vfsdj84
シート: https://t.co/ZQx19GsIOW pic.twitter.com/8xSW2wbieg
・MetaのSegment Anything Model
数行のコードでセグメンテーションマスクを生成できるように
Great that Segment Anything from @Meta has been open sourced! You can now use SAM with @huggingface transformers with few lines of code and generate segmentation masks. How to use it? 🧵
— younes (@younesbelkada) April 25, 2023
More to come very soon in the 🤗 ecosystem! pic.twitter.com/s4r1sGaI1y
・Hugging Face Unity API に、フォールバックエンドポイント、
モデル待機、および最大タイムアウト設定が追加
🤗Hugging Face Unity API now has fallback endpoints, model waiting, and max timeout settings.
— dylan (@dylan_ebert_) April 25, 2023
This makes the API much less error-prone.https://t.co/Z6VXO4JnTG
Now time to start building some games.
・ 大規模言語モデルを自社でトレーニング & 活用する方法
「独自のLLMsを成長させるためのデータパイプラインの構築や推論サーバのホスティングにはかなり高度な技術とランニングコストが要求されるため、一筋縄で用意できるものではないことがReplit社の事例を見ても分かる」
— mah_lab / Masahiro Nishimi (@mah_lab) April 25, 2023
とはいえ各社が自社AIを保有する世界線はすぐ来そう。https://t.co/xkBfuquyUq
・Stability AIのImage Upscaling APIが公開
BlenderやPhotoshopのプラグイン、DreamStudioを利用してアップスケーリングが可能
・RVC公式版に大きな更新
速報!
— yasyune@AI(音声)専用 (@yasyune1023) April 26, 2023
RVC公式版に大きな更新がありました!
・Total_feaが不要になった。
・検索性能が向上し、より高速になった。https://t.co/8Q5gh3WVpw
・推論コストを110倍削減し、各ドキュメントに対して直接推論を実行するよりも品質を改善できる戦略を提案
LMs can be expensive for document processing. E.g., inference over the 55M Wiki pages costs >$100K (>$0.002/1k toks)💰 We propose a strategy that reduces inference cost by 110x and can even improve quality vs. running inference over each doc directly!
— Simran Arora (@simran_s_arora) April 25, 2023
💻 https://t.co/sDqvxSGyLE
・ Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond https://t.co/S0VUOhygs5 確かにこれはキャッチーな「系統図」を含めて,LLMの素晴らしい包括的なガイド. pic.twitter.com/36KL8Che6d
— Yuta Kashino (@yutakashino) April 27, 2023
・今日、Stable Diffusion v2(SDv2)をゼロから学習するコストが5万ドル(約670万円)よりも低くなったと報告
今日、Stable Diffusion v2(SDv2)をゼロから学習するコストが5万ドル(約670万円)よりも低くなったと報告があった
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) April 27, 2023
2022年11月24日にSDv2が発表され、2ヶ月後に16万ドル(約2100万円)までコストが低下し、その2週間後に12万5000ドル(約1650万円)まで低下したと報告があったhttps://t.co/1hLkoOJVuH
・命令調整言語モデルと潜在拡散モデルを使用したテキストオーディオ生成
・人間の音声、動物の音、効果音、音楽などを生成
・63 分の 1 の小さいデータでsotaと同等
-小さなデータセットのみで学習のため、細かい制御は難しい可能性
-非商用
プロジェクト: https://t.co/7IvnwgtPrA https://t.co/U8wuZZfNXX
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model
— Aran Komatsuzaki (@arankomatsuzaki) April 28, 2023
- Can generate realistic audios including human sounds, animal sounds, natural and artificial sounds and sound effects from textual prompts.
- Performs comparably to current SotA models for TTA,… pic.twitter.com/BowF3366hZ
・LaMini-LM:ChatGPTからのデータで学習された言語モデルコレクションの評価
-258万命令データセットで学習
-様々なモデルアーキテクチャ、サイズ、チェックポイントを、
様々なNLPベンチマークや人間による評価を通じて、広範囲に評価
github: https://t.co/FQIasrdAFy
論文: https://t.co/um9tp5iXwI https://t.co/ClSahkbe8u
LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions
— Aran Komatsuzaki (@arankomatsuzaki) April 28, 2023
- Develops a large set of 2.58M instructions
- Generates responses using gpt-3.5-turbo
- Trains LaMini-LM, of varying sizes, which performs on par with competitive baselines while being nearly 10x… pic.twitter.com/aPIElowiOE
・開始画像とストロークのセットからビデオを生成する条件付き拡散モデルであるMCDiff
プロジェクト: https://t.co/a70s3wEAnw
論文: https://t.co/blByccN8J8 https://t.co/t7AXU9Lv8v
Motion-Conditioned Diffusion Model for Controllable Video Synthesis
— Aran Komatsuzaki (@arankomatsuzaki) April 28, 2023
Achieves the SotA visual quality in stroke-guided controllable video synthesis
proj: https://t.co/NTWM9HTv0i
abs: https://t.co/8UHpTUZAGz pic.twitter.com/Y0Zsg11630
・コンピュータリソースへの低コストでのアクセスがAI企業の成功のカギを握る。
コンピュータリソースへの低コストでのアクセスがAI企業の成功のカギを握る。
— 久保田 雅也@ベンチャーキャピタル (@kubotamas) April 27, 2023
GPT-3のトレーニングコストは一回あたり$500k-$4.6M。企業はモデルがコモディティ化しても内製するかアウトソースするかは必要なLLMスペックとマネタイズのしやすさで要検討。https://t.co/M909WeIYM7
・音楽を分析しダンスを生成するAI
Finally!
— Yohei (@yoheinakajima) April 27, 2023
AI model that analyzes music and creates realistic dances 🕺💃🕺💃
wen AI dance battle?https://t.co/BDpeXaxtK7 pic.twitter.com/7i2bhUnKzl
・AI科学者「AI-Descartes」
AI科学者「AI-Descartes」 データと理論から最適な数式を自動推論 「相対性理論」などで実証 https://t.co/NLyCNJeyd6 データと一般的理論を与えると適した方程式を予測。ケプラーの第三法則,相対性理論,ラングミュアの吸着等温式で実証。未知なる重要な科学的原理や法則を発見できる可能性を示唆。 pic.twitter.com/aKaTqWXMWQ
— Seamless (@shiropen2) April 28, 2023
・ MobileNeRFがiPhone13Proでリアルタイム表示78FPS
おお~、MobileNeRFがiPhone13Proでリアルタイム表示78FPS!もうちょっと最適化すれば120FPSくらい出るかもだって!この調子だとNeRFは数ヶ月でコモディティ化するらしい!でもNeRFがコモディティ化した世界ってどんななんだ?みんながこぞって身の回りをスキャンして、世界の完全3Dデジタルツインが出…
— うみゆき@AI研究 (@umiyuki_ai) April 28, 2023
・langchaIn x メタデータ
Retrieval for QA systems is hard
— Harrison Chase (@hwchase17) April 27, 2023
Vector search is good for capturing semantically similar texts, but often queries specify desired attributes like time, authorship, or other "metadata" fields, which vector search is not great at
Enter... ⭐️SelfQueryRetriever⭐️ pic.twitter.com/uph2ImJpSS
・ GitHub Copilot の拡張機能をリバースエンジニアリング
GitHub Copilot の拡張機能をリバースエンジニアリングした記事、そういうロジックになってるんだhttps://t.co/zg7Qdomu0S pic.twitter.com/GMuhNcSINh
— Torishima (@izutorishima) April 27, 2023