【6/17-6/23】生成AI活用事例/研究開発-Weeklyまとめ
今週のAIに関する活用事例や研究開発の備忘録記事です。
活用事例
・「LINEのAIチャットくん、200万人の登録者数と6000万通の総メッセージ数を突破!」
・AGC社、社内向けチャットツール「ChatAGC」を導入決定、マイクロソフトの「Azure OpenAI Service」を活用
「ChatAGC」がガラス最大手AGC社で導入決定
-マイクロソフト「Azure OpenAI Service」を活用した社内向けサービス
https://ledge.ai/articles/agc_chatagc… via @Ledge.ai
・DropboxがAIツールDashを開始し、ユニバーサル検索エンジンを提供
DropboxがAIツールDashを開始
あらゆる場所であらゆるファイルを一度に検索することが可能
Dropbox内のファイルだけでなく接続されているアプリのすべてにアクセスできるユニバーサル検索エンジン
・生成AIによるコスト改善は4つの業務に集中し、業種によって異なる。
・AIスタートアップやテック企業で使用される新しいシステム、ツール、設計パターンの例
AI スタートアップやテック企業で使用されているシステム、ツール、設計パターン例
https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/… #tech @a16zから
・「ソフトバンクG、社内でAIコンテストを実施 優勝賞金1000万円」
・EC事業者向けAI商品写真生成SaaS「フォトグラファーAI」を提供するエンジニア集団
・SnapchatのAIチャットボットがターゲット広告に活用可能に
・MetaがAI投資する領域を発表 - AIアシスタント、AIステッカー、AIメディア編集に注力
・Epic Games、MetaHuman Animatorを発売 - 高品質な人間の顔を数分でアニメーション化可能
-Epic Games、iPhoneで高品質な人間の顔を撮影する「MetaHuman Animator」を発売
-iPhoneとPCだけで、アニメーションまで数分で完了
https://unrealengine.com/ja/blog/delivering-high-quality-facial-animation-in-minutes-metahuman-animator-is-now-available…
・「Azure OpenAI Service」に新機能「On Your Data」が追加され、チャットAIがローカルやAzure上のストレージに保管されたファイルを参照可能に
「GPT-3.5」などのAPIをクラウドサービス「Microsoft Azure」上で使える「Azure OpenAI Service」に、新機能「On Your Data」を追加
ローカルやAzure上のストレージに保管するテキストファイルやPDF、PowerPointファイルを、GUIの操作でチャットAIに参照させられる
https://itmedia.co.jp/news/articles/2306/20/news196.html…
・Microsoftが自社版ChatGPT作成サービスにデータ取り込み機能を追加
・OpenAI、AIモデルのマーケットプレイスを検討
・Character Creatorのプラグイン最新アップデートで、写真や3Dモデルから高品質な頭部3Dモデルを構築可能に
・英ガーディアン誌、企業にAI利用方針の明確化を促す
・生成AIを使用して合成データセットを構築することができるParallel DomainのAPI
ちなみに、Parallel Domainは合計約4400万ドル調達済み
https://tcrn.ch/3PiVGw0 via @techcrunch
・Gatebox技術を活用した24時間接客可能なAIキャラクター派遣サービスが登場
・Vimeo、AIを活用した編集機能を導入
・Adobe、生成AI『Firefly』をPhotoshopなどに追加し、『Adobe Express』に注力
・AIを活用した網膜スキャンで主要心血管イベントを精度高く予測可能に
・IBMとAdobeがAI技術を活用したコンテンツサプライチェーンソリューションを開始
・「AIエージェント」について解説する記事
・AIが作った女性の動画が話題に
・LLM基盤モデル開発事業の強みはデータセットとマーケットリーダーになれるチームの構築
・メルセデス、米国でチャットGPT試験を実施
・京都の左官業界でStable Diffusionを取り入れた株式会社スタッコプラス
・韓国のバーチャルアイドルの多様性
・ChatGPTを旅ガイドにしたAVA Travelのチームワーク
・AIとデジタルヒューマンが手掛けるライブコマース店舗「Lumiwink」が16万人の注目を集める
・アクセンチュアがプライベートGPTを構築し、自社業務や顧客への導入支援を開始
・みずほと富士通、AIを活用したシステム開発の実証実験を開始
・「a16z調査:243のゲームスタジオの87%がAIを使用中、ChatGPTが最も人気」
・AmazonのAWS、AI関連企業に$100Mの資金提供プログラムを発表
・それはコンピューターではない、コンパニオンなのだ by a16z
・YouTubeがAIによる吹き替えを導入
・Figmaの新機能「Genius」がチャットインターフェースでUIを段階的に生成可能に
・GoogleのDuet AIがスプレッドシートでカスタムテンプレートを作成可能に
・AGC社、社内向けチャットボット「ChatAGC」を導入決定、マイクロソフトのAIサービスを活用
研究開発
・LangChainが新機能を追加、OpenAI Multi Functions Agentを導入
・CrestaがAIを活用した世界初のコンタクトセンター基盤モデル「Ocean-1」を発表
Ocean-1 : 世界初のコンタクト センター基盤モデル
-合計1億5100万ドル調達し、AIで顧客サービスの品質向上を支援するCrestaから
-これまで蓄積したコンタクト センターのドメイン データやフィードバックを利用し作成
https://cresta.com/blog/introducing-ocean-1-worlds-first-contact-center-foundation-model/…
・M1/M2 MacでローカルLLMが2倍速く
LLaMAの全モデルをサポート
デモは、16GBのRAMを搭載したM2 Macbook Pro上で動作する13BパラメータのLLM
http://gpt4all.io
・FastSAMが50倍高速化し、SAM手法と同等の性能を達成
おーーー
SAMの高速化版!FastSAM!
50倍の実行速度でSAM手法と同等の性能を達成
モデルは変わらずApache 2.0 license
huggingface: https://huggingface.co/papers/2306.12156…
github: https://github.com/CASIA-IVA-Lab/FastSAM…
・ LLMライブラリの評価結果
・「Multi-modal LLM」は大規模事前学習モデルのマルチモーダル化に焦点を当てたメタサーベイ
・「MAGVIT:10種類の動画生成タスクに対応するトランスフォーマー」MAGVIT: イメージアニメーション、動画編集、アウトペイントを含む10種類の動画生成タスクに対応するトランスフォーマー
github(まもなく): https://github.com/MAGVIT/magvit
詳細: https://magvit.cs.cmu.edu
・ FLAN命令データセットを使用したOpenLLaMAモデル、Flan-Open-Llama-7bがリリースされる。商用利用にはPROスペースまたは推論エンドポイントが必要。
FLAN命令データセットでチューニングされたOpenLLaMAモデル、Flan-Open-Llama-7bをリリース
下から使えるが、モデルが大きいので、商用利用の場合は、PRO スペース、または推論エンドポイントが必要
https://huggingface.co/conceptofmind/Flan-Open-Llama-7b…
・Facebookが公開した多言語音声認識のコードとモデル
Metaの大規模多言語音声(MMS)プロジェクトのコードとモデル
プロジェクト: https://ai.facebook.com/blog/multilingual-model-speech-recognition/…
github: https://github.com/facebookresearch/fairseq/tree/main/examples/mms…
model: https://huggingface.co/models?other=mms…
※ただ、コードとモデルはCC-BY-NC 4.0ライセンス
・Metaが新たに開発した音声認識AI「MMS」は1,406言語に対応、デモも公開中
・DB-GPT: プライバシー保護されたデータベースインタラクションの革新DB-GPT: プライベートLLMによるデータベースインタラクションの革新
-ローカライズされたGPT largeモデルを使用して、データと環境と対話する実験的なOSSプロジェクト
-データ漏洩のリスクはなく、データは安全であることを保証可能とのことGithub: https://github.com/csunny/DB-GPT
・画像の全領域を一度にセグメンテーションする対話型モデルSEEMの提案Segment Everything Everywhere All at Once
-画像内のあらゆる場所を一度にセグメンテーションするためのプロンプト可能な対話型モデルであるSEEMを提案
論文: https://arxiv.org/abs/2304.06718
デモ: https://36771ee9c49a4631.gradio.app
(なぜかデモアクセスできない)
・Automation AnywhereがAWSと提携し、企業内業務の自動化を促進
RPA大手Automation AnywhereがAWSと提携、生成AIで企業内業務の自動化促進
GCPやAWSと連携し、Automation Co-Pilot + Generative AI、オートメーター向けのAutomation Co-Pilot + Generative AI、ドキュメントオートメーション + Generative AI などを発表する予定
・ LLMによるフィルタリングと生成で高性能を達成
・ロボティクス基盤モデルにおけるLLM/LVMの調査と応用
・「visionOSのSDKがXcode 15 beta 2に追加されました」
・OpenAIのFunction callingを使った小説解析
・「LLMアプリケーションの新しいアーキテクチャとツールについての見解」
・「CVPR2023のworkshopで、拡散モデルを使った高品質&精緻な画像編集の高速&省コスト実現方法を発表」
・CVPRでアニメキャラの3D復元が実現
・GPTモデルの信頼性に脆弱性があることが判明
DecodingTrust: GPTモデルにおける信頼性の包括的な評価
-信頼性の脅威に対するこれまで知られていなかった脆弱性を発見
・Meta AIがCVPR2023で発表した論文に注目
・「生成AIが作った文章」を学習させ続けると破綻する可能性がある
・GPT-4は1.76兆パラメータの混合モデルであることがリークされる
・Inflection.Aiの創設者が新しいチャットボットのテストを提案
パーソナルAIアシスタントを開発するhttp://Inflection.Aiの創設者スレイマンがチャットボットの新しいチューリングテストを提案
・Baichuan Intelligent Technologyが開発したオープンソースLLMが高性能を発揮
baichuan-7B
-Baichuan Intelligent Technologyが開発したオープンソースLLM
-Transformerアーキテクチャに基づき、約1.2兆個のトークンで学習
-中国語と英語の両方をサポート
-コンテキストウィンドウは4096
・Infinigen - 自然界のフォトリアルな3Dシーンをプロシージャル生成するオープンソースツール
自然界のフォトリアルな3Dシーンをプロシージャル生成するInfinigen
-フリーでオープンソース(BSD 3-Clause License)
-形状からテクスチャまで、すべてのアセットがランダムな数学的ルールによってゼロから生成
・vLLM - 高速なオープンソースのLLM推論および処理ライブラリ
-オープンソースのLLM推論および処理ライブラリ
-HuggingFace Transformers を 24 倍高速化し、Vicuna と Chatbot Arena をパワーアップ
-中核のPagedAttentionは、モデル変更なく、5倍以上のシーケンスを一緒にバッチ処理可能
Github: https://github.com/vllm-project/vllm…
ブログ: https://vllm.ai
・Google DeepMindがロボット操作のための自己改良型基盤エージェント「RoboCat」を発表
・「CVPR」で論文投稿数・採択数は過去最高を記録。最多出現ワードは「Diffusion model(拡散モデル)」
https://research-p.com/column/1237
・RWKVにWIKIページが新設
https://wiki.rwkv.com
・チャット履歴を利用して、その質問が前の対話の続きなのか、それともまったく新しい質問なのかを判断
・OWLv2を使った物体検出において40%の性能向上を実現
・ChatGPTに匹敵する商用版を今年中にリリース予定、将来的に日本語ベースのStable Diffusionを計画
・「逆スケーリング」による性能低下の論文が発表される
・顔写真から化粧のパターンを抽出する研究がEurographics2023で採択される
・MagicBrush: 手順に従った画像編集のための大規模な手動注釈付きデータセット
・SnapchatがAI画像生成モデル「SnapFusion」を開発
・text-generation-webuiでRinna、OpenCALM、RWKVを試す
・WizardLMとWizardCoderは、自動生成された指示により、LLMの微調整を改善
・NTTセキュリティが開発したChatGPT、98%以上の精度でフィッシングサイトを自動検出
・Google ColabでPaLMを使用可能に
・OpenLLaMA 13Bモデルがリリース
・「HQ-SAM」技術で超高精度な背景分離が可能に
・RWKVとsqlite-vssを使った高速なベクトル検索の実装
・Google Colabを使用してOpenCALM-largeのファインチューニングを試す
・Google ColabでOpenLLaMA-13Bを試す方法
・LLMとナレッジグラフの融合に向けたロードマップ提示
・東北大と理研が報告するAIによる英文校正の研究成果
・拡散モデル講演資料が公開
・Transformerモデルの包括的なサーベイ
・「function calling」の使い方と例について
・NTTと早大、誤った正規表現の文字列抽出を自動で修正する技術を発表
・クラウドソーシングの人間アノテータがGPTなどを使用している可能性
・gen関数の解説とアップデート情報
https://twitter.com/mah_lab/status/1669985755114897408
・LangChainが新機能「Tagging」を導入
・Livedoorニュースコーパスを簡単に呼び出せるhuggingface datasetsが登場
・Robin-V2シリーズのモデルがLLMベンチマークで高得点を獲得
・Huggingface hubにてRobinモデルのチェックポイントを公開
・テキストから動画変換可能なゼロショット技術のデモ
・Googleが開発したテキストから3Dアバター生成
・MiniLLMによる大規模言語モデルから小規模言語モデルの抽出
・新しい仮想試着モデル「TryOnDiffusion」にParallel-UNetアーキテクチャを提案
・Googleが拡散モデルベースの仮想試着研究を発表
・多言語音声合成モデルVoicebox
・大規模言語モデルは因果関係を推定できない?研究者が40万個の問題で調査
・HuggingFace版Whisperに単語レベルのタイムスタンプが追加
・Inflection AI、会話APIを通じてInflection-1を利用可能に。広範なベンチマークで上回る
・音声理解と生成にの大規模言語モデルAudioPaLM
・画像の視覚的特性を保持したレイアウト編集手法
・StableAI、SDXL 0.9をリリース
・wanda: LLMの50%枝刈りで精度劣化少ない手法の提案と、4bit近くに量子化することでfp16の1/8サイズに圧縮可能性の検証
・StyleSync - リップシンクを高精度に実現するフレームワーク
・MPT-30B: 商用利用可能なオープンソース最新モデル、最大8000コンテキストの1Tトークンで学習
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?