見出し画像

【5/20-5/26】生成AI活用事例/研究開発-Weeklyまとめ

今週のAIに関する活用事例や研究開発情報をまとめた記事です。

活用事例

・本当に使える #ChatGPT プラグインはどれなのか?|IT navi @itnavi2022 #note #plugin


・おーーー
AI Beatles
RunwayのGen2とGoogleのMusicLMで作られてるとのこと
Reddit: https://t.co/PO21dNZdIk
Youtube: https://t.co/i78KxIs5lB https://t.co/MiEZTaiJV4


・極予測AI


・iOS用ChatGPTアプリがアメリカで配信開始!
-今後数週間でさらに多くの国に拡大
-無料
-デバイス間で履歴を同期
-Whisper も統合され音声入力が可能
App Store: https://t.co/pavzm2ebPk
Android: next
記事: https://t.co/oz93ygouWH https://t.co/jModSXrzh3


・sketch-to-skybox
1,ラフなスケッチをして
2,プロンプトを書き
3, 生成ボタンを押す
だけで360度ビューが生成されてる
モバイル版も近日公開予定だとか


・大規模言語モデルの開発者が知っておくと役立つさまざまな数字


・Cue:AI ブラウザアシスタント
-Adeptのようなブラウジング自動化サービス
-シンプルなテキストで Web を閲覧
-やっぱりwaiting list


・Googleの Lookout アプリ内でFlamingo を使用した機能が追加
-視覚障害者や弱視コミュニティの人々をサポート
-画像の説明を自動生成でき、ユーザーはフォローアップの質問が可能


・インタラクティブな検索体験のPerplexity Copilotが登場
-依頼を投げると、必要情報をヒアリングしてくれ、複数の回答と要約を提供してくれる
-ヘッドフォンを探す際の値段を設定したり、旅行計画の際の候補都道府県をヒアリングなど
-GPT-4により回答(4時間5回制限)


・スタートアップのSkyflowは、生成AIに暗号化をもたらす
-大規模言語モデルを学習する過程で、企業が機密データを非公開にできる新しいクラウドサービスを開始
-Salesforceの元幹部が設立したデータ・プライバシーのスタートアップ


・Googleが新しいAIモデルを広告に使用し、YouTubeクリエイターを支援する計画と、情報筋が語る
-また、新たなAIモデルを用いて、自社製品の接客を一部自動化する予定
-画像作成のためのStable Diffusionのような製品を社内で開発も


・Fintech Rampは、企業向け節約AIツールの提供を開始
-Ramp Intelligenceは、GPT-4を活用し、ソフトウェア価格分析、電子メールの領収書スキャン、経費報告書の監査、顧客問い合わせに対応するサービス群を備える
-MicrosoftのCEOがRampの投資家およびアドバイザーとして参加


・【NewsPresso(ニュースプレッソ)】β版5月19日開始 GPTを活用し海外ニュース記事を要約して紹介


・Bingのプレビューリリースで、グラフ表示などできるように
chatgptがブラウジング含め何でもできるマンになってるけど、Bingどうなるんやろうか
無料とはいえ、Googleからユーザー取れてない疑惑のデータも上がってたし


・「紙飛行機で世界中を自由に飛び回れるゲーム」のデモが公開、「ChatGPT」「Unreal Engine 5」など注目技術てんこ盛りで圧巻の出来栄え


・国内初の運転者いない自動運転「レベル4」、福井で移動サービス開始
なにいいい!
実家帰らねば 


・自然言語処理AIによる国会答弁作成支援システムを開発
-質問に関連した議事録を選び出し、その情報と共にGPTへ質問を入力するという手法によって信頼性の高い回答を得る
-回答根拠の議事録文章も表示
-答弁内容をより正確に理解することが可能


・喪失感埋まる?ただの"電子人形"? 中国で賛否「バーチャル故人」AIとCG駆使、ビデオ通話もOK(西日本新聞) - Yahoo!ニュース


・人気ホストの声を使ってAI生成のポッドキャスト広告を作成する方法を開発中だそう


・ヤバすぎる
wonder studioとかなんかな
何はともあれ、すごい世界観


アドビがPhotoshopにFirefly搭載。これは動画見ると流石にびびる


・年内で10万人のデジタルヒューマン


・MicrosoftがCopilotをAIアシスタントとしてWindows 11に導入


・#ChatGPT に #Bing の検索エンジンがデフォルトで導入


バーチャルAI先生の@TiimoAI(ティーモ)の先行予約を開始


Azure OpenAI Serviceのアップデート詳細


Microsoft CEO Satyaによる先行発表


・ Google Bardでは画像をGoogle検索から引っ張ってくる機能がローンチ


Novel AIの新しい言語モデル: Clio がリリース


・[速報]マイクロソフト
ChatGPTとCopilotのプラグイン共通化を発表。プラットフォーム化とエコシステムを促進。Build 2023 - Publickey 


・MS、Webサイト構築の手間を省くAIツールを発表
-ローコードサイト作成ツール「Power Pages」用の「Copilot in Power Pages」の米国向けプレビュー版提供開始
-テキスト、フォーム、チャットボット、レイアウトを生成し、画像やサイトデザインのテーマを作成・編集が可能


・MS、新しいE2Eのデータおよび分析プラットフォーム「Microsoft Fabric」を発表
-OneLakeデータレイクを中心に、S3やGCP(間も無く)からもデータを取り込むことが可能
-改良されたPower BIによる、使いやすい可視化とAIベースの分析ツールも
-AI Copilotも統合予定


・MS、AIが生成した画像や動画に電子透かしを入れることを約束
-MSのCanvaのようなWebアプリ、Bing Image Creator、Designer向けに新しいメディア証明機能を開始
-画像や動画がAI生成かどうかを消費者が検証可能に
-今後数カ月で展開予定


・MS、ChatGPTプラグイン規格と同じものを採用と発表
-Bing Chat、Dynamics 365 Copilot、Microsoft 365 Copilot、Windows Copilotで動作するプラグインを構築可能
-プラグインは、AIにプライベートファイルへのアクセスを提供し、ビジネスデータに関するQAなども可能に


・MS、Teamsエンタープライズカスタマーにアバターを提供
-今週からMicrosoft 365 BusinessとEnterpriseの全ライセンスで、WindowsとMacのTeamsデスクトップアプリでアバターが一般利用可能に


・MS、テキストや画像をモデレートする新しいAIツールAzure AI Content Safetyを発表
-Azureを通じて提供
-画像やテキストに含まれる不適切コンテンツを検出するために訓練された様々なAIモデルを提供
-日本語も理解


・Windows Copilot:Bingチャット体験をWindows 11に組み込み
-タスクバーの右側に用意される新しいWindows Copilot
-設定を簡単に変更
-クリップボードからコンテンツを要約
-さまざまなQA
-プラグインでさらに強化
などなど
新しいBingのWindows 11への統合は、6月予定


・MS、独自のAI copilotを構築可能にするAzure AI Studioを発表
-GPT-4のようなモデルと自社データを組み合わせ、プライベートデータを利用したAIチャットやその他のアプリを構築可能
-プラグインで拡張し、サードパーティーデータやその他サービスへのアクセスも可能に


・Google、AIチャット表示広告の実験を開始予定


・Google検索広告は、生成AIでクエリに自動適応するように
-生成AIを利用し、クエリに基づいて検索広告をより効果的に作成
-LPや既存広告コンテンツなどを利用し生成
-例:「乾燥性敏感肌用スキンケア」と検索した時、LPなどを利用し「乾燥性敏感肌を癒す」など、クエリと関連する見出しを作成…


・Googleがやってきた
Google、生成AIで商材画像を作成できるツール「Product Studio」を導入
-新たな写真撮影の追加コストをかけずに、新しい画像を作成可能
-邪魔な背景削除も可能
-米国の加盟店は、今後数ヶ月のうちに利用可能に


Cognitive Searchのベクトルサーチ対応も発表


・無料!?金持ってんなー
楽天、Rakuten ViberでOpenAI社の対話型・画像生成AIを無料で利用可能に
-楽天グループのViber Media S.a.r.l.が提供するメッセージングアプリ「Rakuten Viber」にて
-ChatGPTや、DALL-E2を無料で利用できる「Viber AIチャット」の提供を開始


Github Copilotの最新のデモ


DeepL翻訳の日本語版に「敬体・常体の切り替え」機能が搭載


・やってけやってけ
アサヒ『ジェネレーティブAI 「やってTRY」プロジェクト』発足 業務効率化や潜在ニーズ掘り起こしへ
-グループ各社より自薦で約100名の社員が参加
-生成AI関連の商用サービスを用いて、社内業務への有効な適用や効果創出の可能性を評価


Microsoft Bingの画像生成、ロゴやアイコンのデザイン案出しに凄く良い。


・チャットボットスタートアップのhttps://t.co/z5kpHFhYnLのモバイルアプリがリリース!
2ヶ月前1億、先月1.7億MV、滞在時間も平均約30分と伸びてる中でのさらにスマホアプリ
ios: https://t.co/czpUTHc0Ey
android: https://t.co/yApbHdgcCn
記事: https://t.co/Bfxj9VotrR


・GPT-4による新しい電話アシスタント
チャットしたり、保留時の番号押すなどを代行し、アメリカの内国歳入庁の適切な部門を見つけ、通話をユーザーに繋げてくれる
今週、アルファ版の@DoNotPayユーザーに展開
全般で欲しい。
xxxの時はy番を押してください、とか保留待ち時間ほど無駄な時間ない。


国内初】株式会社Trippy、『けものフレンズ』公式のAIチャットサービス


・AI にテイラーのチケットを監視させて、入手可能になったら購入するよう依頼してるw
いい。
次の井上尚弥のチケット争奪戦でやってみよかな、これ


・KDDIが安全なAIチャット環境を構築
KDDI AI Chat
中身なんやろ
>KDDI独自の環境を構築して利用するため、秘匿情報が外部に流出しないことが担保され、安心安全にAIを利用できる環境を構築


・ ジェネレーティブ塗りつぶし機能の商用利用不可ソース


東京都、スマート書記導入


・Azure OpenAI ServiceとAzure Machine Learningの影響力


・ 現実とデジタルの境界の融合
現実とデジタルの境界がますます溶けていく


・ StabilityAIのClipdropが画像バリエーション生成を簡単に提供


・ ChatbotアリーナのリーダーボードにGooglePaLM2とclaudeが追加
Chatbotアリーナのリーダーボード更新
GooglePaLM2、claudeなども追加
claude強い


・ Google、AI検索実験を開始
GoogleがAI検索の実験開始
Search Labsのwaiting listを突破した人が検証可能
Search Generative Experienceという、Google全体の検索結果のトップにAI生成要約を表示、など
記事: https://t.co/5cwKeQ6ED2 https://t.co/ImrpUmKwqK


・ Smart NPCsプラグイン、リアルタイム音声会話を実現


・ ChatGPTのデフォルト検索エンジンがBingに変更
知らなんだ
ChatGPTのデフォルト検索エンジンは「Bing」にーー課金ユーザーから提供開始 https://t.co/Df1pM9Vgoq @thebridge_jpより


・ アイリスオーヤマ、AI対話エンジン「PKSHA Chatbot」を導入
アイリスオーヤマ、PKSHA WorkplaceのAI対話エンジン「PKSHA Chatbot」を導入
-Slack上で活用が可能なAI対話エンジン
-人事・経理等の質問等、バックオフィス部門や関係各所への問合せ対応に対する課題の解決


・米軍のロボット戦闘車計画、Scale AIを採用
@scale_AI が、陸軍内の主要な自律プログラムである米軍のロボット戦闘車計画に採用される


研究開発

・PaLM 2のテクニカルレポートが出てた
論文: https://t.co/VZrT8JGU1K https://t.co/dx9iMxUvuc


・ジェネレーティブエージェント論文のバーチャル世界を実装したリポジトリ


・LangchainとMSのGuidanceを使われた方の両者比較
詳細は元投稿スレッド


・Meta、Copilotに似たコード生成AIモデルCodeComposeを構築
-まだ一般には未公開
-VS CodeのようなIDEで入力すると、Pythonや他の言語のコード候補が表示
-基礎となるモデルは、Metaの公開研究の上に構築-複数のCodeComposeモデルのうち最大は67億のパラメータ


・Metaが世界最速クラスのAIスーパーコンピュータの1つを構築完了


・Drag Your GAN
-GAN生成の画像を対話的に操作し、潜在空間を直接編集
プロジェクト:https://t.co/A543irDT4f https://t.co/m5UPgMnMO6


・GETMusic
ミュージシャン向けの様々な用途の音楽copilot
任意の音楽トラック (665 タスク) を生成可能
音楽生成のようなミュージシャンの代替ではなく、音楽スコアでサポートをする
論文: https://t.co/4Ss0WhA8eY
プロジェクト: https://t.co/YX5tZBdZ9G https://t.co/QJ1sPAU0A5


・LLM Meetup Tokyo #2 のまとめ記事


・CyberAgent社の日本語LLM OpenCALMを対話モデル用途にdollyデータセットでLoRAチューニングしたブログ記事


・SQUARE ENIXのAI部から三宅陽一郎を筆頭に、現役のゲームAI技術者によるAI関連の技術や話題の解説するページ


・実験結果を雑にまとめました
rinna 3Bをcppで動かす|if001 @if_004 #note


・Chat with NeRF
NeRFの3Dモデルを入力にLLMでチャットできる


・スーパーコンピュータ「富岳」(以下、「富岳」という)を活用した大規模言語モデル(Large Language Model, LLM)[用語1]の分散並列学習手法の研究開発


・大規模LLMのFine Tuning はデータ量よりデータの質が鍵とする論文


・Any2Anyの拡散モデル


・CRITIC:ツールインタラクティブな批評で自己修正可能なLLM
-出力に対し、外部ツールと連携して批評を生成、出力を検証
-フィードバックに基づいて出力を修正
-質問応答、プログラムの合成を含む評価により、性能向上を実証
github: https://t.co/p4p8H3wYgB
論文: https://t.co/s0Cd6hqAJT https://t.co/ZKjPenZpJT


・Chupa:拡散モデルを用いてリアルなデジタルアバターを生成する3D生成パイプラインの提案
論文: https://t.co/nl8kqzwy1E


・ドメイン特化の質問応答のパフォーマンスを向上
-MSQA というMSの技術的問題に関するベンチマークQA データセットを提供
-以下を評価
Expert: MSQAチューニングのドメイン特化LLaMaモデル
LLM: ノーマルGPT
+BM25: いわゆる検索拡張 +Expert: Expertの回答をGPTのプロンプトに追加 +BM25 & Expert: 検索情報とExpertの回答両方の組み合わせをプロンプトに追加


・脳活動から人間の視覚を復元
大脳皮質のfMRI データから任意のフレームレートの高品質な動画を生成するMind-Video を提案
論文: https://t.co/f2f9KYAA8u


・scikit-learnならぬscikit-llm
ChatGPTのような言語モデルをscikit-learnにシームレスに統合し、テキスト分析タスクを強化


・Weights & Biasesに来てから初のブログです。wandbのHugging FaceやLangChainとの連携の紹介などです。


・言語モデル(LM)が意味を理解しているのかを調べる


・#ControlVideo


・RWKVの論文
Transformerの効率的な並列化可能な学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャ、Receptance Weighted Key Value(RWKV)を提案


・RNNの再帰機構をシミュレートし言語ベースの長期・短期記憶を更新する「RecurrentGPT」
-自然言語記憶を人間が観察・編集可能
-読者と直接対話する対話型小説の可能性を示唆
論文: https://t.co/aKRgzmKaw5
github: https://t.co/Yj8O4in9dN
対話的生成デモ: https://t.co/sxhI9IjzjE https://t.co/PEutK3Fu7Q


・TWIST
-MetaAI, ヘブライ大学, OpenAIより
-学習済み言語モデルからウォームスタートでSpeechLMを訓練する方法であるTWISTの提案
-コールドスタートのSpeechLMを全面的に凌駕
プロジェクト: https://t.co/PwQoZ4MZv8
論文: https://t.co/zDdud64lKc https://t.co/3JjmmdI0Ec


・幅広い言語をカバーするMassively Multilingual Speech(MMS)プロジェクト
-wav2vec 2.0と、1100以上言語のラベル付きデータ、約4000言語のラベルなしデータの組み合わせ
-Tatuyo語など、数百人しか話者のいない言語も含む
-既存モデルより10倍の言語をカバー


・Rinnaのチャットモデルとお話する方法、まとめた


・RedPajama 3B が iPhone 上で動作


日本語LLM向けチャットデータセット(約840万件),LLaMAのチューニングモデル,論文を公開


Google Colab で OpenCALM-7B のLoRAファインチューニングを試す|npaka @npaka123 #note


・インテル、1兆個のパラメーターを持つ科学向けの生成AI「Aurora genAI」を発表
-2エクサフロップスのAuroraスーパーコンピュータを利用しAurora genAIを動かす予定
-一般テキスト、科学テキスト、科学データ、およびドメインに関連するコードで学習させる予定


LangChainとguidanceの使い方


・Control-A-Video:拡散モデルによる制御可能なテキスト動画生成
-エッジやデプス、テキストで制御可能
プロジェクト: https://t.co/klojIF6eN6
論文: https://t.co/TM2MmcctBf https://t.co/k1Wxt2BnUq


Anthropic Claude-V1が自前AWSで


CyberAgent AI事業本部MLOps研修応用編


QLoRA


・人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」
がスタンフォード大学のチームによって作成される #SmartNews


#ProFusion


・LayoutGPT:LLMによる視覚的なレイアウト計画および生成
-テキストから画像への変換モデル/システムを20~40%上回る
-数値的・空間的に正しいレイアウトを設計する際に人間と同等
-3D室内シーン生成において、教師あり手法と同等の性能を達成
サービスに落ちてくるのはもう少し先かな…


・LLMで世界モデルと推論エージェントの2つを作り、世界モデルにガイドさせる事で、推論性能が上がりましたよと
各ドメイン世界モデルとドメイン特化推論エージェントとの相互作用で色々変わってくるんやろうか


・視覚言語モデルによる動画説明生成で検索体験の向上
Youtubeショートは説明文や役に立つタイトルが含まれていないことが多いから、検索で見つけにくい
これに対し、視覚言語モデルFlamingoを使い、動画の最初のフレームを分析して、何が起こっているのかの説明を生成。
検索しやすさを向上。


これはもうデザイナーやレタッチャー大勝利では?またゲームチェンジが起きてしまった。


・Azure Machine Learning入門書の紹介


・OpenCALM-7BをLoRAでFine tuningし対話可能にする方法


・ OpenAI Cookbookに追加されたプロンプト関連のライブラリと論文のリスト


・ Alexandria - オープンソース埋め込みデータセットイニシアチブ
ネットを埋め込むオープンソースイニシアチブAlexandria
-オープンな埋め込みデータセット (研究、法律、金融など) がないため組織を構築
-まず、Arxiv 上のすべての研究論文の埋め込み
Arxiv 埋め込み (タイトルと要約) : https://t.co/g53FeJ5vK9
組織に関して: https://t.co/dh2WwQuFgO https://t.co/MTuposjD7Q


・Voyager: 組み込み型LLMを使用したMinecraftの生涯学習エージェント
Voyager: LLMを備えたオープンエンドの組み込みエージェント
-人間の介入なしに世界を継続的に探索し、多様なスキルを獲得し、新しい発見を行う
-Minecraft における初の LLM を利用した身体化された生涯学習エージェント
プロジェクト: https://t.co/71srCwYiCr
論文: https://t.co/rbCtBOQGLG https://t.co/j9VLB6ffG4


 a16zのAIリソース集紹介
a16zより AI Canon
LLM と最新の AI についての論文、記事、コース、ビデオなどのリソース集


・OpenAIのGPT-5ローンチ時のオープンソース化に関する議論


・ 新しい3Dテキスト生成技術登場
ProlificDreamer
また新しいテキスト3D生成出てきた
(code coming soon)
プロジェクト: https://t.co/8wuk6xJ8pX
論文: https://t.co/XPTY6NDzqx


・ OpenAIがMicrosoft研究チームを追い越す理由についてのCEOの質問


・ Meta、100万トークン超のコンテンツ生成AI「Megabyte」を発表


・ 65Bパラメータモデルを1日で1つのGPUで微調整可能



・Google ResearchのBreak-A-Sceneプロジェクトで画像から複数コンセプト抽出
Google Researchより
Break-A-Scene: 単一の画像から複数のコンセプトを抽出
プロジェクト: https://t.co/sT49cCNgxc
動画: https://t.co/zxg9LIiBgo
論文: https://t.co/Y6nDf2EjsB
コードは見当たらない https://t.co/eCzSUxMdB2 https://t.co/T3aJ5SYL9l


・ AITuber向け記憶システムの完成


いいなと思ったら応援しよう!