【5/6-5/12】生成AI活用事例/研究開発-Weeklyまとめ
今週のAIに関する活用事例や研究開発情報をまとめた記事です。
活用事例
・動画生成AI「Kaiber」の使い方(text2movie編) #SmartNews
・元DeepMindのリーダーによるスタートアップ、Inflection AIがカジュアルな会話ができる「Pi」を提供開始
-1年前2億2500万ドルを調達
-他のチャットボットとの違いは、よりカジュアルで仮想的な交友関係が
不健康な関係に陥ることがない点
-カレンダー管理等も計画
・Lobelace Studioが、AI世界生成プラットフォームであるNyricを発表
デモ動画で、テキストからワールド生成してる
事前登録: https://t.co/m7wic8q9Ur https://t.co/RSvjN0NQjM
・楽曲生成SongRの事例
・ファストフードチェーンのウェンディーズが、ドライブスルーの注文を受けるAIチャットボットを試験導入
-Googleと組んで開発中
-6月にオハイオ州コロンバスの店舗で最初のテストが行われる予定
-「Frosty」や「JBC」など、特定の用語を理解できるようにカスタマイズ
・AI x 出会いアプリ: Teaser AI
・Salesforceが、自然言語で質問しインサイトを得ることができるTableau GPTの提供を開始
-自動的にビジュアライゼーションを作成し、関連しそうな質問やクエリも提案
-また、さらに革命的な可能性を秘めたAIのプロトタイプも開発している
-企業内のほとんどすべてを把握し、どのような製品を発売すべきか、どこで販売すべきか、世界全般の出来事が売上にどのような影響を与えるか、どのようなマーケティング活動が有効か無効か、会社はどこにもっと投資すべきか削減すべきかという洞察を提供することができる可能性を秘めているとのこと
・Microsoft 365のAI搭載「Copilot」が機能強化され、有料化へ
-早期アクセスを希望する600名が利用可能
-新しい検索であるSemantic Index、他Microsoft Whiteboard/Outlook/PowerPointのための新しい機能も発表
-一般公開については未発表
・Semantic Index
プロンプトに対して、関連性の高い実用的な回答が可能
例えば、Copilotに「3月の売上報告書」について質問することで、単にそのキーワードを含む文書を探すのではなく、「売上報告書は財務チームのKellyが作成し、Excelで作成されている」と認識することが可能
・Whiteboard
特定のトピックに関するアイデアの創出やWhiteboardのコンテンツの要約を支援
また、Microsoft Designerを使用して、Whiteboardで作成されたアイデアのプロンプトを基に画像を生成し、アイデアを実現することが可能
・PowerPoint
画像生成のDALL-Eが追加
Copilotにテキストの説明に基づいて画像を生成するよう依頼し、プレゼンに含めることができるように
また、箇条書きを段落にしたり(またはその逆)、語調を変えたりといったテキストの最適化も可能
・Outlook
文章作成のサポートを行う
メールのトーンを改善する方法を指導したり、デリケートな話題でより効果的な文章を提案など
・ AkumaAI
・ Amazonが他社アプリやビデオゲーム内でAmazon上の商品を購入できる機能「Amazon Anywhere」をローンチ
・Google が Project Tailwind を公開(in Labs)
-個人的なメモで学習できる
-学生向けツールとして位置づけ
-ドライブからファイルを選択するだけで、パーソナライズされた
AIモデルを作成可能
-大量の学習ノートから情報を選択して、トピックに関する用語集などを
作成可能
・Google IOで発表された新しいAI検索レイアウト
より詳細な検索を強化
折り返し部分と補助アセットに目立つようにリンク
・Bard の回答
Gmail や Google ドキュメントに簡単にエクスポートできるように。 #GoogleIO
・Googleやウェブ上のサービスを利用して、
より多くの仕事をこなしたりできるよう、Bardで拡張機能をまもなく開始予定。プラグインみたいな感じかな?#GoogleIO
・例えば、今後数か月以内に、Adobe Firefly を Bard に統合して、
画像を生成編集したり、Adobe Express でデザインに追加したりできるように。 #GoogleIO
・Google Wordspace
Microsoft copilotのようなAIとコラボレーションできるDuet AI for Google Workspaceを発表
・3 月には、テスター向けにGmailおよびDocsでのライティングに役立つAI 機能を公開済み
#GoogleIO
・達成しようとしていることを説明するだけで、スプレッドシートが整理に役立つ計画を生成
テスターは来月利用できるように #GoogleIO
・Slides
スライドを選び、簡単なテキストプロンプトを使用して、オリジナルビジュアルを生成
来月、テスターに公開 #GoogleIO
・検索での新しい生成AI体験により、1 回の検索でさらに多くの情報を得ることができるように
AI を活用したスナップショット、より自然な質問方法を探るためのポインターを使用して、情報をすばやく理解できるように
#GoogleIO
・絶えず変化する製品、販売者、ブランド、レビュー、
在庫の世界で最も包括的なデータセットである Google のショッピング グラフを活用 #GoogleIO
・GoogleIOと同時にscale_AIもリリース出してる
政府と企業を強化するための 2 つの主要なプラットフォームを立ち上げ
-Scale Donovan: 防衛のための AI copilot
-Scale EGP: グローバル企業向けの生成AIアプリ展開ソリューション
動画: Donovanデモ
CEOからの手紙: https://t.co/J0vd2cqRnU https://t.co/ljWhKUxg5D
・Donovan: AI を活用した防御の意思決定
オペレーターの理解、計画、行動を数週間ではなく数分で支援するAI搭載のプラットフォーム
・Scale EGP
生成AIアプリを本番で展開するための、フルスタックのソリューション
・Googleが新しい生成AI技術をスマホアプリに導入することを発表
-Androidのデフォルトメッセージアプリでメッセージの自動返信や文体
の改善が可能に
-Pixel限定で、AI生成の壁紙を提供
-3D技術を利用したカメラ撮影機能の提供も計画されている
・Googleは新しいPhotos機能「Magic Editor」を発表
-生成AIを使って、プロのツールなしに写真の大幅な編集を可能に
-例えば、写真の中にいる人物を別の場所に移動させたり、背景の人物を
消去することができる
・GoogleIOでvtuberモーションキャプチャソリューションをオープンソース化
新しい MediaPipe モデルは、ウェブカメラから 478 個の顔ランドマーク + 52 個のblendshapesを予測し、ARKit 装備のアバターと互換性https://t.co/4cgFGyYqWm
結構重宝してるmediapipe(というかそのモデル達)
・ Googleの3D電話会議ブースプロジェクト
・GoogleとAdobeが手を組んで、ARクリエイター向けツールのAdobe Aeroがパワーアップ!
・ Stability AIは開発者向けの強力なテキストからアニメーションを生成するツール、「Stable Animation SDK」をリリース
研究開発
・MPT-7Bというオープンソース大規模言語モデルが公開
・「StableVicuna」をリリース
・音声生成AIのBarkがMITライセンスに
・テキストから3D人間モーションを検索するTML
・1兆トークンのテキストとコードで学習された67億パラメータ言語モデル「MPT(MosaicML Pretrained Transformer)」が発表
・商用利用可能な複数の言語モデル「RedPajama-INCITE」が発表
・食べログ、ChatGPTプラグインの提供を開始
・気づいたらChatGPT pluginかなり増えてた
(スレッドに続く)
・RWKV LangChainのノートブックが追加されてる
・賞金総額100万ドルの言語モデルコンペ
評価方法は、モデルを数百万人のユーザーに直接配布して測定するとのこと
組織票大丈夫やろかと思ったけど、ペイしないか
・プロンプトから3Dモデルを作るShap-E
・テクスチャなしCGからControlNetで生成の検証
・LLM Studio
・ Metaがテキスト、音声、ビジュアル、温度、動きなど様々な情報を同時に取り入れるAIモデルを開発
・ワンショットでセグメンテーションのチューニングしてるけどま?
論文: https://t.co/FKLpNDxWu5
huggingface: https://t.co/DdEaWMYSPt
GitHub: https://t.co/LtTYgbTt0X https://t.co/zk1TFRM2yg
・言語モデルで言語モデル動作説明生成・スコアリング
-GPT-4を使って別の言語モデルのニューロンの動作説明を生成、
スコアリング
-アライメント研究に対する3つ目のアプローチ
-アライメント研究の作業そのものを自動化することの一部
・ Google Colab で ImageBind を試す|npaka @npaka123 #note https://t.co/OpAZNIQZBq
・米IBM、AIとデータの新基盤「watsonx」を発表
・コードネーム「Burnham」
-Amazonは、ChatGPTのような機能を持ち、周囲の状況をより多く
理解する新型ホームロボットを密かに開発中
-理解したことについてQ&Aで対話し、それに基づいて適切な行動を
取ることが可能
-例えば、「Burnham」に鍵の置き場所を聞いたりできるそう
・ GCP AIモデル (bison, gecko) の使用料金
・ GCP AIモデルに関して
・Gemini
Google DeepMindの次世代マルチモーダル基盤モデル
・PaLM API
・Vertex AI に 3 つの新しいモデルを導入
・Imagen: 画像の生成とカスタマイズを強化
・ Codey: コード生成を支援することで、アプリケーションをより迅速に
構築できるように
・音声モデルChirp: 100 以上の言語で音声テキスト変換を #GoogleIO
・Google Cloud 向けの Duet AI
コンテキストに応じたコード補完を支援し、リアルタイムで関数を生成し、コード ベースに合わせて調整された提案を提供し、コードレビューを支援
#GoogleIO
・PaLM API
PaLM 2 を利用し、Firebase や Colab などの Google デベロッパーツールに統合 #GoogleIO
・今回発表された機能含め、様々な新しいAIプロダクトの早期テスターになれるLabs
1/Search Labs(新しい検索)
2/DuetAI for Google workspace(生成AI)
3/project tailwind(AIノートブック)
4/MusicLM(音楽生成)
https://t.co/NHFpTlKy3x #GoogleIO
・2/DuetAI for Google workspace(生成AI)
・3/project tailwind(AIノートブック)
・4/MusicLM(音楽生成)
・ PaLM 2のテクニカルレポート
・グーグルが最先端の汎用言語モデル「PaLM2」を発表
・ Stable Diffusion AI Deepfake
・言語モデル開発のcohereAI
10言語のWikipediaの埋め込みベクトル9400万個をオープンソースで公開してくれてるとのこと。
あと、より最適に使うためのlangchainのContextual CompressionやcohereAIのrerankモデルに関してスレッドで説明してくれてる
・huggingfaceより、マルチモーダルエージェントAPIの公開
-テキスト、オーディオ、画像、動画、時系列など、10万以上のHFモデル
(stable diffusion, whisper, OpenAssistant...)を、コマンドに基づいて
自動的にチェーンできる
-オープンソース
-ローカルで動作可能
・v4.29.0: Transformers Agents, SAM, RWKV, FocalNet, OpenLLaMa
・フルスクラッチで作る画像生成AI
・Claude のコンテキストウィンドウが9Kから100Kトークンに拡張
・Allen AI研究所が、オープンな言語モデルAI2 OLMo(Open Language Model)の作成に乗り出すことを発表
-700億パラメータ
-2024年初頭の完成を予定