
【9/30-10/6】生成AI活用事例/研究開発-Weeklyまとめ
今週のAIに関する活用事例や研究開発情報の備忘録記事です。
活用事例
・AIトレーニングモデルが数千人の有名作家の本を含む約20万タイトルを分析
AIのトレーニングモデルを分析したら数千人の有名作家の本を含む約20万タイトルが確認されるも、トレーニングに使われたスティーヴン・キングは「AIを恐れていない」と発言https://t.co/Y1RpMffUZU
— GIGAZINE(ギガジン) (@gigazine) October 1, 2023
・AIホリエモン、北九州のFMラジオ「CROSS FM」の代表取締役会長に就任「AIホリエモン」がアナウンサーに 北九州のFMラジオ「CROSS FM」代表取締役会長に堀江氏就任
・シャオミの四足歩行ロボットが特設ステージでパフォーマンス
https://twitter.com/YamayaT/status/1708255348489126337
・Azure OpenAIサービスがGPT-4やGPT-4-32kを全ユーザーに提供開始
Azure OpenAIサービスで、GPT-4やGPT-4-32kが全ユーザーに利用可能に!
— daka | Microsoft | Startups (@daiki15036604) October 1, 2023
アクセスリクエスト不要👍
また、GPT-3.5 Turbo Instructもサポート開始#OpenAI #Azurehttps://t.co/FYvxBNI87K
・現実世界での情報を保存・サポートするAIウェアラブルデバイス
pendant: 現実世界で話し、聞いた内容を保存し、サポートするAIウェアラブルデバイス
PCなどのデバイス上で、見たり、話したり、聞いたりしたことを保存し、サポートするAIのRewindより
Introducing Rewind Pendant - a wearable that captures what you say and hear in the real world!
— Dan Siroker (@dsiroker) October 2, 2023
⏪ Rewind powered by truly everything you’ve seen, said, or heard
🤖 Summarize and ask any question using AI
🔒 Private by design
Learn more & preorder: https://t.co/UPqACrlzej pic.twitter.com/1qwjto3OGT
・小型音響ロボット群が特定の人物の声を消す・聞くことができる
囲いなしでその場所だけ“防音化” 特定の人物の声だけを“消す・聞く”ができる小型音響ロボット群 https://t.co/vc44zyQp6J 机上でマイクスピーカロボ複数が自律で散らばり部屋全体を収録,音分離。複数話す部屋で一部のみ音を消すミュート領域生成。そこだけの人たちのみが聞こえるスピーチ領域生成が可 pic.twitter.com/jI646Jducq
— Seamless (@shiropen2) October 2, 2023
・JPモルガン・チェースCEO、AI活用で週3日半勤務を予測
米銀JPモルガン・チェースのジェイミー・ダイモンCEO、AI活用で次世代は「週3日半勤務」に-リスクも指摘
‐同行ではAIを既に数千人の従業員が活用
‐ブルームバーグテレビジョンとのインタビューで、「彼らは恐らく週3日半の勤務になるだろう」と話す
・"Coperni Spring Summer 2024 ShowでHumaneのAIピンがランウェイに登場"
👀 @Humane’s AI Pin on the runway at Coperni Spring Summer 2024 Show at #Paris Fashion Week#pfw #coperni #humane #fashion #wearabletech
— Dr. Helen Papagiannis, Ph.D. (@ARstories) September 29, 2023
📱As seen via Lucienpages Livestream on IG pic.twitter.com/8lnPTC9yAQ
・Humaneの「Ai Pin」がパリのランウェイでデビュー
サム・アルトマンも出資するHumaneの「Ai Pin」がパリのランウェイでデビュー
‐11月9日に開催されるイベントで正式発表されることが確認
‐しかし、その間に、パリのファッションショーでこの端末が登場
(他動画などはスレッドに)
サム・アルトマンも出資するHumaneの「Ai Pin」がパリのランウェイでデビュー
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) October 3, 2023
- 11月9日に開催されるイベントで正式発表されることが確認
- しかし、その間に、パリのファッションショーでこの端末が登場
(他動画などはスレッドに)https://t.co/utB3h7lMc2 pic.twitter.com/SRlumzBgsa
・アマゾン、AIを活用したチャット機能で検索体験を改善
プロジェクト・ナイルの内幕:オンラインショッピングのあり方を変える、アマゾンのAI搭載極秘計画。
‐アマゾンはAIを活用したチャット機能で検索体験の一新を計画
‐ある経営幹部は、AIを買い物客の好みを熟知した店頭販売員のような存在にしたいと考えている。
・グーグル共同創業者、AIモデル「ジェミニ」に取り組む
グーグル共同創業者セルゲイ・ブリンが、同社のAI事業と到来する「テクノロジー革命」を誇示するため、珍しく全員参加の会議に出席
‐セルゲイ・ブリンはグーグルの次期AIモデル「ジェミニ」に取り組んでいる。
・Meta、AI学習にソーシャルメディアを活用
Metaは、AI学習にインスタやFBを利用していると述べた
‐プライベートなメッセージや投稿は対象外
・3Dモデルを低解像度で撮影し、AI変換で高解像度アニメにすることが可能になりました
テスト制作した3Dモデルを低解像度で撮影して高解像度アニメにm2m
— TASUKU2023 (@TASUKU2023) October 3, 2023
技術の進歩でちらつきがほぼない状態に出来ました
1カット目 元動画
2カット目 AI変換
3カット目 AI変換v2(ちらつきなし)
どんどん作っていきたい~~~💪 pic.twitter.com/YEYUSwlIlZ
・ストーリーボードが物語性を持ち、複数場面を生成できるようになりました
デザイナーのみなさん、
— しょーてぃー/Experience Designer (@shoty_k2) October 3, 2023
お待たせしました。
ストーリーボードを物語性を担保しつつ、一発で複数場面を生成できるようになったので、ご自身のお仕事にご活用ください。 https://t.co/IZu7qOKSxW pic.twitter.com/WpZbAYtlWf
・サービス価値と機能要件の定義と設計
続きましては...
— しょーてぃー/Experience Designer (@shoty_k2) October 3, 2023
サービス提供価値の定義、デザインコンセプトの作成、ユーザーストーリーからの機能要件抽出、OOUIモデリング→画面生成用のプロンプト化 https://t.co/DzfSo0e8Xs pic.twitter.com/zmUXPcF5MM
・コンサルティング会社の資料が無料で閲覧可能
これ凄すぎました・・・🤣
— もりぞー (@englishinform) October 2, 2023
マッキンゼー、ボスコン、ローランドベルガーなどのコンサルティング会社が作成した資料が無料で閲覧できます。
1/ マッキンゼー
中小企業のAI活用に関する調査報告書。 https://t.co/eBeGpAteAX
2/ ボストン・コンサルティング・グループ… pic.twitter.com/RLACBMRK4z
・「ELYZAやLlama2-70Bを無料で使えるAPIプラットフォーム、Fireworks.aiが超高速でコードも書ける」
ELYZAやLlama2-70Bが無料&爆速で使えるAPIプラットフォーム、https://t.co/hkyfm1SuMP。
— さいぴ𝕏 / Trippy Inc.🦜 (@31pi_) October 4, 2023
7Bで2秒、70Bでも7秒で生成される。
コードも書ける。
ありえん速いのでオススメ。
超高速&格安LLMプラットフォーム「https://t.co/hkyfm1SuMP」に日本語モデルが追加されたよ #note https://t.co/mfUFVtxEV6 pic.twitter.com/Cc7BhZwx7p
・AI広告による女性ユーザーの爆増
AI広告で爆増したのは女性ユーザーです。運営でも想定外でした。 https://t.co/iB6FCDxKng
— オタ恋【公式】 (@otakoi_jp) October 4, 2023
・デザイン生成の進化に期待
下2枚とか、服のシワや角度も考慮して生成されてる
各種デザイン生成で、文字がボトルネックになっていた分野がどうなるのか楽しみ
AI画像生成サービスでテキストを生成しにくい問題を解決しているのがIdeogram。
— Tetsuro Miyatake (@tmiyatake1) October 4, 2023
直近のDALL-EやBing画像生成ツールなども徐々にこの問題を解決している。https://t.co/xiigXuEJPv pic.twitter.com/oeLf9rJGlZ
・ChatGPTやGPT-4を使っていない人は自身の人生を悔い改めるべき
孫さん「ChatGPTやGPT-4を日常で使っている人、手を挙げて」
— ZoeP@AIドル・なぎさプロデューサー (@qiaZoe) October 4, 2023
会場で10%弱ぐらいが手を上げる
孫さん「今手を挙げなかった人は、、自身の人生を悔い改めた方がいい」#SoftBankWorld
・データアノテーションの下請け業者のツリー構造
データアノテーション下請けツリー構造
【こぼれ話】AIが盛り上がって数年の中国で、ラベル付けの作業員から独立して起業した中小企業が多数登場し、中間マージンが多数発生して末端の所得が安くなっているという話。最近の生成系AIのラベル付けの現場では多くの学生を雇ってはすぐやめていくのを繰り返しているとかhttps://t.co/QXh2BEcvF2 pic.twitter.com/Wof120fbdO
— 36Kr Japan@中国テック・スタートアップ専門メディア (@36krJ) October 3, 2023
・EC内のチャットボットサービスが他分野にも対応可能
EC内のチャットボットサービスがショッピング以外も対応できるとのこと
ショッピングという対話理由から、さらに他分野にも広げられたら嬉しいやろなー
【こぼれ話】ECの淘宝のアプリにAIによる応答サービス「淘宝問問」がリリースされます。これはショッピングのサポートにとどまらず様々な日常の問いに答えるものです。ちなみにタイトルの「哈基米」はハキミと読み、日本語のはちみつ、つまり甘いものという流行語だそうですhttps://t.co/czkmQZkhGP pic.twitter.com/vy9UmFgpNv
— 36Kr Japan@中国テック・スタートアップ専門メディア (@36krJ) October 4, 2023
・コンテンツのフォーマット作業が顧客の利便性向上に貢献
とりわけ、顧客の利便性の向上につながったのは、自身のアイデアを指定のフォーマットに書き落とす作業支援
コンテンツを指定の状態に対応させる作業全般ありそう
特許は専門家にとっても時に複雑難解な文章だという。理解するのがとても難しい特許をAIを使用し、特許検索・分析ツールを提供しているのがPatSnapだ。共同創業者でCMOのGuan Dian氏に話を聞きました。Thank you! @PatSnap @guandian0527 https://t.co/XxHOHtheKV
— TECHBLITZ テックブリッツ (@TECHBLITZ_JP) October 4, 2023
・自動化AIサービスInduced AIが$2.3M調達、ブラウザー上の動きを読み取るワークフローの真似を実現
ブラウザー上の動きを読み取って人間が行うワークフローを真似でいる自動化AIサービスInduced AIが$2.3M調達を発表。
— Tetsuro Miyatake (@tmiyatake1) October 4, 2023
自分が行ったタスクの動画をアップして、それを説明する仕組みとなる。
APIがなくても出来るのは良い。https://t.co/Hz4wosulKd pic.twitter.com/NON1ip4r0A
・Fully Connected 2023 Tokyoカンファレンスの講演タイトル・概要が公開されました
来週10/11(水)のFully Connected 2023 Tokyoカンファレンスの講演タイトル・概要が公開されてますね。
— Takuya Akiba (@iwiwi) October 4, 2023
私は「LLMの開発は難しい?簡単?Stability AIの現場から」というタイトルで講演させて頂きます。よろしくお願いします〜。https://t.co/MyT3DFdIkv pic.twitter.com/AHhxs0djmz
・RunwayとCanvaが提携し、AI動画生成技術を全世界のCanvaユーザーに提供開始
🎨【速報】AI動画生成のRunwayとデザインツールCanvaが提携:AI動画生成技術を全世界のCanvaユーザーへ
— ChatGPT研究所 (@ctgptlb) October 4, 2023
RunwayがCanvaとの提携を発表し、RunwayのAI動画生成技術を全世界のCanvaユーザーに提供開始したことを発表しました。
主な注目点:
・Gen-2の全機能がCanvaの新しいMagic… pic.twitter.com/E6es3SWClc
・CanvaがAIデザインプラットフォームMagic Studioをリリース
CanvaがAIデザインプラットフォームMagic Studioをリリース
‐Magic Switch: コンテンツをブログ、SNS投稿など用に自動変換
‐Magic Media: 動画生成を追加
‐Magic Grab: 任意の被写体を自動的に分離し、編集、位置/サイズ変更可能
‐Magic Expand: 画像を枠外に拡大
など
・Walmart、AIを活用したパーソナライズされた商品レコメンドを提供予定
Walmartが顧客向けにAI生成技術を活用したショッピングアシスタントを提供する予定。
— Tetsuro Miyatake (@tmiyatake1) October 5, 2023
ユーザーのユースケースに合わせた、よりパーソナライズされた商品レコメンドを出せる。https://t.co/wwzuQiAqJo pic.twitter.com/HRcKqd7oYN
・AIによるゲームキャラクターの顔の修正を試す
AIの力でゲームキャラクターを
— 3D人-3dnchu- CG情報ブログ (@ymt3d) October 4, 2023
リアルな顔に置き換え!
「We try Fixing Faces in Video Games」
おもしろ動画やVFX評論でもお馴染み
CorridorDigitalによる検証動画が公開!#corridordigital #FaceMorph
🔽URLはリプ欄🔽 pic.twitter.com/eRs2w0Op08
・GoogleがAssistant with Bardを発表
GoogleがアシスタントのAssistant with Bardを発表
‐旅行計画、メールの受信箱から詳細を探す、食料品リストを作成など
‐GmailやDocsなどの一部と統合し、情報の検索や要約を支援
‐写真にキャプションをつけるサポートも
‐AndroidとiOSに数ヶ月のうちに登場
・Pixel 8と8 ProのAI機能による画像と音声の編集能力
Pixel 8と8 ProのAI機能
‐Magic Editor: 風景を変えたり、邪魔なものを取り除いたり、画像内の人物を移動させたり
‐Audio Magic Eraser: 動画内の邪魔な音を最小限に
‐Best Take: 似た画像を何枚も撮ったとき、それぞれの被写体に最適な顔を選び統合
・依存関係グラフを利用してリポジトリ全体を生成する際のチェックが大変依存関係グラフを利用しリポジトリ全体も生成と。
すごい!と同時にチェックも大変そう。
‐「gpt-4-32kモデル」を活用
‐テスト対象となった6つのリポジトリのうち、CodePlanを使用した5つのリポジトリがコードエラーなく正確に動作
リポジトリ全体のコーディング作業を一気に自動編集する生成AI「CodePlan」 米Microsoftが開発 https://t.co/iPRHsP7cgq LLMのコード生成だけでなくリポジトリ全体,どの部分が他の部分にどのような影響を与えるかを調査し計画を立て順に修正。グラフ構造を利用。C#のパッケージ新バージョン移行で実験 pic.twitter.com/rNbpgRr50a
— Seamless (@shiropen2) October 6, 2023
・パーソナライズAIがオンライン消費者サービス市場を変革する
a16zによる、パーソナライズAIがオンライン消費者サービスの巨大市場を切り開く理由
‐デジタルサービスと対面サービスの間に価格差がある市場で特に優位
‐ファイナンシャルアドバイザー、リーガルサポート、フィットネストレーニング、インテリアデザイン、などなど
・サム・アルトマンはOpenAIの株式を一株も持っていない
今週のAll-inから。サム・アルトマンがOpenAIの株式を一株も持っていないカラクリをDavid Saksが推理してる
— 久保田 雅也@ベンチャーキャピタル (@kubotamas) September 30, 2023
- OpenAIのこれまでの調達ラウンドは投資簿価の10-100倍で償還するコールオプションをOpenAIが保有する優先株
-… pic.twitter.com/1lQgYrToAw
・2023年上半期、AI生成技術スタートアップへの出資額が$14.1Bに達する
2023年上半期だけでAI生成技術関連のスタートアップに$14.1Bの出資額があった。
— Tetsuro Miyatake (@tmiyatake1) October 2, 2023
下半期でもすでに何社か大型案件があったが、ハイプサイクルがどのタイミングで落ち着くのかは気になる。 pic.twitter.com/ulIdMAWdXn
・日本企業の72%が生成AIの利用禁止
日本企業の72%が「生成AIの利用禁止」という衝撃 ChatGPTに「積極的な企業・否定的な企業」の決定差(東洋経済オンライン) - Yahoo!ファイナンス https://t.co/vngv2KkZ3r
— AI 人工知能 ニュース (@ai_news_jp) October 2, 2023
・VisaがAI企業への1億ドル投資を計上
Visa、生成AI企業への投資に1億ドルを計上
・マイクロソフトがOpenAIに賭ける理由
マイクロソフトがOpenAIに賭けた理由
‐マイクロソフトのサティア・ナデラCEOは、AIを推進するために会社を再編成
‐Azureクラウドコンピューティング部門がOpenAIのスーパーコンピューターに12億ドルを支出
‐マイクロソフトの研究者はOpenAIをサポートする前は懐疑的
・欧州中央銀行、AIを利用した新ツールの実験中
欧州中央銀行が新たなツールで実験中
‐AIは、政策立案者がインフレを理解し、大手金融機関を規制するのに役立つかもしれない、と中央銀行は述べた
・BingがGoogleに対抗するためにAIを活用
「数十億人が使うAI」を目指すMeta Googleの“次”を固めるBing【西田宗千佳のイマトミライ】-Impress Watch https://t.co/KlM0jYZP1Z
— AI 人工知能 ニュース (@ai_news_jp) October 2, 2023
・渋谷と六本木でメルカリの生成AIによるCMが流れている
【ゆる募】昨日から渋谷のスクランブル交差点のOOHに、生成AIで作ったメルカリのCMを流しています。10/16から六本木でも流れる予定です。僕はまだ観れてないので、もし流れてるの見かけた人は教えてください!
— Yuki Ishikawa@メルカリ (@maze_rapid) October 2, 2023
内容ヒント:ハロウィーン pic.twitter.com/pbFT2GxRuo
研究開発
・Microsoftが画像対応の生成AI「DeepSpeed-VisualChat」を開発
米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発 https://t.co/AgeVj4FsDt Microsoftによる複数のテキストと画像入力をサポートするオープンソースLLMモデル。MiniGPT4を基盤にQWen-VLやLLaMa-2を採用。 pic.twitter.com/qo3dZAb0mr
— Seamless (@shiropen2) September 29, 2023
・英語向けの小さい3Bモデルが7Bモデルに迫る性能を達成
英語向けLLM「StableLM-3B-4E1T」が公開されました。小さい3Bモデルをじっくり計4Tトークン学習した結果、ベンチマークで多くの7Bモデルに迫る性能のモデルになったみたいです、すごい〜https://t.co/dRYeONkCRc 詳細なレポートもあります https://t.co/VlN2GV8dSh pic.twitter.com/ntN7IPWPDa
— Takuya Akiba (@iwiwi) September 30, 2023
・LLMによる学習データの影響はランダムである
LLMで"A is B"が学習データに含まれている場合でもそれだけから"B is A"を答えられない、尤度も殆どランダムに変わらない。同様の結果は https://t.co/WEZugsyp5Xでも報告。(商用サービスでは両方学習データに入っている or 対策しており問題は見つかりにくい)。https://t.co/905rQhWBSN
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) October 1, 2023
・Googleが画像補完のRealfillを発表
Googleさんより、画像補完のRealfill
‐シーンの複数枚画像のみ
‐視点、照明条件、画像スタイルなどが異なる画像を使用可能
・ゲームシナリオを利用した学習用データセット公開プロジェクト開始
ゲームシナリオから作成した、学習用データセット公開プロジェクトを始めました|松xRのnote #note https://t.co/mt0ykBmFCg
— 松xR (@matsu_vr) October 1, 2023
・ViT + 自己教師あり学習で画像表現学習をする際には、計算用トークンの追加が重要
ViT + 自己教師あり学習で画像表現学習をする場合、背景にある一部トークンが想定外に大きなノルムを持ち、それは画像全体情報を集約するトークンとして利用されていることがわかった。明示的に、計算用トークンを追加することで、きれいな特徴マップ/画像表現が獲得できるhttps://t.co/KnktLpoYo8
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) October 1, 2023
・10倍高速な3Dモデル生成AI「DreamGaussian」と記事量産AI「InternLM-XComposer」を解説
10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説(生成AIウィークリー) https://t.co/3eXiIDJSXm 他にはOpenAI「CLIP」真似て超えた文章画像理解の「MetaCLIP」添付映像は写真1枚から2分で3Dモデルを生成 「DreamGaussian」 pic.twitter.com/HvEfflqAl8
— Seamless (@shiropen2) October 1, 2023
・AppleのJohn Giannandreaが次世代検索エンジンの開発を進める
AppleのAI/ML担当者のJohn GiannandreaはAppleアプリ用の次世代検索エンジン(コードネーム:Pegasus)を開発していると噂されてる。
— Tetsuro Miyatake (@tmiyatake1) October 2, 2023
既にSpotlightなどで自社検索エンジンを活用してるが、今後はアプリストアなどにも導入され、AI生成技術を組み込むことが予想されてる。https://t.co/hqYA70AGAC pic.twitter.com/XxXQM22KKw
・マイクロソフトの研究者がGPT-4Vの能力を詳細に分析
マイクロソフトの研究者が、画像を入力可能なGPT-4Vについて定性的な分析を発表。全166ページ
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) October 2, 2023
視覚理解、視覚記述、マルチモーダル知識、常識、シーンテキスト理解、文書推論、コーディング、時間的推論、抽象推論、感情理解などを調査。様々な場面で印象的な人レベルの能力https://t.co/ZK7pX7za7R pic.twitter.com/xGpd2jRCIe
・RLHFにおける課題と既存研究のまとめ
RLHFについての最新のサーベイ論文で、1. データ作成 2. 報酬モデル 3. 方策の学習 について現状の課題とそれらに対する既存研究をまとめているhttps://t.co/5o4ks8U1us
— ELYZA, Inc. (@ELYZA_inc) October 2, 2023
✏️課題にぶつかった際に、その課題を論じている論文にすぐにアクセスする目次のように使えそうです pic.twitter.com/hzJxTZ2Fa7
・望ましくない知識の修正技術、ICCV2023で新たな手法が発見される
画像生成モデルが持ってしまっている「望ましくない知識」を事後的に修正する技術について、単純かつ面白い手法を2つほどICCV2023で見つけました。1つは特定の概念を忘れさせるもの(左図)、もう1つは暗黙知(≒偏見?)を増幅/低減するもの(右図)です。 pic.twitter.com/5MQmVXS6kk
— mi141 (@mi141) October 2, 2023
・RAG LLMアプリの最適化の秘訣
RAGの精度やパフォーマンスをあげるためのノウハウ記事。容量vs精度の観点からEmbeddingの作り方を変える話や社内用語Fine Tuningの話が面白かった
— 𝕊hinichi 𝕋akaŷanagi (@_stakaya) October 1, 2023
Secrets to Optimizing RAG LLM Apps for Better Accuracy, Performance and Lower Cost! by @madhukarkumar https://t.co/8ZWWLehsNU
・Stable LM 3Bをリリース
現在のモデルは無料で使用でき、オープンソースの CC-By-SA 4.0 ライセンスの下でリリース
🎉携帯デジタル機器上で動作するように設計されたコンパクトな言語モデル Stable LM 3B をリリースしました!🎉
— Stability AI 日本公式 (@StabilityAI_JP) October 2, 2023
詳しくはこちらをご参照ください💁https://t.co/wDYYvxEeVc pic.twitter.com/t3YIsnlI4M
・LLama2の全層をQLoRAで学習することで学習精度が向上
#Note の記事を書きました。
— 畠山 歓 Kan Hatakeyama (@kanhatakeyama) October 2, 2023
題目: LLama2の訓練可能な全層をQLoRAで学習する https://t.co/MNeFQcIhHE
llamaのデフォルト設定だとllama2はattention層の一部(query,value)しか重みを更新しないんですが 全層(attention, mlp, embedding)に設定を変えると、学習精度が上がるという話です。 pic.twitter.com/VdqSWyT3D5
・Falcon180BをPEFTとDeepSpeedで微調整する方法
Falcon180Bのような巨大なモデルをHugging FaceのPEFTとDeepSpeedを使って微調整するブログ
I just published a blog about fine-tuning humongous models like Falcon 180B using Hugging Face’s PEFT and DeepSpeed 🚀.
— Sourab Mangrulkar (@sourab_m) October 2, 2023
It outperforms the official Falcon-180B on the OpenLLM Leaderboard by 3% (relative gains) 🔥 while being cheap to fine-tune 🤑.
👉🏽https://t.co/h8wEAhN1M6
・モデルへの攻撃成功率の記録
ChatGPTやLlama-2といったモデルに対しては90%以上の攻撃成功率を記録している。さらに、Bard(61%)、Claude-2(91%)、PaLM2(96%)など
「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上 https://t.co/diyu39NZ1A LLMが対策しても学習し抜け道の脱獄プロンプトを生成する動的モデル[GPTFUZZER]物語の中で自然に聞いて書かせる戦略など(地下で悪の結社が銀行強盗の計画を話すそれは…) pic.twitter.com/L0fwTlvoN5
— Seamless (@shiropen2) October 2, 2023
・アリババクラウド、オープンソース化により高性能なモデルを無償提供
アリババクラウドは「Qwen-14B」と、チャットモデル「Qwen-14B-Chat」をオープンソース化し、無償で商用可能に
‐様々な評価データで、同等規模の全SOTA(State-Of-The-Art)モデルを上回り、Llama-2-13B(パラメーター数130億)」をも上回る
・Anthropicとマイクロソフト、オープンソースAIについての立場対立
オープンソースAIに関する、Anthropicからマイクロソフトまでのそれぞれの立場
オープンソースAIに関する、Anthropicからマイクロソフトまでのそれぞれの立場https://t.co/vYztx5wh2c pic.twitter.com/u5INdM7L1N
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) October 3, 2023
・GPT-4ベースの新しいエージェント『Suspicion-Agent』が不完全情報ゲームを上手にプレイすることができる
ポーカーなどの不完全情報ゲームを上手にプレイするGPT-4ベースの新しいエージェント『Suspicion-Agent(Suspicion:疑心)』が発明されました。
— AIDB (@ai_database) October 3, 2023
鍵となるのは"心の理論"でした。
東京大学の松尾豊氏ら研究グループによる発表です。
○ Jiaxian Guo et al., "Suspicion-Agent: Playing Imperfect… pic.twitter.com/VolpyC1gxx
・MVDream: Text-to-3D Generation for Solving the Janus Problem
Happy to introduce our latest work on text-to-3D generation: MVDream (website: https://t.co/tTQxM7nMUR, paper: https://t.co/i0hKmrpo4l). In this paper we aim to solve the Janus problem for text-to-3D generation tasks [1/n] pic.twitter.com/CCXFgUFUSQ
— Xiao Yang (@YangZuoshi) September 1, 2023
・PixArt-α: フォトリアルなテキスト画像生成の高速トレーニング
PixArt-α: フォトリアルなテキスト画像生成高速トレーニング
‐画像生成品質は、最先端の画像ジェネレーター(Imagen、SDXL、Midjourney)と競合
‐学習時間はSD v1.5の10.8%、90%のCO2排出量を削減
プロジェクト: https://pixart-alpha.github.io
論文: https://arxiv.org/abs/2310.00426
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
— Aran Komatsuzaki (@arankomatsuzaki) October 3, 2023
- Competitive with SotA image generators (e.g., SDXL, Midjourney)
- Only takes 10.8% of Stable Diffusion v1.5's training time
proj: https://t.co/7I1WZVW5Qp
abs: https://t.co/DBs3ojfiMB pic.twitter.com/Wv0KPbcMN8
・LLMのロールプレイング能力を向上するためのフレームワーク
RoleLLM: LLMのロールプレイング能力をベンチマークし、引き出し、強化するためのフレームワーク
(1)役割プロファイルの構築
(2)役割に特化した知識とエピソード記憶を抽出することを目的とした文脈に基づく指示生成(Context-Instruct)
(3)主に話し方の模倣を目的としたGPTを用いた役割プロンプティング(RoleGPT)
(4)既存のオープンソースLLMを強化するためにContext-InstructとRoleGPTによって生成されたデータを利用する役割条件付きインストラクションチューニング(RoCIT)
論文: https://arxiv.org/abs/2310.00746
github:https://github.com/InteractiveNLP-Team/RoleLLM-public
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
— Aran Komatsuzaki (@arankomatsuzaki) October 3, 2023
Presents a role-playing framework of data construction and evaluation
abs: https://t.co/7htK5loaH7
repo: https://t.co/vmkmNv3SW6 pic.twitter.com/9fHPvatSXI
・言語モデルがデータから自己改善を学習
言語モデルがデータから自己改善を暗黙的に学習できるように
Enable Language Models to Implicitly Learn Self-Improvement From Data
— AK (@_akhaliq) October 3, 2023
paper page: https://t.co/FHASpcDUer
Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies… pic.twitter.com/UVhmYRJGrP
・1つのモデルで拡散、GAN、生成モデルを打ち破る
- 最新の拡散モデル(EDM)
— mi141 (@mi141) October 3, 2023
- 最新のGAN(StyleGAN-XL)
- 最新の生成モデル(CM: consistency models)
これら全てを打ち破る性能を1回の推論で達成するモデルの提案です。弊部署に来たつよつよインターンのお仕事で、雰囲気としてはCMと拡散モデルを合体してGANでぐつぐつ煮た感じです(?) https://t.co/7bshUE7oqH pic.twitter.com/tP21LbNwtN
・ELYZAが産総研の生成AI開発支援プログラムに採択され、ABCIの計算能力を利用して国産の大規模言語モデルの開発を加速
ELYZAが産総研の生成AI開発支援プログラムに新たに採択されたことについて、西村経済産業大臣より発表がありました。AI用スパコン「ABCI」の計算能力の約13%を一定期間独占的に割り当てていただきます。本計算資源も活かし、国産の大規模言語モデルの開発を加速させてまいります。 https://t.co/0A744FAFUP
— ELYZA, Inc. (@ELYZA_inc) October 3, 2023
・Google DeepMindが新しい自然言語指示可能なロボットモデルを発表
Google DeepMindが自然言語指示可能なRT-1,2モデルの学習データを33のラボと22の異なるロボットから収集(Open X-Embodimentデータセット、松尾研も参加の模様)し、大幅にスケールアップしたRT-X発表。
— bioshok(INFJ) (@bioshok3) October 3, 2023
RT-1-Xは、RT-1をタスク成功率で平均50%上回り、RT-2-XはRT-2の3倍。
データセットとRT-1-Xは公開 https://t.co/feY2Oyo6cJ pic.twitter.com/5cCfHkfbUa
・大規模言語モデルが類推推論を促進
類推を促すは面白い
類推推論としての大規模言語モデル
‐人間が新しい問題に取り組むために、関連する過去の経験から引き出す認知プロセスである類推推論に触発
‐関連する模範例やコンテキスト内の知識を自己生成するように言語モデルを促す
‐ゼロショットCoTなどを凌駕
論文:https://huggingface.co/papers/2310.01714
Large Language Models as Analogical Reasoners
— AK (@_akhaliq) October 4, 2023
paper page: https://t.co/aIQrifpWcL
Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we… pic.twitter.com/IFdDIOMtDd
・Hotshot-XL: AIテキストからGIFへのモデルがリリースされました
Hotshot-XL, an AI text-to-GIF model trained to work alongside Stable Diffusion XL@huggingface model: https://t.co/jGtUbfaOHE
— AK (@_akhaliq) October 3, 2023
github: https://t.co/yk62DBIiZN pic.twitter.com/xNqzLxuUbS
・事前学習済みモデルの融合における相互注意機構の効果と再学習コストの削減
事前学習済みの二つの同じサイズの基盤モデル(画像-テキストモデルとテキストモデル)を学習後に融合し、新たなモデルを作る。パラメータを混ぜる(平均とる)、concatする、相互注意機構(CA)を使ってお互い読み取る方法を比較し、CAが有効。再学習コストは事前学習の1% https://t.co/Su6uHTGMhg
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) October 3, 2023
・サイバーとゲーム・アニメのAI活用研究が進展
サイバー、ゲーム・アニメに生成AI活用へ 新組織で研究:日本経済新聞 https://t.co/eqg60dlwGy
— 長瀬慶重 (@lionbaby) October 4, 2023
・ゲームAI Labが新設されました
【ゲームAI Lab新設】
— サイバーエージェント 広報&IR (@CyberAgent_PR) October 4, 2023
AI Labとゲーム・エンターテインメント事業部共同で「ゲームAI Lab」を新設いたしました。
ゲーム生成AI技術の研究開発および社会実装に取り組み、ゲーム開発における新世代のワークフローとユーザー体験の構築を目指してまいりますhttps://t.co/qVDvoJrcOo…
・「Rekaが対話型AI「Yasa-1」を発表」
グーグルやMetaやNVIDIAなどにいた研究者たちが集まる企業「Reka」がテキストや画像、短いビデオ、音などを扱える対話型AI「Yasa-1」を発表。たった6ヶ月でゼロから学習
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) October 4, 2023
以前はAlphaStar、AlphaCode、Gopher、Bard、PaLM、PaLM-2、PaLI-X、ViT-22Bなどに関わった研究者たちhttps://t.co/DVIj7ijAp5
・PythonのOpenAIライブラリがv1.0へメジャーアップデート予定、Azureのサポート廃止予定も
PythonのOpenAIライブラリがv1.0へメジャーアップデート予定とのこと。
— ML_Bear (@MLBear2) October 5, 2023
パッと見、かなり使い方変わってるので対応が必要そう。あとAzureのサポート廃止予定らしい (詳細把握してませんすみません)
ベータ版は以下のコマンドで利用可能。
pip install --pre openai
GitHub: https://t.co/vvUjIuWkUe pic.twitter.com/X18cQWB5sz
・ユニバーサルオーディオ生成のためのオーディオ基盤モデル
UniAudio: ユニバーサルオーディオ生成に向けたオーディオ基盤モデル
UniAudio: An Audio Foundation Model Toward Universal Audio Generation
— Aran Komatsuzaki (@arankomatsuzaki) October 4, 2023
Achieves SotA or at least competitive results on most of 11 audio-based tasks
proj: https://t.co/8tgy1u20Zx
repo: https://t.co/gr1Oc41XGl
abs: https://t.co/Mki4viTo82 pic.twitter.com/vmzDmjWiva
・Luma AIがガウススプラッティングを使用したインタラクティブシーンをリリース
Luma AI releases Interactive Scenes built with Gaussian Splattinghttps://t.co/8B4sxBL5RR
— AK (@_akhaliq) October 4, 2023
Hyperefficient and fast rendering
Embed Anywhere: 8-20MB streaming files
Ultra High Quality offline NeRF renders & mesh exports pic.twitter.com/TreuWI2Wxs
・事実性向上のためのTransformerモデルの改善
LLMの事実性を改善するにあたり、事実的知識が必要なトークンの出力時にTransformerの深い層までトークン予測確率分布が変動する点に着目。最終層にかけて予測確率が大きく増加しているトークンを優先する処理を組み込み、TruthfulQAのような事実性が重要なタスクで性能向上https://t.co/eKu3mcD0L1 pic.twitter.com/F23qkKe2nt
— ELYZA, Inc. (@ELYZA_inc) October 4, 2023
・"Non-invasive Brain Recordings Decode Speech Perception"
`Decoding speech perception from non-invasive brain recordings`,
— Jean-Rémi King (@JeanRemiKing) October 5, 2023
led by the one an only @honualx
is just out in the latest issue of Nature Machine Intelligence:
- open-access paper: https://t.co/1jtpTezQzM
- full training code: https://t.co/Al2alBxeUC pic.twitter.com/imLxRjRQ6h
・NVIDIAの研究によるRAGとCWのパフォーマンス比較
NVIDIAよりRAGとContext Window (CW)のパフォーマンス比較論文。4K CWのLLM+RAGは、16K CWのLLMと同等、32K CWのLLaMA2-70B+RAGは長いContextのタスクにおいてGPT-3.5-turbo-16kより優れていると事を実証分析
— 𝕊hinichi 𝕋akaŷanagi (@_stakaya) October 5, 2023
RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELShttps://t.co/2kn4erDtfL
・GPT-4ベースの『Suspicion(疑心)-Agent』が不完全情報ゲームで上手にプレイすることを実証
ポーカーなど不完全情報ゲームを「心の理論」で上手にプレイするGPT-4ベースの『Suspicion(疑心)-Agent』松尾研など開発https://t.co/5gNFRducuv
— AIDB (@ai_database) October 5, 2023
こちらも極めて大きな反響があった研究報告です。
本分野全体に対する強い興味関心が寄せられています。
実験と結果の詳細を掲載しました。
・銀行強盗計画の自動生成モデルが存在する
「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上 https://t.co/diyu39NZ1A LLMが対策しても学習し抜け道の脱獄プロンプトを生成する動的モデル[GPTFUZZER]物語の中で自然に聞いて書かせる戦略など(地下で悪の結社が銀行強盗の計画を話すそれは…) pic.twitter.com/L0fwTlvoN5
— Seamless (@shiropen2) October 2, 2023
・Tencentから発表されたSeRumという文書画像からテキスト情報を抽出する新しいE2E手法について
昨日の #LayerX機械学習勉強会 では、ICCV 2023でTencentから発表されたSeRumという文書画像からテキスト情報を抽出する新しいE2E手法について紹介しました。
— shimacos (@nt_4o54) October 6, 2023
その他、in-context Learningを利用して既存のLLMで文書から情報を抽出する手法などについて紹介されました。https://t.co/7g3SpfNHNQ
・量子化されたLLMについて、一般的にLLMで発現するとされているin-context learning、chain-of-thought, instruction-followingといった能力がどの程度保てているかを検証した研究
量子化されたLLMについて、一般的にLLMで発現するとされているin-context learning、chain-of-thought, instruction-followingといった能力がどの程度保てているかを検証した研究。結果として4-bitまでの量子化であれば性能の劣化が見られないことを確認。https://t.co/nxjiR0pQdz pic.twitter.com/zhxaxDvF57
— ELYZA, Inc. (@ELYZA_inc) October 6, 2023
・LLM開発のためにMLOpsチームがやるべきこと
こちらも面白い
— 納村 聡仁 / Osamura Akinori (@akinoriosamura) October 6, 2023
LLM開発のためにMLOpsチームがやるべきこと | LayerX 採用情報 @LayerXcom https://t.co/XSovY3qPcf
・「モデルサイズを大きくするにつれてバッチサイズを大きく、learning rateを小さく」に関して
言語モデルの事前学習で「モデルサイズを大きくするにつれてバッチサイズを大きく、learning rateを小さく」というのが慣例になっているが、OpenAIのモデルでこれについて初めて言及したのがGPT-3で、gradient noise scaleという同社の先行研究による知見を反映したらしい。 pic.twitter.com/cdeT0z6HmA
— bilzard (@bilzrd) October 6, 2023
・AIに関する多数のデータを収集してまとめた報告書「AI index Report 2023」をarxivに公開
スタンフォード大学がAIに関する多数のデータを収集してまとめた報告書「AI index Report 2023」をarxivに公開(p.386)
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) October 6, 2023
AI業界では毎日多数のモデルやニュースが出てくるので、すでに古さを感じる部分もあるが、技術・法律・経済・環境・世論などの多角的なデータは議論で有益https://t.co/T1k73VlCyA pic.twitter.com/8XzSrFnNSB