[10/12~10/18] 生成AI Weekly News #58

2024年10月18日 16:51

今回も社内で話題になった生成AIに関するニュースをご紹介します。

プロダクト・サービス

Sana、超高速・高解像度の画像生成AI

NVIDIAやMIT、清華大学の研究チームが開発した画像生成AI「Sana」が発表されました。Sanaは最大4096×4096ピクセルの高解像度画像を数秒で生成できる革新的なモデルです。従来のモデルと比較して100倍以上高速な画像生成が可能で、低スペックのPCでも動作する点が特徴です。

NVIDIAとMITと中国の精華大学の研究者たちが作った最新の画像生成AI「Sana (0.6B、1.6B)」

最大4096 × 4096の解像度の画像を効率的に生成でき、性能はFlux-Devに近く、106倍高速。1024 × 1024だと約25倍高速で、Sana-0.6Bは16GBのラップトップGPUで生成に1秒かからないと主張https://t.co/wVLaGLbNWX pic.twitter.com/AF58XpE5aq
— 小猫遊りょう（たかにゃし・りょう） (@jaguring1) October 16, 2024

Perplexity 新機能、会社財務データ可視化と内部ナレッジ検索

Perplexity for Finance:

Real-time stock quotes. Historical earning reports. Industry peer comparisons. Detailed analysis of company financials. All with delightful UI.

Have fun researching the market! pic.twitter.com/BDx6SLQ9uk
— Perplexity (@perplexity_ai) October 15, 2024

Introducing Internal Knowledge Search (our most-requested Enterprise feature)!

For the first time, you can search through both your organization's files and the web simultaneously, with one product. pic.twitter.com/6uTb5Xiyvn
— Perplexity (@perplexity_ai) October 17, 2024

Nvidia、オープンソースのLLMをリリース

Llama-3.1-Nemotron-70B-Instruct は、ユーザークエリに対する LLM 生成応答の有用性を向上させるために NVIDIA によってカスタマイズされた大規模な言語モデルです。
（中略）
2024 年 10 月 1 日現在、このモデルは 3 つの自動アライメントベンチマークすべてで 1 位 (AlpacaEval 2 LC の検証済みタブ) であり、GPT-4o や Claude 3.5 Sonnet などの強力な最先端モデルを上回っています。

ChatGPT、Windows版デスクトップアプリをリリース

Today, ChatGPT Plus, Enterprise, Team, and Edu users can start testing an early version of the Windows desktop app.

Get faster access to ChatGPT on your PC with the Alt + Space shortcut.https://t.co/mv4ACwIhzA https://t.co/Ww6QvBfMnB pic.twitter.com/tkyodezZhv
— OpenAI (@OpenAI) October 17, 2024

Gemini、Imagen3による画像生成機能を追加

「Gemini」に、最新の画像生成モデル「Imagen3」が導入されました。この機能により、ユーザーは日本語を含む自然言語での指示で高品質な画像を生成できるようになりました。Imagen3は、写実的な風景からアート調の画像まで、多様なスタイルの画像生成が可能です。この機能はGemini、Gemini Advanced、Business、Enterpriseの全てのバージョンでご利用いただけます。

CoTracker

New AI research from Meta – CoTracker3 Simpler and Better Point Tracking by Pseudo-Labelling Real Videos.

More details ➡️ https://t.co/CUduYnp0sU
Demo on @huggingface ➡️ https://t.co/2BxvVrBk0e

Building on our previous work on CoTracker, this new model demonstrates impressive… pic.twitter.com/eQ2ZRNQDrn
— AI at Meta (@AIatMeta) October 16, 2024

Rotatable Vectors in Illustrator

Rotatable Vectors in Illustrator 😱pic.twitter.com/1krSVfUkZ6
— Illustrator Tricks (@AiTricks) October 17, 2024

ニュース

Amazon、原発事業に参入

アメリカのIT大手アマゾンが、次世代原子炉「小型モジュール炉」(SMR)の商用化を支援する契約を米企業2社と結んだことを発表しました。この動きは、生成AI技術の普及に伴うデータセンターの電力需要増加に対応するためのものです。アマゾンは、SMRの開発を手がける企業に約750億円の投資も行うことを明らかにしました。この取り組みは、2040年までに温室効果ガスの排出を実質ゼロにするというアマゾンの目標達成にも寄与すると考えられています。

↓ 合わせて読みたい

【AIの電力不足を補う】
マクロソフトと原子力発電所の所有者コンステレーションは、データセンターに電力を供給するため、閉鎖中のスリーマイル島原子力発電所を2028年までに再稼働。

計算量が勝負ということもあり、その根底の電力をどう確保するかに動くのか。凄い世界になってきた。#生成AI #AI https://t.co/2CxSKT4BY3
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) September 21, 2024

TSMC、7～9月の純利益は予想上回る－AI半導体ブーム続く

台湾の半導体大手TSMCが発表した2024年7-9月期の純利益は3253億台湾ドル（約1兆5100億円）となり、アナリスト予想の2993億台湾ドルを上回りました。この好調な業績は、モバイル業界の不振にもかかわらず、NVIDIAのAI半導体の堅調な販売に支えられています。TSMCは2024年の売上高見通しを上方修正し、約30%増を予想しています。

テスラの人型ロボット、Optimus

テスラが10月10日のイベントで人型ロボット「Optimus」を披露し、大きな注目を集めています。Optimusは会場内を歩き回り、人と流暢に会話したり、バーテンダーとして働く姿が公開されました。
しかし、一部の専門家からは実現可能性に疑問の声も上がっており、遠隔操作の可能性も指摘されています。

Hanging out and talking with @Tesla_Optimus pic.twitter.com/1htP7vWOwR
— Tesla Owners Silicon Valley (@teslaownersSV) October 11, 2024

Optimus make me a drink, please.

This is not wholly AI. A human is remote assisting.

Which means AI day next year where we will see how fast Optimus is learning. pic.twitter.com/CE2bEA2uQD
— Robert Scoble (@Scobleizer) October 11, 2024

トヨタ、米ボストン・ダイナミクスと提携　ロボに生成AI

Google Workspace、生成AIアシスタント機能が日本語に対応　GmailやGoogle ドライブ内の資料要約などが可能に

富士通、世界初の“偽情報検知システム”構築へ　NEC・NIIなど9者が協力　2025年度末の提供目指す

論文・技術系

Chat Completions API supports audio

テキストと画像を生成することに加えて、一部のモデルでは、プロンプトに対する音声応答を生成したり、音声入力を使用してモデルにプロンプトを出したりすることができます。音声入力にはテキストのみの場合よりも豊富なデータを含めることができるため、モデルは入力内のトーン、抑揚、その他のニュアンスを検出できます。

これらのオーディオ機能を使用すると、次のことが可能になります。
- テキスト本文の音声要約を生成する（テキスト入力、音声出力）
- 録音（音声入力、テキスト出力）の感情分析を実行する
- モデルとの非同期音声対話（オーディオ入力、オーディオ出力）

🔊 The Chat Completions API supports audio now. Pass text or audio inputs, then receive responses in text, audio, or both. https://t.co/468QclBSBU pic.twitter.com/uUFrJa9kZH
— OpenAI Developers (@OpenAIDevs) October 17, 2024

https://platform.openai.com/docs/guides/audio

Swarm

OpenAIから新たなフレームワークが公開されました。

Swarmは、エージェントの調整と実行を軽量で、制御性が高く、テストしやすいものにすることに重点を置いています。

OpenAI's new opensource AI framework for building multi-agent LLM apps. pic.twitter.com/ZF77C6cJuL
— Shubham Saboo (@Saboo_Shubham_) October 12, 2024

[論文] 「熟練者によるプロンプトエンジニアリングの流れ」

『プロンプトレポート』では、用語、・手法・マルチモーダル・エージェントなどを網羅した上で、https://t.co/gH4Oi6bNrG
最終章「熟練者によるプロンプトエンジニアリングの流れ」で実践的スキルを確認することができます。
OpenAIやスタンフォード大、Microsoftなどの共著では貴重なテーマ。…
— AIDB (@ai_database) October 13, 2024

[論文]ペルソナ設定を与えても、LLMの性能は基本的に向上しない

「あなたは〇〇です」などのペルソナ設定を与えても、LLMの性能は基本的に向上しないとの実験結果が報告されています。
一般的な考え方とは異なる知見です。https://t.co/jesnAjr36L
カーネギーメロン大学やスタンフォード大学などの研究者らが発表。…
— AIDB (@ai_database) October 11, 2024

その他ニュース

“AIピザ”爆誕　ピザハット、AI活用で全ピザのチーズ量を130％増量へ　生成AIでWebCMも作成

キリン、新卒採用に“AI面接官”を試験導入　生成AI利用で「人間の約6倍多角的に評価できる」

エスカレーターを歩くと「ずんだもん」から注意、JR大宮駅でAIを使った実証実験

[ご案内] 生成AI活用のお悩み相談、開催中

現在、DX推進者・新規事業担当者限定で、弊社生成AIコンサルタントとの壁打ち1時間を無料で実施しております。

「生成AIを活用したいが何からやればいいのかわからない」
「生成AIでやりたいことは決まっているが、本当に実現できるのかわからない」
という方はぜひご相談ください。

お申し込みはコチラ

今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです！

今週もお疲れ様でした！

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください！

「株式会社エクスプラザ（公式）」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP