[10/19~11/01] 生成AI Weekly News #59

2024年11月1日 16:46

今回も社内で話題になった生成AIに関するニュースをご紹介します。

ピックアップ｜Claude Computer use

Claudeの「Computer Use」機能は、Anthropicが開発したAI技術であり、AIが人間のようにコンピュータを操作できる能力を持っています。この機能は、ユーザーがAIに指示を出すことで、PC上での操作を自動化することが可能です。

Computer Useの基本機能｜LLMでのPCの画面操作が可能に

ClaudeのComputer Use機能は、ユーザーがAIに対して具体的な指示を与えることで、PC上での操作を実行させることができます。この機能は、従来のテキストベースの対話から一歩進んだものであり、AIが実際にアプリケーションを操作したり、ファイルを管理したりすることが可能です。ユーザーは、例えば「新しいフォルダを作成して、その中に特定のファイルを移動させて」といった具体的な指示を出すことができ、AIはその指示に従って動作します。このように、Computer Useは日常的なPC作業を効率化し、ユーザーの負担を軽減することを目的としています

The new Claude 3.5 Sonnet is the first frontier AI model to offer computer use in public beta.

While groundbreaking, computer use is still experimental—at times error-prone. We're releasing it early for feedback from developers. pic.twitter.com/a5SZQMKvLj
— Anthropic (@AnthropicAI) October 22, 2024

実際の使用例

こちらは、firefoxを立ち上げて、Amaxzonで本を買ってみる例です。

【速報】
Anthropicの新しいcomputer、Amazonで本買ってくれる

1.firefox立ち上げてhttps://t.co/18lygenZXYで「おとな六法」を買って

映画の中の世界がやってきたなあ。 pic.twitter.com/Ucr7ThF8f8
— tomoyuki|AI社員紹介所 (@sarukun99) October 23, 2024

こんな意見も

AI Friendly なデザインが重要になるという意見

Claude Computer UseのようにAIがインターフェースの操作を代替するようになると、「User Friendly」ならぬ「AI Friendly」がUXデザインにおいて重要なテーマになります。

Computer Useで試しに日本の不動産検索サイトを操作させてみましたが、壊滅的に迷ってました。https://t.co/akA0xwc3IC pic.twitter.com/9E6lfSfcLf
— KAJI | 梶谷健人 / 著書「生成AI時代を勝ち抜く事業・組織のつくり方」 (@kajikent) October 23, 2024

AIが操作しやすいコンピュータ環境を新たに作るべきという意見

Anthropicが出したLLMでPCの画面（GUI）を操作するやつ（https://t.co/l2Ik5Nse35）
これは面白いんですが、実は自分の思想はまったく逆で、そもそもGUIという人間の視覚向けにわざわざデザインされたものをAIが操作するのは非効率的で、AIが操作しやすいコンピュータ環境を新たに作るべきという立場
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) October 23, 2024

プロダクト・サービス

Claude 3.5 新モデル

Anthropicは、AIモデル「Claude」の最新版として「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」を発表しました。これらの新モデルは、従来のClaude 3シリーズを上回る性能を持ち、特にコーディング能力や視覚タスクにおいて顕著な改善が見られます。

特徴：

Claude 3.5 Sonnetは、Claude 3 Opusの2倍の速度で動作し、上位モデルを超える性能を実現しています

コーディング能力が大幅に向上し、SWE-bench Verifiedでのスコアが33.4%から49%に改善されました

視覚タスクにおいても性能が向上し、不完全な画像からのテキスト抽出や、チャート・グラフの解釈能力が改善されています

新機能「Artifacts」が導入され、コード、テキスト、ウェブサイトデザインなどのコンテンツ生成をリアルタイムでプレビューできるようになりました

「computer use」機能により、AIがPCを操作できるようになり、フォーム入力やウェブブラウジングなどのタスクを人間のように実行できます

Claude 3.5 Haikuは、従来のClaude 3 Haikuと同等のコストと速度を維持しつつ、前世代の上位モデルを上回る性能を実現しています

Amazon Bedrockでも利用可能となり、Claude 3 Opusと比較してコストが5分の1に抑えられています

Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. We’re also introducing a new capability in beta: computer use.

Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP
— Anthropic (@AnthropicAI) October 22, 2024

Stable Diffusion 3.5

Stability AIが2024年10月22日に最新の画像生成AIモデル「Stable Diffusion 3.5」をリリースしました。高いカスタマイズ性と効率的なパフォーマンスを特徴としています。
80億のパラメータを持つLargeモデルと、高速処理が可能なLarge Turboモデルが提供されており、多様なスタイルと出力をサポートしています。消費者向けハードウェアでの実行に最適化されており、プロンプト順守率と美的クオリティの向上が図られています

Introducing Stable Diffusion 3.5, our most powerful models yet.

This open release includes multiple variants that are highly customizable for their size, run on consumer hardware, and are free for both commercial and non-commercial use under the permissive Stability AI Community… pic.twitter.com/KlyE8OjrxN
— Stability AI (@StabilityAI) October 22, 2024

Runway、Act-One

入力ビデオから、キャラクターデザインされた動画に変換してくれるサービスです。

Introducing, Act-One. A new way to generate expressive character performances inside Gen-3 Alpha using a single driving video and character image. No motion capture or rigging required.

Learn more about Act-One below.

(1/7) pic.twitter.com/p1Q8lR8K7G
— Runway (@runwayml) October 22, 2024

perplexity、強力な推論モード

perplexity にアップデートで加わり、強力な推論が可能になりました。

Pro Search is now more powerful. Introducing Reasoning Mode!

Challenge your own curiosity. Ask multi-layered questions. Perplexity will adapt.

Try it yourself (sample queries in thread)👇 pic.twitter.com/NHlxA34nLd
— Perplexity (@perplexity_ai) October 22, 2024

今までは回答が微妙だったような質問にもしっかりと回答してくれるようになりました。

質問文：
"Please provide me with the latest information or releases from the following areas regarding Amazon: 1. Recent acquisitions or mergers 2. Executive leadership transitions 3. Technological innovations or IT infrastructure updates 4. Cybersecurity incidents or data breaches 5. Major company announcements or significant news stories 6. Developments in user data protection and privacy policies 7. Key points from their latest 10-K filing and annual report"

回答：
https://www.perplexity.ai/search/please-provide-me-with-the-lat-wXprqGQQQ2.hExhF4XQUsQ

https://x.com/perplexity_ai/status/1848801600195989940

Felo

Feloは、日本のAIスタートアップ企業Sparticle社が開発した革新的なAI検索エンジンです。
perplexity や genspark のような検索機能に加えて、マインドマップやプレゼン資料のスライド作成が可能です。
最近、100件以上のソースを参照して検索する「深度検索」が公開されました。

Ferret-UI

WWDCで発表された Ferret-UI のウェイトリストが公開されました。
Ferret-UIとは、スマホ画面のUIを理解することに特化したマルチモーダルLLMです。

2 weeks ago @Apple released weights for Ferret-UI -> a new Multimodal LLM made specifically for iPhone/IOS screens !!

I worked on the HF integration - now available in @HuggingFace transformers - we made it super easy for you to use and try:

FerretUI-Gemma2b:… pic.twitter.com/boUcwBLofh
— Jade Choghari (@jadechoghari) October 25, 2024

Voice Ping

「Voice Ping」ってAIツールがすげえ。

登壇者が話してる英語の内容を
リアルタイムでマイクが拾って
参加者の携帯に翻訳した内容を
「提示」&「発音」してくれる

もう海を超えたプレゼンも怖くねえよ… pic.twitter.com/DKRc9GNHQt
— りょうちけ🦋生成AI活用の教科書📕 (@ryo_kun0811) October 30, 2024

ニュース

楽天モバイル、メッセージアプリ「Rakuten Link」に生成AI機能を搭載

「Apple Intelligence」米国で開始　写真や文章のAI編集機能が無料で

論文・技術系

OpenAIが超高速画像生成技術「sCM」を発表

OpenAIが新たな画像生成技術「sCM」(simplified, stabilized and scaled Consistency Models)を発表しました。この技術は、従来の拡散モデルと比較して画像生成速度を約50倍に高速化し、わずか2ステップで高品質な画像を生成することができます。sCMは15億のパラメータを持つ大規模モデルで、A100 GPU 1基で約0.11秒という驚異的な速度で画像を生成できます。

【画像生成が爆速、ほぼリアルタイムに】

OpenAIが従来のDiffusionモデルの50倍高速な画像生成手法：『sCM(simplified Continuous-time consistency Model)』を発表しました： https://t.co/m9x7pOzdrf pic.twitter.com/mpJytUQaUb
— ChatGPT研究所 (@ctgptlb) October 23, 2024

Github Copilot

GitHubが自然言語でアプリ開発可能な「GitHub Spark」を発表

GitHubは2024年10月30日に開催された年次カンファレンス「GitHub Universe」にて、自然言語を用いてアプリケーションを開発できる新ツール「GitHub Spark」を発表しました。このツールは、開発者のスキルレベルに関わらず、自然言語でAIとやり取りしながらアプリを開発し、リアルタイムでプレビューを確認できる革新的な機能を提供します。

LLMへのプロンプトでは「質問文を文章の最初に置くだけで」理解力が大幅に向上する

LLMへのプロンプトでは「質問文を文章の最初に置くだけで」理解力が大幅に向上するそうです。長い文章を扱う場合、この単純な工夫が特に効果的とのこと。https://t.co/6dmZclKlIZ
清華大学やAppleなどの研究者らによる発表です。
研究者らは「プロンプトの中にある関連情報間の距離」に注目しており、…
— AIDB (@ai_database) October 28, 2024

SimpleQA という新しいベンチマークをオープンソース化

Factuality is one of the biggest open problems in the deployment of artificial intelligence.

We are open-sourcing a new benchmark called SimpleQA that measures the factuality of language models. https://t.co/pYWcyl6ASV
— OpenAI (@OpenAI) October 30, 2024

その他ニュース

Adobe Frescoを完全無料化

Advanced Voice が macOS および Windows デスクトップアプリで

Big day for desktops.

Advanced Voice is now available in the macOS and Windows desktop apps.https://t.co/mv4ACwIhzA pic.twitter.com/HbwXbN9NkD
— OpenAI (@OpenAI) October 30, 2024

電通、AI絵本

NTTデータが“AI営業アシスタント”提供へ　提案資料作成などを代行　「営業活動を約2.5倍に増やせる」

[ご案内] 生成AI活用のお悩み相談、開催中

現在、DX推進者・新規事業担当者限定で、弊社生成AIコンサルタントとの壁打ち1時間を無料で実施しております。

「生成AIを活用したいが何からやればいいのかわからない」
「生成AIでやりたいことは決まっているが、本当に実現できるのかわからない」
という方はぜひご相談ください。

お申し込みはコチラ

今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです！

今週もお疲れ様でした！

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください！

「株式会社エクスプラザ（公式）」アカウント
https://twitter.com/explaza_inc

生成AI事例集

会社HP