見出し画像

2024/6/11のIT・AIニュースピックアップ!

【LLMの活用】 2024-06-11 03:37:00 What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models


この研究論文は、マルチモーダルな大規模言語モデル(Large Language Model: LLM)を用いた画像分類の手法を提案しています。従来の手法とは異なり、この手法では人手によるプロンプト設計を必要としません。代わりに、単一の簡明なプロンプトセットを全てのデータセットに適用しています。

具体的な手順は以下の通りです。まず、入力画像からマルチモーダルなLLMを用いて詳細な textual representation を生成します。次に、これらの textual representation を cross-modal embedding space 上の固定長特徴量に変換します。最後に、これらの特徴量を線形分類器に入力することで、ゼロショット画像分類を実行します。

著者らは、この手法を複数のデータセットで評価しています。その結果、従来手法と比較して平均4.1%の精度向上を確認しました。特に ImageNet データセットでは6.8%の精度向上が得られています。この成果は、マルチモーダルなLLMがゼロショット画像分類などの コンピュータービジョンタスクを大幅に改善できる可能性を示しています。

人力のプロンプト設計を必要としないというのがいいですね。
そうか、LLMで画像分類もできるのか…
ディープラーニングすらいらなくなる未来がありえるのだろうか。
-------------------------------------------

【新サービス】 2024-06-11 04:00:11 アップル、AI本格展開 個人をアシストする「Apple Intelligence」


アップルは10日(米国時間)、新たなAI機能「Apple Intelligence」を発表した。iOSやiPadOS、macOSに組み込まれ、個人の文脈を理解した「パーソナルアシスタント」としてユーザーがやりたいことを支援する。今夏に英語環境でベータテストを開始する。開発者会議のWWDC 2024で発表されたが、日本語など他言語対応については言及していない。

iOS 18、iPadOS 18、macOS Sequoiaから搭載。ユーザーを理解して、やりたいことを支援するという機能で、メモ(Notes)で録音しながらサマリー(要約)を表示したり、文字起こししてくれるほか、メールの作成支援などに対応。基盤技術としてはOpenAIのGPT-4oを活用している。

ついに来ました!AppleのOSにAIが搭載!
「今夏に英語環境でベータテストを実施」とのことなので、まだ退官することはできませんが、楽しみです。便利になるのかなあ?
Appleはずっとデバイス上でマルチモーダルモデルを動かすことを目指して研究をしていたので、その結果が製品に反映されているのでしょうか。

ここ数か月のAppleの研究↓

2024-05-07 01:39:00 OpenELM: An Efficient Language Model Family with Open Training and Inference Framework
デバイス上で動作することを目的としたLLM。

Appleが開発したオープンな言語モデルであるOpenELMは、パラメータを効率的に配分することで高精度を実現する最先端の言語モデルです。従来の実践とは異なり、OpenELMは公開されたデータセットを使ってトレーニングとテストを行うための完全なフレームワークを提供しています。また、MLXライブラリを使ってAppleデバイス上での推論とファインチューニングが可能です。このリリースは、オープンな研究コミュニティを支援し、未来の研究活動の基盤となることを目指しています。

2024-04-12 米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
これなんかまさしくモバイル向けの研究。


2024-04-04 ReALM: Reference Resolution As Language Modeling
Siriのための研究かな?

参照解決とは、人間やコンピュータが「それ」「これ」などのあいまいな表現の意味をコンテキストから理解することを指します。これは、会話の中や、ユーザーの画面上に表示されるエンティティ(例えば、特定のアプリや情報)など、さまざまな場面で必要とされます。Appleの研究チームは、大規模言語モデル(LLM)を用いて、テキストのみでこの参照解決を行う新しい方法を提案しています。これにより、会話や画面上に表示されるオブジェクトへの参照など、さまざまなタイプの参照を効率的に処理できるようになります。実験結果から、提案されたモデルは、画面上の参照に対して5%以上の改善を達成しました。


-------------------------------------------

【UI】 2024-06-11 06:00:00 Why Mesop?


メソップ(Mesop)は、Pythonデベロッパーが魅力的なWebアプリケーションを効率的に構築できるようにする新しいUIフレームワークです。多くのPythonのUIフレームワークは使い始めが簡単ですが、デフォルトを超えてカスタマイズする際には、JavaScriptやCSS、HTMLの知識が必要となり、多くのデベロッパーにとって学習曲線が急峻です。ところがメソップは、Pythonのみで柔軟なUIを構築することができ、学習コストを低く抑えることができます。

メソップは、コンポーネントベースの設計思想を採用しています。UIはいくつかの再利用可能な部品(コンポーネント)で構成されており、コンポーネントは単純なPythonの関数として実装されます。この方式には以下のような利点があります。
- 簡単さ:既存のPythonの知識を活かしてUIを素早く直感的に構築できる
- 保守性:複雑なUIをより小さな、焦点の合ったコンポーネントに分割できるため管理が容易になる
- 柔軟性:コンポーネントが独立しているため、プロジェクト内や他のプロジェクトでの再利用が簡単

-------------------------------------------

【ニュース】 2024-06-11 10:08:00 OpenAI welcomes Sarah Friar (CFO) and Kevin Weil (CPO)


https://openai.com/index/openai-welcomes-cfo-cpo/

Chief Financial Officerとしてサラ・フリアーが加わります。彼女は、コア研究機能への継続的な投資を支え、急成長するお客様基盤や複雑グローバルな事業環境に対応できるよう、ファイナンス部門を率いていきます。サラ・フリアーは、最近まで Nextdoor の CEO を務めていました。以前は Square の CFO を務め、Goldman Sachs、McKinsey、Salesforce でも勤務しました。Walmart およびConsensysの取締役、Aspen Instituteのフェロー、Stanford Institute for Human-Centered AI(HAI)の Stanford Digital Economy Labの共同議長を務めています。

Chief Product Officerとしてケヴィン・ウェイルが加わります。彼は、研究成果をコンシューマー、開発者、企業のためのサービスに適用するプロダクトチームを率いていきます。ケヴィン・ウェイルは、最近まで Planet Labsのプレジデントを務めていました。以前は Libra暗号通貨の共同創設者、Facebook の Novi 製品担当VPおよびInstagram 、Twitterの製品担当SVPを務めていました。CFRの期限付き会員であり、The Nature Conservancyと Black Product Managers Networkの取締役を務めています。

-------------------------------------------

【人間とAIの未来】 2024-06-11 12:38:30 Adobeが「ユーザーコンテンツをAI学習しない」と明記する形へ利用規約を再度全面見直し


2024年6月に更新されたAdobe Creative Cloudの利用規約にある「ユーザーコンテンツにAdobeがアクセスする可能性がある」という文言が大きく批判を浴びたことを受け、Adobeが利用規約の各項目について明確化することを約束しました。これにより、ユーザーが作成したコンテンツがAI学習に使用されないこと等が明記されます。

Adobeは絵師さんたちが使っているサービスを提供しているので、勝手にAIの学習に使われることに対する反発は強かったみたいです。
「勝手に」というのがよくないですよね。選べるようにしてほしい。

自分の絵柄だけで学習させるAIを開発している企業もあります。これはいい使い方だと思います。
特許出願中らしく、技術の詳細は公開されていません。

ピュアモデルAIは、エンドルフィン社が開発した、特定の漫画家の絵柄だけを学習させるAI技術です。この技術は、漫画家の里中満智子氏や倉田よしみ氏との協力により、それぞれの絵柄を忠実に再現することができます。Stable Diffusionをベースにして、特定の漫画家のスタイルを模倣するシステムは、漫画家との合意のもとでその漫画家の作品のサンプルを使用して訓練されます。このプロセスでは、少なくとも50枚の画像が必要で、より精密なファインチューニングを行う場合には追加の画像が必要になることがあります。

-------------------------------------------

【新機能】 2024-06-11 14:42:16 iPadOS 18、ついに「計算機」搭載 ペン・手書きの「計算メモ」やAI活用


アップルは10日(米国時間)、WWDC2024において「iPadOS 18」を発表した。AI機能の「Apple Intelligence」に対応予定(英語)のほか、カスタマイズ機能や写真のアップデートなど多くの機能強化を図っている。

多くの機能はiOS 18と共通だが、iPadOSならではの特徴なるのが、Apple Pencil対応の強化や「計算機」アプリの追加となる。

-------------------------------------------

【セキュリティ】 2024-06-11 15:55:25 VSCodeの偽拡張機能を作ったらダウンロードされまくり&悪意あるコードを簡単に仕込めるVSCode拡張機能システムの欠陥も明らかになったという報告


Microsoft製テキストエディタ「Visual Studio Code(VSCode)」は拡張機能を導入することで機能を追加したり外観をカスタムしたりできます。セキュリティ研究者らが「人気拡張機能にコードを挿入した偽拡張機能」を公開した結果、短期間で大企業やセキュリティ企業を含む多くのユーザーのマシンにインストールされたとのこと。セキュリティ研究者らはVisual Studio Codeの拡張機能システムの欠陥を指摘し、警鐘を鳴らしています。

VSCodeの拡張機能って、ソフトウェア以上に簡単にインストールできてしまいますし、似たようなものがあっても違いが一見してわかりにくいのでたしかにうっかりマルウェアをインストールしてしまうことがありそうです。気を付けたいです。
-------------------------------------------

【新機能】 2024-06-11 16:00:25 「Google Meet」で共有した画面を直接操作可能に ~「スライド」にはモード切り替え機能/「Google Workspace」6月2日週のアップデート情報


米Googleは6月7日(現地時間)、「Google Workspace」6月7日週のアップデート情報を発表した。「Google Meet」で画面共有時の画面操作が改善されたほか、「Google スライド」にモード切り替え機能が追加された。

-------------------------------------------

【セキュリティ】 2024-06-11 16:52:49 画像生成ソフトウェア「ComfyUI」のノードにキーロガーが仕込まれていたことが発覚、クレジットカード情報やパスワードなど全ての入力が筒抜けに


ノードベースの画像生成ソフトウェア「ComfyUI」向けに作られたノードの一つ「ComfyUI_LLMVISION」にマルウェアが仕込まれていることがわかりました。発覚後、ComfyUI_LLMVISIONのGitHubリポジトリが削除されています。

こわい~こういうのってどうやって防いだらいいのだろうか…
-------------------------------------------

【技術解説】 2024-06-11 17:42:39 レコメンドアルゴリズム入門:基礎から応用まで実装に必要な知識を解説 - Qiita


DeNAの方が書いていてとても充実した内容。
レコメンドやることになったらしっかり読みます。
-------------------------------------------

【AIの活用】 2024-06-11 18:00:00 New computer vision method helps speed up screening of electronic materials


この記事は、太陽電池、トランジスター、LED、バッテリーなどの電子材料の性能を向上させるための新しい手法について説明しています。具体的には、人工知能(AI)を使って電子材料の候補を素早く探索し、その材料特性を迅速に評価する方法について紹介しています。

まず、研究チームは、材料候補を素早く見つけ出すためにAIツールを使っています。候補となる数億種類の化学組成から、有望な材料を特定することができます。また、同時に、AIアルゴリズムによって提案された材料組成を基に、大量の試料を短時間で印刷する機械を開発しています。

しかし、これまでこの最後の工程、すなわち新しく合成された材料の特性評価の方法が非常に遅いのが課題でした。これを解決するために、MITの研究チームは、コンピュータービジョンの手法を使って材料特性を迅速に評価する新しい技術を開発しました。

-------------------------------------------

【新機能】 2024-06-11 18:43:17 Introducing Apple’s On-Device and Server Foundation Models


Apple社は、2024年の世界開発者会議(WWDC)で、iOS 18、iPadOS 18、macOS Sequoiaに深く統合されたパーソナルインテリジェンスシステム「Apple Intelligence」を発表しました。

Apple Intelligenceは、ユーザーの日常的なタスクに特化したさまざまな高性能な生成モデルで構成されており、ユーザーの現在のアクティビティに合わせてオンザフライで適応できます。Apple Intelligenceに組み込まれた基礎モデルは、テキストの書き込みや洗練、通知の優先順位付けと要約、家族や友人とのコンバーセーションのためのユーモアある画像の作成、アプリ間の操作の簡略化など、ユーザーエクスペリエンス向けにファインチューニングされています。

-------------------------------------------

【新機能】 2024-06-11 19:23:00 Private Cloud Compute: A new frontier for AI privacy in the cloud  

Apple社は、ユーザーデータのセキュリティとプライバシーを重要視しており、そのためにデバイス内部での処理を基盤としてきました。しかし、より高度な機能を提供するためには、クラウドの強力な機械学習モデルを活用する必要があります。そこで、Apple社は「Private Cloud Compute (PCC)」と呼ばれる新しいクラウドインテリジェンスシステムを開発しました。

 PCCの特徴は以下の通りです。
1. 状態を持たない計算: ユーザーデータは処理中しか PCC 内部で利用せず、処理後には完全に削除されます。ユーザーデータはApple社のスタッフにも見られることはありません。

2. 強制可能な保証: PCCのセキュリティとプライバシーの保証は、ハードウェアとソフトウェアの両面で技術的に強制されています。特権的なアクセスを持つ運用者によるデータ漏洩を防ぐ仕組みが組み込まれています。

3. 非特定性: 特定のユーザーを狙った攻撃を防ぐため、ユーザー情報を含まない要求メタデータを使ってロードバランシングを行い、個別のノードを特定できないようになっています。

4. 検証可能な透明性: PCCのソフトウェアイメージを公開し、セキュリティ研究者が検証できるようにすることで、プライバシー保証の実現を裏付けています。また、ソースコードの一部公開やファームウェアの公開なども行う予定です。


この記事が気に入ったらサポートをしてみませんか?