Apple intelligenceの解説を読んでみた。（要約記事です）

2024年6月13日 16:19

2024.6.10　Worldwide Developers ConferenceでApple Intelligenceが発表されましたね。思ったより新しくなかったのが残念だけど、流石によくまとまっていました。せっかくなので、その技術資料をまとめておきます。
Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research

ほぼこの資料の要点を整理しただけのものです。まず要点を整理し、その後詳細を示します。とりあえずは要点整理だけを読んでいただければ十分でしょう。
むしろアップルの主張を知りたければ、このときの基調講演の動画を見たほうがいいかもしれませんね。動画に関する情報は多くの方がすでにまとめておられますので、今回は触れません。
WWDC2024　基調講演ユーチューブ動画

要点整理

Apple Intelligenceの紹介
- 2024年のWorldwide Developers Conferenceで発表
- iOS 18、iPadOS 18、macOS Sequoiaに深く統合された個人情報システム
Apple Intelligenceの構成要素
- 日常タスクに特化した複数の生成モデルから成り立つ
- ユーザーの活動に応じて適応可能
- テキストの作成・修正、通知の優先順位付け・要約、会話用の画像生成、アプリ内操作の簡略化などのユーザー体験
2つの主要な言語モデル
- 約30億パラメータのオンデバイス言語モデル
- プライベートクラウドコンピュート上で実行されるより大きなサーバーベースの言語モデル
- これらのモデルは効率的、正確、かつ責任あるタスク遂行のために構築・適応
広範な生成モデルファミリー
- Xcodeでの知能構築を支援するコーディングモデル
- メッセージアプリでの視覚表現を助ける拡散モデル
- さらなる情報提供予定
責任あるAI開発の焦点
- プライバシー保護の革新に基づいた設計
- 責任あるAI開発の原則：
  - ユーザーを支援する知的ツールの提供
  - グローバルなユーザーの真実な表現
  - 慎重な設計
  - プライバシー保護
モデル開発の詳細
- 高性能、迅速、省電力なモデルの開発
- トレーニングアプローチ
- 特定のユーザーニーズに合わせたアダプターの微調整
- 助けになるかどうかや意図しない害の評価
事前トレーニング (Pre-Training)
- AppleのAXLearnフレームワークでトレーニング
- JAXとXLAを基盤とし、TPUsおよびクラウド・オンプレミスのGPUで効率的かつスケーラブルにトレーニング
- データ並列、テンソル並列、シーケンス並列、完全シャードデータ並列 (FSDP) を使用してトレーニングをスケール
- ライセンスデータとAppleBotによる公開データを使用
- ユーザーの個人データやユーザーインタラクションは使用しない
- 公開データのフィルタリングと高品質データの抽出
事後トレーニング (Post-Training)
- 人間が注釈をつけたデータと合成データを活用したハイブリッドデータ戦略
- データ品質の向上のための徹底したデータキュレーションとフィルタリング
- 2つの新しいアルゴリズムを開発：
  1. 教師委員会を用いたリジェクションサンプリング微調整アルゴリズム
  2. 鏡像降下ポリシー最適化とリーブワンアウトアドバンテージ推定器を用いた人間のフィードバックからの強化学習 (RLHF)
- これらのアルゴリズムにより、モデルの指示追従品質が大幅に向上
最適化 (Optimization)
- オンデバイスおよびプライベートクラウドでの速度と効率性のための最適化
- 初期トークンと拡張トークン推論性能の最適化
- グループ化クエリ注意機構と共有入出力ボキャブラリ埋め込みテーブルの使用
- オンデバイスモデルの語彙サイズは49K、サーバーモデルは100K
- 低ビットパレタイズとLoRAアダプタを使用した新しいフレームワークで性能と品質を確保
- インタラクティブなモデル遅延・電力分析ツール「Talaria」の使用
- アクティベーション量子化と埋め込み量子化の利用
モデル適応 (Model Adaptation)
- ユーザーの日常活動に特化し、動的にタスクに適応
- アダプターを利用して特定のタスクに微調整
- アダプターパラメータを16ビットで表現し、メモリ効率を最適化
- アダプターの迅速な再トレーニング・テスト・デプロイを可能にする効率的なインフラを構築
パフォーマンスと評価 (Performance and Evaluation)
- ユーザーエクスペリエンスに関連するヒューマンエバリュエーションに重点
- 特定の機能に対するアダプターと基盤モデルの性能評価
サマリーアダプターの評価
- メールと通知のサマリーに特化したアダプターの評価
- 大規模サーバーモデルから生成された合成サマリーを使用してトレーニング
- 750のレスポンスセットを用いて評価
- 現実のユースケースを反映した多様な入力に対する性能評価
責任ある開発の一環としてのリスク評価
- サマリーが重要なニュアンスや詳細を削除する可能性
- サマリーアダプターは99%以上のターゲット攻撃例でセンシティブな内容を増幅しないことを確認
一般的なモデル能力の評価
- 実際のプロンプトを用いた包括的な評価セットを使用
- オープンソースモデルや商業モデルとの比較
- オンデバイスモデル（約30億パラメータ）は、Phi-3-mini、Mistral-7B、Gemma-7Bより優れている
- サーバーモデルはDBRX-Instruct、Mixtral-8x22B、GPT-3.5-Turboと比較して高効率
有害コンテンツ、センシティブなトピック、事実性の評価
- 有害なコンテンツに対するモデル性能をテスト
- ヒューマングレーダーによる評価で違反率が低いことを確認
- 内部および外部チームと連携した手動および自動のレッドチームによる安全性評価
指示追従能力の評価
- Instruction-Following Eval (IFEval)ベンチマークを使用
- オンデバイスモデルとサーバーモデルが同等のサイズのオープンソースおよび商業モデルよりも指示を上手く従う
ライティング能力の評価
- 内部のサマリーと作文ベンチマークを使用
- サマリーアダプターや作文に特化したアダプターは含まれていない
結論 (Conclusion)
- Apple Intelligenceの基盤となるAppleの基盤モデルとアダプターは、iPhone、iPad、Macに深く統合されている
- 言語、画像、アクション、個人のコンテキストにおいて強力な機能を提供
- Apple製品を通じてユーザーの日常活動を支援するために開発された
- Appleのコアバリューに基づき、責任ある開発が行われた
- 言語モデル、拡散モデル、コーディングモデルを含む、より広範な生成モデルファミリーに関する情報を近日中に共有予定

詳細説明

Apple Intelligenceの紹介

2024年のWorldwide Developers Conferenceで、AppleはiOS 18、iPadOS 18、macOS Sequoiaに深く統合された「Apple Intelligence」という個人情報システムを発表しました。

Apple Intelligenceの構成要素

Apple Intelligenceは、日常のタスクに特化した複数の高性能生成モデルから成り立ち、ユーザーの活動に応じて適応します。これには、テキストの作成や修正、通知の優先順位付けや要約、家族や友人との会話用の画像生成、アプリ内操作の簡略化などが含まれます。

2つの主要な言語モデル

Apple Intelligenceには、約30億パラメータのオンデバイス言語モデルと、プライベートクラウドコンピュート上で実行されるより大きなサーバーベースの言語モデルがあります。これらは効率的、正確、かつ責任あるタスク遂行のために設計されています。

広範な生成モデルファミリー

Appleは、さらに広範な生成モデルファミリーを提供しています。これには、Xcodeでの知能構築を支援するコーディングモデルや、メッセージアプリでの視覚表現を助ける拡散モデルが含まれます。今後、さらなる情報が提供される予定です。

責任あるAI開発の焦点

Apple Intelligenceは、革新的なプライバシー保護技術に基づいて設計されています。Appleは、以下の責任あるAI開発の原則を設けています：

ユーザーを支援する知的ツールの提供
グローバルなユーザーの真実な表現
慎重な設計
プライバシー保護

モデル開発の詳細

Appleは、高性能で迅速、省電力なモデルの開発、トレーニングアプローチ、特定のユーザーニーズに合わせたアダプターの微調整、助けになるかどうかや意図しない害の評価について、詳細な情報を提供しています。

事前トレーニング (Pre-Training)

AppleのAXLearnフレームワークを使用して、基盤モデルのトレーニングを行います。このフレームワークは2023年に公開されたオープンソースプロジェクトで、JAXとXLAの上に構築されており、TPUsおよびクラウドやオンプレミスのGPUで高効率かつスケーラブルにトレーニングが可能です。データ並列、テンソル並列、シーケンス並列、完全シャードデータ並列 (FSDP) を組み合わせて、データ、モデル、シーケンス長など複数の次元に沿ってトレーニングをスケールします。

基盤モデルのトレーニングには、ライセンスデータやAppleBotによって収集された公開データを使用します。ウェブパブリッシャーは、Apple Intelligenceのトレーニングに自分のウェブコンテンツが使用されるのを拒否するオプションもあります。ユーザーの個人データやユーザーインタラクションはトレーニングに使用せず、インターネット上で公開されている個人識別情報（社会保障番号やクレジットカード番号など）はフィルタリングして除去します。さらに、低品質なコンテンツや不適切な言葉もフィルタリングし、高品質なドキュメントを識別するためのモデルベースの分類器を適用します。

事後トレーニング (Post-Training)

データの品質はモデルの成功に不可欠であるため、トレーニングパイプラインには人間が注釈をつけたデータと合成データを組み合わせたハイブリッドデータ戦略を用い、徹底したデータキュレーションとフィルタリングを行います。事後トレーニングでは、2つの新しいアルゴリズムを開発しました：

リジェクションサンプリング微調整アルゴリズム：教師委員会を使用し、モデルの微調整を行う
人間のフィードバックからの強化学習 (RLHF) アルゴリズム：鏡像降下ポリシー最適化とリーブワンアウトアドバンテージ推定器を用いる

これらのアルゴリズムにより、モデルの指示追従品質が大幅に向上しました。

最適化 (Optimization)

Appleの生成モデルはオンデバイスとプライベートクラウドでの速度と効率性を向上させるために、様々な革新的技術を用いて最適化されています。初期トークンと拡張トークンの推論性能のために、広範な最適化が施されています。

オンデバイスモデルとサーバーモデルの両方で、グループ化クエリ注意機構を使用し、メモリ要件と推論コストを削減するために共有入出力ボキャブラリ埋め込みテーブルを使用しています。オンデバイスモデルの語彙サイズは49K、サーバーモデルは100Kで、追加の言語や技術トークンも含まれています。

オンデバイス推論では、低ビットパレタイズという重要な最適化技術を使用し、必要なメモリ、電力、性能要件を達成しています。モデル品質を維持するために、LoRAアダプターを使用した新しいフレームワークを開発し、混合2ビットと4ビットの構成戦略を取り入れて、未圧縮モデルと同じ精度を実現しています。

また、インタラクティブなモデル遅延・電力分析ツール「Talaria」を使用して、各操作のビットレート選択をガイドします。アクティベーション量子化と埋め込み量子化も利用し、神経エンジン上での効率的なキー・バリューキャッシュ更新を可能にするアプローチを開発しています。

これらの最適化により、iPhone 15 Proではプロンプトトークンあたり約0.6ミリ秒の初期トークン遅延と、毎秒30トークンの生成速度を達成しています。これはトークンスペキュレーション技術を使用する前の性能であり、さらにトークン生成速度が向上します。

モデル適応 (Model Adaptation)

Appleの基盤モデルは、ユーザーの日常活動に合わせて動的に特化することができます。アダプターという小さなニューラルネットワークモジュールを使用して、特定のタスクにモデルを微調整します。アダプターは事前トレーニングされたモデルのさまざまな層にプラグインでき、注意行列、注意投影行列、ポイントワイズフィードフォワードネットワークの完全結合層を適応させます。

アダプター層のみを微調整することで、ベースの事前トレーニングモデルの元のパラメータは変更されず、モデルの一般的な知識を保持しつつ、特定のタスクに適応させることができます。

アダプターパラメータは16ビットで表現され、約30億パラメータのオンデバイスモデルでは、ランク16のアダプターパラメータは通常10メガバイト程度です。アダプターモデルは動的にロードされ、一時的にメモリにキャッシュされ、タスクに合わせて効率的にメモリを管理しながら、オペレーティングシステムの応答性を保証します。

アダプターのトレーニングを促進するために、ベースモデルやトレーニングデータが更新されるたびに、アダプターを迅速に再トレーニング、テスト、デプロイする効率的なインフラを構築しています。アダプターパラメータは、最適化セクションで紹介した精度回復アダプターを使用して初期化されます。

図2: アダプターは、共通の基盤モデルに重ねて使われる小さなモデル重みの集合です。これらは動的に読み込んで交換することができ、基盤モデルがその場で特定のタスクに特化する能力を持たせます。Apple Intelligenceには、各機能に特化した広範なアダプターが含まれており、基盤モデルの能力を効率的に拡張する方法です。

パフォーマンスと評価 (Performance and Evaluation)

Appleの生成モデルは、ユーザーがApple製品を使ってコミュニケーション、仕事、自己表現、タスクを完了するのを支援することに重点を置いています。モデルのベンチマークでは、製品のユーザーエクスペリエンスに密接に関連するヒューマンエバリュエーションに焦点を当てています。特定の機能に対するアダプターと基盤モデルの両方の性能を評価しました。

サマリーアダプターの評価

メールと通知のサマリーに対する製品要件は微妙に異なるため、これらの特定の要件を満たすために、精度回復低ランク（LoRA）アダプターをパレタイズモデルの上に微調整しました。トレーニングデータは、大規模サーバーモデルから生成された合成サマリーを基にしており、リジェクションサンプリング戦略で高品質なサマリーのみを保持しています。

製品特有のサマリーを評価するために、各使用ケースに対して慎重にサンプリングされた750のレスポンスセットを使用しました。これらの評価データセットは、生産環境で直面する可能性のある多様な入力を強調し、異なるコンテンツタイプと長さの単一およびスタックドキュメントの層別混合を含んでいます。製品機能として、実際のユースケースを代表するデータセットに対する性能を評価することが重要でした。

図3: 2つの要約ユースケースにおける「良い」および「悪い」応答の割合を全応答に対して示しています。要約は、評価者の5つの次元にわたるスコアに基づいて「良い」、「中立」、「悪い」と分類されます。すべての次元が良い場合、結果は「良い」と分類されます（高いほど良い）。いずれかの次元が悪い場合、結果は「悪い」と分類されます（低いほど悪い）。アダプターを使用した我々のモデルは、比較対象のモデルよりも優れた要約を生成します。

図4: Appleの基盤モデルと比較対象のモデルを並べて評価した際の、好まれた応答の割合を示しています。我々のモデルが人間の評価者により好まれることがわかりました。

責任ある開発の一環としてのリスク評価

サマリーが重要なニュアンスや他の詳細を不適切に削除する可能性がありますが、サマリーアダプターは99%以上のターゲット攻撃例でセンシティブな内容を増幅しないことが確認されました。未知の害を特定し、評価を拡大してさらなる改善を導くために、引き続き攻撃的なプローブを行っています。

一般的なモデル能力の評価

基盤モデルとアダプターによる特定の機能の性能を評価するだけでなく、オンデバイスモデルとサーバーモデルの一般能力も評価しました。実際のプロンプトを用いて包括的な評価セットを使用し、異なる難易度レベルの多様なカテゴリー（ブレインストーミング、分類、閉じた質問応答、コーディング、抽出、数学的推論、オープン質問応答、リライト、安全性、サマリー、ライティング）をカバーしました。

有害コンテンツ、センシティブなトピック、事実性の評価

有害なコンテンツに対するモデル性能をテストするために、多様な攻撃的プロンプトセットを使用しました。ヒューマングレーダーによる評価で、各モデルの違反率を測定し、低い違反率が望ましいとされます。オンデバイスモデルとサーバーモデルは、攻撃的なプロンプトに直面した際に、オープンソースおよび商業モデルよりも低い違反率を達成しました。

図5: 有害なコンテンツ、センシティブなトピック、事実性に関する違反応答の割合を示しています（低いほど良い）。我々のモデルは、敵対的なプロンプトに対しても堅牢です。

図6: 安全性に関するプロンプトで、Appleの基盤モデルと比較対象のモデルを並べて評価した際の好まれた応答の割合を示しています。人間の評価者は、我々の応答がより安全で役立つと感じました。

指示追従能力の評価

Instruction-Following Eval (IFEval)ベンチマークを使用して、モデルの指示追従能力を同等のサイズのモデルと比較しました。結果は、オンデバイスモデルとサーバーモデルが、同等のサイズのオープンソースおよび商業モデルよりも詳細な指示に従う能力が優れていることを示しています。

図7: Appleの基盤モデルと同等のサイズのモデルの指示遵守能力（IFEvalで測定、数値が高いほど良い）。

ライティング能力の評価

内部のサマリーと作文ベンチマークを使用して、モデルのライティング能力を評価しました。これらの結果は、サマリーアダプターや作文に特化したアダプターには触れていません。

図8: 内部の要約および作文ベンチマークにおける文章能力（数値が高いほど良い）。

結論 (Conclusion)

2024年のWWDCで紹介されたAppleの基盤モデルとアダプターは、新しい個人情報システムであるApple Intelligenceの基盤を形成しています。Apple Intelligenceは、iPhone、iPad、およびMacに深く統合されており、言語、画像、アクション、個人のコンテキストにおいて強力な機能を提供します。

これらのモデルは、ユーザーがApple製品を通じて日常の活動を効率的に行うために作成されました。また、開発の各段階でAppleのコアバリューに基づき、責任を持って進められました。

Appleは、言語モデル、拡散モデル、コーディングモデルを含む、より広範な生成モデルファミリーに関するさらなる情報を近日中に共有する予定です。

まとめ（感想）

Apple Intelligenceに関する公式情報をまとめました。
デバイスモデルとサーバーモデルを組み合わせること。
目的に応じたモデル適当の仕組み
その結果得られた、性能と安全性の高度なバランスなど、一つ一つの紹介された技術は、比較的一般的な、よく知られた技術であるものの、これらをバランスよく仕上げたアップルの取り組みと技術力には感心させられます。
おそらく、基礎技術構成において、アップルが独占的に利用（特許）することは難しいでしょう。だからこそ、なおさら今回発表された内容が、一種の基準になるかもしれませんね。
一刻も早く体験したいものです。自作アプリに組み込めるようになるんですかね。

今回の記事は、普通に要約記事となりました。アップルにタダ乗りのようで恐縮ですが、勉強がてらということでご勘弁を！

#MachineLearning #機械学習 #AppleIntelligence #Appleの知能 #WWDC24 #WWDC24 #AI #人工知能 #GenerativeModels #生成モデル #OnDeviceAI #端末上のAI #Privacy #プライバシー #ResponsibleAI #責任あるAI #iOS18 #iOS18 #macOSSequoia #macOSセコイア #NLP #自然言語処理 #AIResearch #AI研究 #TechInnovation #技術革新 #Summarization #要約 #ModelOptimization #モデル最適化 #AIinHealthcare #ヘルスケアにおけるAI #NaturalLanguageUnderstanding #自然言語理解 #AIDevelopment #AI開発 #TechConference #技術会議 #AppleResearch #Appleの研究