M4 Extremeの噂
Mac StudioモドキのMac Proではない、本当のMac Proを構成するSoCの噂が流れてきました。
噂の出所は、YouTube Max techチャンネル。ほかにも、Apple InSiderやZONEofTECHも同様の情報を流しています。
Max techチャンネルでは、Apple系リーカーのMark Gurmanの情報であることを明らかにしています。
追記:Matt Talks Techもいつもどおりムービーを出していました。早すぎて気づかなかったもよう。
4〜6月は、6月のWWDCに向けて、虚実入り混じった「噂話」がバラ撒かれ、本当の話なのか、嘘の話なのかを見極める「目利き力」が試される、試練の季節です。
本物のMac Pro用SoC
Mac Pro(2023)では、Mac Studioと同じSoCを搭載し、「ガワだけでかいMac Studio」とか「Mac Proもどき」「名前はProなのに存在感はAir」「出さないと責任問題になるので、組織防衛のために出した始末書Mac Pro」などの心ない悪口がそこかしこで聞かれた……ような気がしたMac Pro。
今度こそ、最上位機種にふさわしい、他を隔絶した性能を発揮するものとなるのでしょうか?
M1、M2、M3と順調に世代を交代してきたApple Siliconなので、その「次」を意味するM4も、時間がたてば当然のように出てくることでしょう。
ただし、M4というSoCに課されたテーマというものが見えてきませんでした。
より速く、より低消費電力で……というApple Siliconを通じて流れるコンセプトはありつつも、M4世代で何を実現したいのか? どのような問題を解決したいのか? これが見えてきませんでした。
デスクトップ機向けApple Siliconの課題
今回のMax techがまとめた情報を信用するならば、Apple Silicon自身が抱えている課題は、おぼろげながら見えてきます。
・(デスクトップ機の最上位機種としては)期待されるような圧倒的な処理性能をまだ実現できていない。価格相応という評価(なので価格帯を下げた)
・チップ同士を連結するUltra Fusionは、GPU性能など独立したユニットの総合的な処理能力、および搭載メモリ量の増加に寄与するものの、一般的な処理の速度低下を招くようなデメリットもある(接続箇所がデータ転送のボトルネックになる)
・デスクトップ機向けのApple Siliconで、Eコア(電力効率のよい、非力なコア)はいらない。冷却能力の低いノートやスリム型デスクトップでは有効なEコアも、強力な冷却能力を備える大型デスクトップ機では、チップ上の面積の無駄づかいにしかならない
といったところでしょうか。
M4世代で実現したいこと
M4世代で実現したいことも見えてきたようです。
より進歩した3nm製造プロセスの導入による、歩留まりの向上と消費電力の効率化
AppleによるLLM「REALM」の実行を高速に行えるAIアクセラレータ機構
前者は、「まぁそうでしょうね」という内容。
後者については、多くの人が何か悪いものでも吹き込まれたように頭から信じてそのキーワードを吹聴しているのですが、「それが何であるか」「どのように機能するのか」については一切触れていないようです。
AIアクセラレータって何?
ChatGPTのようなLLM(大規模言語モデル)による自然言語インタフェースが登場し、同様のアプローチで、より高度な処理を行える取り組みが行われてきました。
AppleがLLMに取り組んでいることは、さまざまな噂レベルで漏れ伝わってきていましたが、RealMの論文が出てきたことで、「そろそろ何か出てくるのではないか?」という雰囲気になってきました。
RealMの概要をひもとくことで、AppleがApple Siliconに搭載するAIアクセラレータ(仮)の概要が見えてくるかもしれません。
言語モデルのパラメータがGPT 3より3桁ぐらい少ない
パラメータが少ないのにGPT 4と同様の性能を発揮できる
クラウドではなく、端末側で動作する
RAM 6Gバイト程度のiPhoneでも動作できるのであれば、これはなかなか画期的です。ただ、いきなりは無理そうなので、8GB程度まで搭載メモリを持った上位モデルのみ実行可能と見てもよいでしょう。iPad Pro、iPhone Proのみ実行可能とか。
あとは、LLM全体の傾向から見て、膨大な行列計算を高速に行えると便利そうであるとか。
GPT 3.5 175B
GPT 4.0 1.5T
Apple REALM-3B
Apple REALM-1B
Apple REALM-250M
Apple REALM-80M
(TはTrillion=1兆、BはBillion=10億、MはMillion=100万)
行列処理しなくても、単なるビット列として処理してもよさそうだとか。
……いろいろ計算して、1つの文を解析すると1Gバイト超のデータ要素になる(これでも、画期的に小さい)と仮定して、読み込むRAMの容量問題、SSDからLLMのデータをひっきりなしに転送する処理……などと、実際に発生しそうな処理のボトルネックを積み上げていくと……
「うん、これはデータを圧縮しないと間に合わないね!」
おそらくですが、仮に1つの文を解析して1Gバイト超のデータができたとしても、そのほとんどはからっぽのはずです。なので、「空き」がどの程度連続するのかという、画像におけるJPEGの圧縮/展開方式と似たような処理を高速に実行する回路があると、処理を高速化できそうです。
AIアクセラレータ(仮)の姿とは?
この、思いっきり下世話な圧縮/展開処理を行うものを「AIアクセラレータ(仮)」と呼び、これが独自にメインメモリやSSDにアクセスしてLLMの処理を高速化……するんでしょうか?
このAIアクセラレータ(仮)が動作する姿を思い浮かべてみましょう。
SoCの内部バス(ファブリック)が混雑して、ただでさえ帯域幅がボトルネックになっているところに「絶え間なく巨大なデータ転送が発生する」という状態になるので、ちょっと考えものです。下手をすると、OS全体の処理が低速化します。
ここは、AIアクセラレータだけで独立したCPUコア、ファブリック、RAMとSSDを持った「別のコンピュータ」になっていて、結果だけメインSoC側に返すのが一番処理が速そうです。これをAIアクセラレータ(仮仮)と呼びましょう。ただし、これが本当の姿なのかは正直なところわかりません。
このAIアクセラレータ(仮仮)だと、M4ないしA18チップで消費電力が「SoC 1個分増える」とかいう状況になりそうです。
6月のWWDCでの発表前なので、正確なところはさっぱり分からないのですが、常識的に考えるとこんなところでしょうか。