［8/20］Groq CEOインタビュー：NVIDIA GPUやハイパースケーラーに対する優位性と市場破壊

2024年8月20日 08:00

　Groqは、AIアクセラレータ市場において急速に注目を集めているスタートアップです。2016年に設立されたGroqは、生成AIの「インファレンス（推論）」の用途に特化したチップを開発しています。
　ChatGPTが世の中に出る遥か前の設立当初、市場には需要が存在せず、何度も倒産の危機に直面したといいます。しかし、OpenAIからChatGPTがリリースされ、生成AIブームが到来したことで、超高速推論に対する需要が急増し、Groqは脚光を浴びることとなりました。同社は昨年、2023年に6億4,000万ドルの資金調達を行い、現在の企業価値は28億ドルに達しています。
　Groqの最大の強みは、同社が開発するアクセラレータ・ユニットの「LPU（Language Processing Units）」で、NVIDIAのGPUに比較し、推論速度で4倍、コスト効率で5倍、エネルギー効率で3倍という優れた性能を誇る点にあります。そして、この性能が投資家や業界関係者から高く評価され、General Global CapitalやBlackRock、Samsung Catalyst Fundといった大手企業からの支援を受けるに至っています。現在、同社は「GroqCloud」というクラウド・サービスを提供しており、開発者が直接ハードウェア・チップを購入せずに、サービス利用できる仕組みを通じて、ユーザー数を拡大しており、ハイパースケーラーと呼ばれる巨大なクラウド・プレイヤーが闊歩する市場において、対抗し、食い込むべく、市場でのシェア拡大を目指しています。

　そんなGroqのCEOジョナサン・ロス氏（Jonathan Ross）の最新のインタビューを通じて紹介したいと思います。

［主なトピックス］

Groqの「LPU」の特徴やNVIDIAのGPUとの違い・優位性について
複雑な処理に「LPU」がもたらす効果と実現を目指していること
ハイパースケーラーに伍する競争力の拡大について
インフォメーション・エイジからジェネレーティブ・エイジへの変遷

（1）インタビュー

［リチャード・ニエバ］（Forbes）
　本日は、AIチップのスタートアップ「Groq」のCEO、ジョナサン・ロスさんにお越しいただきました。
　それでは、まず簡単に、Groqがどのようなことをしているのか教えていただけますか？

［ジョナサン・ロス］（Groq CEO）
　我々は、「LPU（Language Processing Unit）」を開発しています。皆さんがご存じの「GPU」とは異なり、「LPU」は言語処理ユニットです。GPUは高度な並列プログラム用に構築されています。つまり、同時に多くのタスクを実行できますが、それらは連続的ではなく、互いに依存することはありません。
　一方、LPUは言語処理に適しており、たとえば100番目の単語を予測するには、まず99番目の単語を予測する必要があるような、順序が重要な処理に対応しています。そのため、LPUは非常にユニークでありながら、とても高速です。初めてデモをお見せすると、たいていの方が「すごい」と驚かれます。

［リチャード・ニエバ］
　素人にもわかるように「インファレンス（推論）」について説明していただけますか？　それがAIを使う一般の人にとって、どのような意味を持つのかも教えてください。

［ジョナサン・ロス］
　チャットボットのサイトにアクセスして、質問を入力してエンターを押すと、返ってくる結果が「インファレンス」です。この「インファレンス」と、よく耳にする「トレーニング」の違いを、たとえば医者が心臓外科医になろうとする過程にたとえて説明しましょう。心臓外科医になるには、何年も学校で学びますよね。これが「トレーニング」にあたります。つまり、知識やスキルを習得する段階です。一方で、「インファレンス」は、実際に手術を行うこと、つまり実践です。
　トレーニングはコストがかかりますが、それでもインファレンスほどの費用はかかりません。この点が、多くの人が驚くところです。たとえば、私がGoogleにいたとき、世界最高の音声認識モデルをトレーニングしましたが、実際にそれを製品化するためのコストがあまりにも高く、実用化できなかったことがありました。そこで、そのモデルを高速かつ効率的に実行するために「TPU」を開発したのです。
　トレーニングは、AI研究者の数に比例してスケールしますが、研究者の数は世界でも限られています。しかし、インファレンスは、エンドユーザーの数に比例してスケールします。サム・アルトマンも言っていましたが、今、インファレンスは「驚くほど高価」なんです。我々は、それをより安価で高速、そして多くの人が利用できるようにするために取り組んでいます。

［リチャード・ニエバ］
　そこで、Groqはより高速なインファレンスに注力しているわけですが、それがなぜ重要なのか、また一般の人にどのように影響するのでしょうか？

［ジョナサン・ロス］
　これは、なぜ人々が速いスポーツカーを好むのかと聞くのに少し似ており、ただ単に、スピードが好きだからです。だからこそ、我々はウェブサイトを立ち上げ、実際に試していただけるようにしています。実際に人々がそれを試すのを見るのは楽しいもので、コメントも非常にポジティブです。結果がすぐに表示されると、人々は本能的に感動するんです。
　Googleでは速度に関する様々な研究が行われていました。たとえば、検索速度をほとんど知覚できないレベルでわずかに遅くして、A/Bテストを行ったところ、たとえ人間の目で違いがわからなくても、わずかに速い方を人々は圧倒的に多く利用する、という結果が出ました。つまり、たとえ意識して「こちらが速い」と感じなくても、速い方をより多く使う傾向があるんです。
　アプリを開いたときに、応答が非常に遅くて、答えを待っている間に考えがそれてしまうことってありますよね。やっと答えが出たときには、もう何を考えていたのか忘れてしまっている。このようなことが、人々が速い回答を求める理由です。スピードの速い応答は集中力を維持しやすくし、結果的に多くのことを達成する助けになります。

［リチャード・ニエバ］
　AIが進化し続ける中で、より高速なインファレンスによってどのようなことが可能になるのでしょうか？

［ジョナサン・ロス］
　ひとつ大きな可能性として考えられるのが、エージェント的な利用ケースです。今はチャットボットに質問を入力して答えを得るという、単一のステップに慣れていますが、それはあくまで1回のやり取りに過ぎません。例えば、旅行の予約をしたいとき、どこがいいでしょうか？

［リチャード・ニエバ］
　ハワイにしましょう。

［ジョナサン・ロス］
　例えば、ハワイへの旅行を予約したいとしましょう。「ハワイへの旅行を予約して」と入力すると、AIは次に「ハワイのどこに行きたいですか？」とか「ビーチでのんびりしたいですか？」といった一連の質問をしてくるでしょう。そして、これらの質問に対する答えを得た後、どの航空会社を使うか、どのホテルが空いているかなどを調べる必要があります。つまり、何かを達成するためには、複数のタスクを順番に処理する必要があるのです。
　こういった連続するタスク処理が、いわゆる「エージェント的なワークロード」です。このようなケースでは、すべてのステップを完了しないと最終的な解決には至りません。そして、各ステップで回答を得るのに時間がかかるほど、全体の処理時間もどんどん長くなってしまいます。
　実際、エージェントワークロードを構築した顧客がいました。彼らは、10億人以上のユーザーを抱える企業です。そして、結果が出るまでに4~5分間も待つ必要がありました。一方で、Groqに切り替えたところ、それは10秒に短縮されました。

［リチャード・ニエバ］
　AIチップについて考えるとき、多くの人がまず思い浮かべるのはNVIDIAだと思いますが、NVIDIAのチップとどのように異なるのでしょうか？

［ジョナサン・ロス］
　NVIDIAはGPU、つまりグラフィックス処理ユニットを作っています。我々はLPU、つまり言語処理ユニットを開発しています。GPUは並列処理が得意です。例えば、税金の申告をする場合、各ページを別の人に任せて記入してもらうようなイメージです。これがGPUの役割です。一方で、物語を書く場合は、筋書きの一貫性が必要です。始まりから終わりまで、すべてが他の出来事に依存します。そのため、物語を作るにはLPUが必要になります。LPUは順序に沿って処理を行うため、100番目の単語を予測する前に99番目の単語を予測する必要があるようなシチュエーションには最適です。
これは、GPUが得意ではない部分であり、LPUの強みです。

［リチャード・ニエバ］
　NVIDIAやAMD、Intelといった老舗企業に加え、SambaNovaやCerebrasなどの新興チップスタートアップもあります。御社はそのエコシステムの中でどのような立ち位置にあり、これらの競合他社とどのように競争しているのでしょうか？

［ジョナサン・ロス］
　我々が行っている主な取り組みの一つは、Groq Cloudというサービスを通じてチップを提供することです。このクラウドにアクセスすれば、実際に試してみることができます。　
　非常に高速で、さらに、我々が提供するAPIを使って、独自のアプリケーションを構築することも可能です。サーバーを購入してデータセンターに設置する必要はなく、我々がその部分をすべて代行するので、とても簡単に使えます。
　実際、ここ14週間ほどで、開発者の数が7人以下から26万人以上に増えましたが、これは我々が使いやすさにこだわったからです。特別な作業はほとんど必要なく、ただアクセスするだけです。我々が提供するAPIはOpenAIのAPIに対応しており、既存のコードがそのまま使えるようになっています。

［リチャード・ニエバ］
　長い間この分野に取り組まれていますね。2016年にスタートし、その後、2022年11月に突然ChatGPTが登場し、世界が生成AIを認識し始めました。それ以降、御社のビジネスはどのように変化しましたか？

［ジョナサン・ロス］
　これが我々にとって大きな変革となりました。面白いことに、実は最初、資金が尽きてしまうのではないか、会社が存続できないのではないかと考えていました。というのも、我々が開発したものは、少し時期尚早だったからです。大規模言語モデルが登場するまでは、高性能な推論処理が必要とされていなかったんです。それ以前の画像分類モデルなどでは、処理速度が十分に速くて問題になりませんでした。しかし、言葉を次々とつなげていく必要があると、各単語を計算する時間が積み重なっていきます。たとえば、600語を生成するのに1語あたり2ミリ秒かかるとすると、合計で12秒かかることになります。もしGoogleで検索して、エンターを押してから12秒もかかって答えが出てくるとしたら、それは使い物になりません。
　大規模言語が登場したことで、我々のハードウェアがどれだけ速いかを直感的に理解してもらえるようになり、その重要性が増しました。遅延が100ミリ秒改善されるごとに、エンゲージメントが約8%向上すると言われていますが、我々は100ミリ秒の改善にとどまらず、処理時間を10秒から1秒にまで短縮しました。これは、8%の改善を90回積み重ねたことに相当します。
　我々は、Groqの初めての6カ月間、チップの設計に取り掛かる前に、コンパイラの開発に集中していました。我々の知る限り、これを行ったのは我々だけです。
　通常、チップはハードウェアエンジニアやアーキテクトによって設計され、まずチップを作り、その後にソフトウェアを考えるのが一般的です。我々のやり方は、運転手が車をデザインするようなもので、その結果、エンジンをどのようにこの奇妙な構造に組み込むかで頭を悩ますことになります。つまり、メカニックやハードウェアエンジニアが設計したものとは違うものになりますが、最終的にはエンドユーザーにとってはるかに使いやすいものになります。
　実際に、Llama 3がリリースされたときも、我々はそれが我々のアーキテクチャに沿ったものではなかったにもかかわらず、即座に製品化にこぎ着けることができました。これは、我々があらかじめコンパイラに注力していたからこそ可能になったのです。

［リチャード・ニエバ］
　今後、御社が直面する最大の課題は何だとお考えですか？

［ジョナサン・ロス］
　現在、我々が直面している最大の課題は、より多くのハードウェアを展開することです。現時点で200ラック以上が稼働していますが、年末までに1,300ラックに増やす必要があります。つまり、200から1,300へのスケールアップが求められています。我々が取り組んでいることはすべて、このスケーリングに関わることです。もしこれを達成できれば、その1,300ラックは、最大規模のハイパースケーラーが2023年末時点に有していた容量と同等になります。そうすれば、我々はハイパースケーラーと同じ規模で競争できるようになるのです。

［リチャード・ニエバ］
　御社以外にも「Groq」という名前を持つものがありますね。例えば、イーロン・マスク氏のチャットボットも「Groq」と呼ばれていますが、それによって混乱が生じたことはありますか？

［ジョナサン・ロス］
　我々は、先に宣言し、商標を取得しているので、先手を打ったということです。

［リチャード・ニエバ］
　「コンピュートは新しい石油だ」とおっしゃっていたのがとても興味深いのですが、それについてもう少し詳しくお話しいただけますか？それはどういう意味なのでしょうか？

［ジョナサン・ロス］
　考え方としては、テクノロジーのすべての時代は、何かしらの希少な資源に基づいているということです。産業時代は石油や石炭、天然ガス、そして今では太陽光や風力といったエネルギーが基盤となっていました。情報時代は印刷機から始まり、最終的にインターネットやモバイルに至りました。資金調達の際に「AIは次のインターネットになるのか？次のモバイルになるのか？」と質問されることがありましたが、私の答えは「絶対に違う」というものでした。なぜなら、それらはインフォメーション・エイジの技術であり、AIはジェネレーティブ・エイジの技術だからです。
　インフォメーション・エイジのテクノロジーは、データを高精度でコピーし、それを複製して配布することに焦点を当てていますが、ジェネレーティブ・エイジのテクノロジーは、質問に応じて新しいものをその場で創り出すことにあります。これがインフォメーション・エイジとの大きな違いです。

［リチャード・ニエバ］
　ジョナサンさん、本日はご参加いただきありがとうございました。

［ジョナサン・ロス］
　こちらこそ、お招きいただきありがとうございました。

（2）オリジナル・コンテンツ

　オリジナル・コンテンツは、以下リンクからご覧になれます。
尚、本投稿の内容は、参考訳です。また、意訳や省略、情報を補足したコンテンツを含んでいます。

Forbesより
（Original Published date : 2024/08/20 EST）

［出演］
　　Groq　：　ジョナサン・ロス（Jonathan Ross）、CEO
　　Forbes　：　リチャード・ニエバ（Richard Nieva）

［関連コンテンツ］

以上です。

御礼

　最後までお読み頂きまして誠に有難うございます。
役に立ちましたら、スキ、フォロー頂けると大変喜び、モチベーションにもつながりますので、是非よろしくお願いいたします。　
だうじょん

免責事項

　本執筆内容は、執筆者個人の備忘録を情報提供のみを目的として公開するものであり、いかなる金融商品や個別株への投資勧誘や投資手法を推奨するものではありません。また、本執筆によって提供される情報は、個々の読者の方々にとって適切であるとは限らず、またその真実性、完全性、正確性、いかなる特定の目的への適時性について保証されるものではありません。　投資を行う際は、株式への投資は大きなリスクを伴うものであることをご認識の上、読者の皆様ご自身の判断と責任で投資なされるようお願い申し上げます。

いいなと思ったら応援しよう！

この記事が参加している募集

#朝のルーティーン

22,498件