
新たなショッキングなハイブリッド型Mambaの「速い思考」AIがChatGPTとDeepSeekを圧倒!
4,602 文字
テンセントの新型AIモデルはChatGPTやDeepSeekよりもはるかに速く思考し、Inception Labsが「Mercury」という全く新しいテキスト生成方法を導入しました。これは信じられないほど効率的で、他のすべてを凌駕しています。また、OpenAIのGPT-4.5についても触れますが、思っているものとは違います。最後に、AIに本物の感情的知性を与えるTTSモデル「Octave」についても紹介します。AIは急速に進化しているので、早速見ていきましょう。
まずはテンセントの最新リリースである「Hunyuan Turbo S」から始めましょう。2月27日に発表されたTurbo Sは「速い思考」モデルとして宣伝されており、DeepSeek R1やHunyuan T1のような「遅い思考」モデルとは大きく異なります。基本的に、ほとんどの大規模モデルは回答を出す前に1、2秒考えますが、Turbo Sはほぼ瞬時に応答するように設計されています。実質的に会話速度は2倍になり、初期レイテンシーは44%も削減されました。つまり、ほぼ瞬時の回答が得られるということです。もうモデルがデータを1行ずつ処理するのを待つ必要はありません。
性能面では、Hunyuan Turbo Sは広く使われているさまざまなベンチマークによると、大手プレイヤーと肩を並べています。一般的な知識、数学、さらには論理指向の推論タスクなどの分野で、DeepSeek V3、GPT-4o、Claudeなどのビジネスモデルと互角に戦っています。
内部的には、Turbo Sはハイブリッド型Mamba-Transformerフュージョンアプローチに依存しています。このアーキテクチャは、標準的なTransformer構造でよく遭遇する計算の複雑さを削減することを目的としています。また、推論中のKVキャッシュ使用量を減らし、トレーニングと推論の全過程をより安価にします。テンセントによると、ハイブリッド型Mamba-Transformerデザインは、長いテキストを扱う際の純粋なTransformer構造に関連する高コストに特に対応しています。
基本的に、彼らは長いシーケンスで優れたMambaの効率性と、Transformerのコンテキストキャプチャの強みを組み合わせました。その結果、巨大なメモリ負荷を処理できるにもかかわらず、コスト効率の良いモデルが生まれました。テンセントはまた、これがMambaアーキテクチャを性能損失なく超大型MoE(mixture of experts)モデルに適用した初めてのケースだと主張しています。
これらすべては基本的に企業にとってデプロイメントコストの削減につながります。しかし、Turbo Sはテンセントのより大きなHunyuanエコシステムの一部にすぎません。彼らはこれをコード生成、推論タスク、長文テキスト処理などを支える基盤モデルとして位置づけています。
開発者や企業ユーザーの方は、すでにテンセントクラウドのAPIを通じてHunyuan Turbo Sを約1週間無料で呼び出すことができます。試用期間後の価格は、入力が100万トークンあたり0.8元、出力が100万トークンあたり2元となっています。テンセントのYuan Bプラットフォームを使用している場合は、Hunyuanモデルを選択し「深い思考」をオフにすることでグレースケールで試すことができます。新しいシステムをテストドライブするには素晴らしい方法です。
次は、Inception LabsのMercuryについて話しましょう。テキスト生成の新しい方法に興味がある人にとって、これは完全なゲームチェンジャーです。Mercuryは最初の商用拡散ベース言語モデル(DLLM)と呼ばれています。
「拡散は画像や動画のためのものでは?」と思うかもしれません。通常はそうです。Midjourney(ミッドジャーニー)やOpenAIのSoraを思い浮かべてください。しかしMercuryは、従来のLLMのようにトークンを一つずつ予測するのではなく、coarse-to-fine(粗から細へ)のアプローチを使用して並列にテキストを生成します。
ここでの大きな主張は、Mercuryが従来の逐次言語モデルよりも最大10倍速く実行できるということです。Inception Labsによると、NVIDIA H100 GPUで毎秒1,000トークン以上の生成速度を実現しています。参考までに、通常はGrok(グロック)やCerebras(セレブラス)のようなアクセラレーターといった専用ハードウェアがあれば、そのようなスループットに近づけます。
Mercuryの拡散トリックは基本的に、テキストの下書きから始まり、それを同時に洗練していきます。初期のベンチマークによると、MercuryはOpenAIのGPT-4o miniやAnthropicのClaude 3.5 Haikuなどの速度最適化モデルと互角に戦っています。そして注目すべきは、これをはるかに低いレイテンシーで実現していることです。これは、スピードが重要なコード生成、カスタマーサポート、企業の自動化シナリオにとって大きな勝利となる可能性があります。
Andrej Karpathy(アンドレイ・カーパシー)などの尊敬されるAI専門家も、Mercuryの拡散アプローチを通常の自己回帰技術からの興味深い離脱と評しています。Inception Labsは、既存のモデルの代替品としてMercuryをマーケティングしており、APIとオンプレミスデプロイメントの両方を提供すると述べています。
このアプローチが主流になるかどうかは興味深いところです。もしそうなれば、特に超高速応答を要求するリアルタイムアプリケーションにとって、テキスト生成の新時代が開かれるかもしれません。
次に、OpenAIのGPT-4.5に移りましょう。GPTラインナップの次のイテレーションが正式に発表されました。OpenAIによると、GPT-4.5は文脈理解、感情のニュアンス、さらには高度な問題解決において顕著な改善を提供します。また、ハルシネーション(AIモデルが単に物事を作り出す奇妙な瞬間)を減らし、人間のフィードバックとよりよく調整するための作業も多く行われています。
以前のGPTバージョンを使用していた開発者なら、GPT-4.5はすぐに使えるようになっているかもしれません。当初はChatGPT Proユーザーと開発者がAPI経由で利用できますが、すぐにより広くロールアウトする予定です。このモデルはマルチモーダルで、テキスト、画像、さらにはファイル処理にも対応できます。また、多言語対応なので、複数の言語でのコンテンツの生成と理解に優れています。これはグローバルチームにとって非常に重要です。
もう一つの大きなハイライトは、人間のフィードバックからの強化学習(RLHF)などの高度なトレーニング方法の使用です。これは基本的に、GPT-4.5が私たちユーザーが望むものとその回答をより良く調整するのに役立ちます。また、スケーラブルなアライメント技術も活用しています。簡単に言えば、キュレートされたデータセットから効果的に学習しながらも、実行が非常に効率的であるということです。
彼らは改善された推論にも焦点を当てています。つまり、GPT-4.5は法的研究、科学的探究、コードのデバッグなど、論理と詳細が重要な分野に取り組むのにより適しています。統計が好きな方のために言うと、GPT-4.5は正確性、事実性、全体的な創造的知性において古いモデルを上回っているとのことです。APIとも上手く統合されるので、高度な関数呼び出しと自動化をワークフローに組み込むことができます。例えば、GPT-4.5にデータベースへの関数呼び出しを行い、結果を解析し、最終的な答えを構造化された形で提供するよう依頼することができます。
将来を見据えて、OpenAIはGPT-4.5が基本的により高度な推論ベースのシステムへの道を開いていると述べています。また、最初はProユーザー専用ですが、今後数週間でより多くのユーザー層に拡大する予定で、複数のプラットフォーム(ウェブ、モバイル、デスクトップ)で利用可能だとも述べています。企業がこれに参入したい場合は、ビジネスアプリケーション向けの堅牢で信頼性の高い機能の提供に焦点を当てているため、今がチャンスのようです。
最後に、Hume AIのOctaveについて話しましょう。これは感情的知性に長けた全く新しいテキスト読み上げ(TTS)AIモデルです。Octaveは2月26日に発表され、一般的なTTSとは異なり、テキストだけでなく、そのテキストの背後にある文脈や感情的トーンも解釈できます。
従来のTTSは通常、言葉をかなり平坦または一般的な抑揚で読み上げるだけですが、Octaveは入力の感情的なニュアンスに実際に一致する出力を生成することを目的としています。例えば、「本気なの?」と困惑した口調で入力すると、Octaveはその感情を生成された音声でキャプチャすることを目指しています。彼らは「ゴブリンのオークショニア」と呼ばれる例も紹介しており、おそらくコミカルでドラマチックな雰囲気があるのでしょう。
Hume AIは機械的な音声と本物の人間のコミュニケーションに近いものとのギャップを埋めることに焦点を当てています。バーチャルアシスタント、自動化されたカスタマーサポートライン、アクセシビリティツールを構築している場合、Octaveのコンテキストや個性をキャプチャする能力はゲームチェンジングとなるかもしれません。
このモデルはまた、さまざまなカスタマイズ機能を提供しているため、感情的な表現を微調整することができます。これはインタラクティブなストーリーテリングやブランド固有の音声ペルソナなどに非常に役立つ可能性があります。
内部的には、Octaveは感情的コンテキストに重点を置いた高度な自然言語処理と音声合成アプローチを使用しています。Hume AIによれば、これは明瞭さとスピードだけに焦点を当てるのではなく、ニュアンスのある表現に焦点を当てている点で、他のTTSシステムとは一線を画しています。
興味深いのは、Octaveが様々な新しい創造的アプリケーションへの道を開く可能性があることです。シーンに応じて気分を変えることができる声でのポッドキャストやオーディオブック、または学生を引き付けるためにトーンを変えることができる教育ツールを想像してみてください。
Humeはまた、ユーザーに彼らのプラットフォームでOctaveを試す機会を提供しており、これはさらに洗練するためのリアルワールドのフィードバックを求めていることを示唆しています。
AIの開発は本当にクレイジーな一週間でした。どの開発が最も刺激的だと思うか、あるいは試してみる予定があるかをコメントで教えてください。いつもご視聴ありがとうございます。新しい方は、AIとテクノロジーに関するすべての最新情報を得るためにぜひチャンネル登録をお願いします。