深層学習における2024年の主要トレンド:DeepLearning.AI The Batch年末号より
DeepLearning.AI The Batch の年末号から、2024年のAI分野における主要テーマと重要事項を日本語で以下にまとめます。
全体的なテーマ:
Andrew Ng氏は、AIの基礎技術の進歩は過去2年間で加速しているが、 アプリケーション分野における加速が最も顕著である と指摘しています。GPT-4のリリース以降、モデルは高速化、低価格化、小型化、マルチモーダル化、推論能力の向上、そしてオープンウェイト版の増加など、素晴らしい進歩を遂げています。しかし、より重要なのは、2023年3月のGPT-4ですでに理論的に可能だった多くのアプリケーションが、顧客サービス、質問応答、プロセス自動化などの分野で、初期段階ではあるものの大きな勢いを見せていることです。
Ng氏は、オープンモデルの開発者に重い負担を強いるような反競争的な規制がAIの進歩を阻害する唯一の要因であったと振り返り、2025年にはAI技術とアプリケーションの両面で、2024年よりもさらに急速でエキサイティングな進歩が見られると確信しています。
2024年の主要テーマ:
エージェントAIの台頭:
LLMを反復的にプロンプトすることで動作するシステムの基盤が構築され、幅広いアプリケーションでパフォーマンスが大幅に向上しました。
「エージェント」 という新しいバズワードが登場しました。これは、研究者、ツールベンダー、モデル構築者が、目標を達成するために選択を行い、行動を起こすようにLLMを装備したことを意味します。
Autogen、CrewAI、LangChain、Llama Stack、Devin、OpenHandsなど、エージェントワークフローの構築を支援するツールが登場しました。
AnthropicのClaude 3.5 Sonnetは、コンピュータの使用 機能を追加し、ユーザーのコンピュータを直接制御できるようになりました。
OpenAIのo1モデル、DeepSeek-R1、Google Gemini 2.0 Flashなど、エージェント的な推論機能を持つモデルが登場しました。
思考の連鎖 プロンプト、自己整合性、ReAct、Self-Refine、Reflexion、テスト時計算 など、LLMのプロンプトをより洗練された方法で行うための技術が発展しました。
重要なポイント:
「エージェント時代」 が到来しました。エージェントワークフローにより、AIシステムはますます有益で効率的かつパーソナライズされたものになっています。
価格の低下:
モデルメーカーとクラウドプロバイダー間の激しい競争により、最先端モデルへのアクセス価格が下落しました。
オープンソース、計算効率の高いモデル、推論時に多くのトークンを消費するエージェントワークフローへの期待など、価格下落を促進する要因がありました。
オープンウェイトモデルの競争、中国企業による低価格モデルの提供、Amazon、Google、OpenAIによる価格競争などが見られました。
Cerebrus、Groq、SambaNovaなどのスタートアップは、オープンウェイトモデルをより高速かつ安価に提供できる特化型チップを設計しました。
重要なポイント:
価格の低下は、健全な技術エコシステムの証です。需要の高いモデルは常に比較的高値で取引される可能性が高いですが、市場は100万トークンあたり数ドルではなく数セントで価格設定されるようになってきています。
生成型ビデオの台頭:
テキストからビデオを生成するモデルが数多く登場し、ビデオ生成が爆発的に普及しました。
モデルメーカーは、画像解像度、速度、出力の長さ、出力の制御能力を高めながら、説得力のある詳細なシーンを生成できるモデルを開発しました。
OpenAI Sora、Runway Gen 3 Alpha、Adobe Firefly Video、Meta Movie Genなど、主要なビデオ生成モデルが登場しました。
中国のモデル構築者は、TikTokやInstagram Reelsなどのソーシャルメディア向けのビデオ生成モデルを開発しました。
重要なポイント:
ビデオ生成は映画業界を再構築しつつあります。従来のデジタルビデオに特殊効果を追加するRunwayの技術など、ビデオ制作プロセスを効率化するツールが登場しています。
小型モデルの台頭:
これまで、最高のAIモデルはますます大型化していましたが、2024年にはスマートフォンで実行できるほど小型のLLMが登場しました。
Microsoft Phi-3、Google Gemma 2、Hugging Face SmolLMなどのモデルファミリーは、小型モデルに特化しています。
知識の蒸留、パラメータプルーニング、量子化、トレーニングセットのキュレーションなどの技術により、小型モデルの能力が向上しました。
重要なポイント:
小型モデルは、コスト、速度、展開の選択肢を劇的に広げます。研究者は、パフォーマンスを犠牲にすることなくモデルを縮小する方法を発見しており、開発者は収益性の高いアプリケーションを構築し、タイムリーなサービスを提供し、インターネットのエッジに処理を分散させる新しい方法を手に入れています。
買収の代替手段:
大規模なAI企業は、スタートアップを買収することなく、最先端の技術と人材を獲得するための創造的な方法を見つけました。
2024年には、一部の巨大テクノロジー企業がAIスタートアップと新しいパートナーシップ契約を結び、企業を買収することなく、トップエグゼクティブを採用し、技術へのアクセスを確保しました。
Microsoft、Amazon、Googleは、それぞれInflection AI、Adept AIとCovariant、Character.aiと契約を結びました。
重要なポイント:
スタートアップに一括払いおよび/またはライセンス料を支払う代わりに、トップクラスの人材と技術を獲得することは、急速に進化する研究と市場に遅れずについていくことに課題を抱える巨大テクノロジー企業にとって、新たな常識となりつつあります。
規制に関する懸念:
Andrew Ng氏は、オープンモデルの開発者に重い負担を強いるような反競争的な規制がAIの進歩を阻害する可能性があると警告しています。オープンソースモデルの制限につながる可能性のある規制に対する懸念も表明されています。
結論:
2024年はAIにとって画期的な年でした。エージェントAIの台頭、価格の低下、生成型ビデオの進歩、小型モデルの普及、買収の代替手段の出現など、AIは様々な分野で目覚ましい進歩を遂げました。AIは今後も急速に進化し、私たちの生活に大きな影響を与え続けるでしょう。
(appendix:各パート詳細)
情報源によると、AI は 2024 年に大きな進歩を遂げ、特に エージェントシステム、低価格化、生成ビデオ、小型モデル の分野において顕著な発展が見られました。以下に、各分野の詳細を箇条書きで示します。
エージェントシステム
研究者たちは、大規模言語モデル(LLM)に反復的なプロンプトを与えることで行動を起こさせるシステムの基盤を築きました。[4、23◦
「エージェント」という新しい AI 用語が登場し、LLM は目標を達成するために選択を行い、行動を起こせるようになりました。 [4、23]
Microsoft の Autogen、CrewAI の Python フレームワーク、LangChain の LangGraph、Meta の Llama Stack など、開発者がエージェントワークフローを構築するためのツールが登場しました。[5、24]
統合開発環境は、エージェントワークフローを実装してコードを生成するようになりました。例として、Devin、OpenHands、Replit Agent、Vercel の V0、Bolt などがあります。[5、24]
LLM メーカーは、ツール使用と関数呼び出しを実装することで、エージェントワークフローをサポートしました。[5、24]
低価格化
モデルメーカーとクラウドプロバイダー間の激しい競争により、最先端モデルへのアクセス価格が低下しました。[7、26]
OpenAI は、2023 年 3 月から 2024 年 11 月にかけて、モデルのパフォーマンス向上、入力コンテキストウィンドウの拡大、画像とテキストの処理能力向上にもかかわらず、クラウドアクセスモデルのトークンあたりの価格を約 90% 引き下げました。[7、26]
オープンソース、計算効率の高いモデル、推論でより多くのトークンを消費するエージェントワークフローへの期待の高まりなど、価格下落を促進する要因がありました。[7、26]
オープンウェイトモデルは、クラウドプロバイダーが開発やライセンスのコストを負担することなく、高性能モデルを提供することを可能にするため、価格低下に貢献しました。[8、27]
生成ビデオ
大小さまざまな企業が、新しい、または更新されたテキストからビデオへのジェネレーターを導入し、ビデオ生成が爆発的に増加しました。[10、29]
ビデオジェネレーターは、驚くべきスピードで成熟しました。ほぼすべての主要モデルが、現実的および幻想的な説得力のある、非常に詳細なシーンを生成し、画像解像度、速度、出力の長さ、ユーザーの出力制御能力が向上しました。 [10、29]
OpenAI の Sora、Runway の Gen 3 Alpha および Gen 3 Alpha Turbo、Adobe の Firefly Video モデル、Meta の Movie Gen など、多くのビデオジェネレーターが登場しました。[11、30]
中国のモデルビルダーは、ソーシャルメディア向けにモデルを調整しました。[11、30]
小型モデル
トップ AI 企業は、大規模モデルの構築にすべてのリソースを投入するのではなく、小、中、大から選択できる大規模言語モデルのファミリーを推進しました。[13、32]
知識蒸留、パラメータプルーニング、量子化、トレーニングセットのデータ品質管理への関心の高まりなど、小型モデルの機能が向上しました。[14、33]
◦
Microsoft の Phi-3、Google の Gemma 2、Hugging Face の SmolLM など、小型モデルに特化したモデルファミリーが登場しました。[13、32]