見出し画像

2024年10大AIニュースと2025年の展望

2024年も年末が押し迫ってきましたので、今年一年のAIの動きを振り返りつつ、来年の展望を考えてみたいと思います。

2022年は、AIの歴史において重要な節目の年となりました。夏には画像生成AIブームが起こり、年末には、生成AIの威力を広く世に知らしめたChatGPTが公開されました。これらの出来事により、2022年は「AI革命が始まった年」として記憶されるだろうと書きました。

2023年には、生成AI技術がさらに進化を遂げ、文章生成、画像生成、動画生成、楽曲生成など様々な分野で生成AIが本格的に活用されるようになりました。このことから、2023年を「生成AI百花繚乱の年」と名付けました。

2024年は、前年以上にあらゆる分野で生成AIの進化がさらに加速しました。そして、大規模言語モデル(LLM)の性能も飛躍的に向上し、遂には、多くの人間の知能を超えたと言われるモデルも登場しました。このように、汎用人工知能(AGI)の実現が現実味を帯びてきたことから、2024年を「AGIの足音が聞こえる年」と呼びたいと思います。

今回の記事では、最初に、昨年の10大AIニュースを振り返り、次に今年の10大AIニュースを発表します。今年は、あまりにも生成AI関係のニュースが多かったために、筆者もフォローしきれていないところもありますが、独断と偏見で自分のランキングを披露します。最後に、とても難しいのですが、来年、生成AIに何が起こるかについての予想を立ててみます。是非、興味ある部分だけでも読んでいってください。


1.昨年の10大AIニュースの振り返り

昨年(2023年)、筆者が選んだ10大AIニュースは、以下の通りでした。

2023年10大AIニュース
1位 GPT-4
2位 GPTs
3位 ChatGPTの機能拡張
4位 AI規制の動き
5位 Gemini
6位 オープンソースLLM
7位 画像生成AIの発展
8位 アルトマンCEOの解任と復帰
9位 動画生成AIの進化
10位 Suno AI

AIの進化があまりにも早いので、2023年のAIニュースを見ると、はるか昔の出来事のように感じられます。

2023年3月に公開されて以来、長らく最高性能のLLMとして君臨したGPT-4が1位にランキングされました。GPT-4は、2024年5月に公開されたマルチモーダル対応のGPT-4oに引き継がれ、現在でも、現役のLLMとして活躍しています。

他方、昨年から期待されていたGPT-4の次世代モデルであるGPT-4.5又はGPT-5は、2024年中に公開されませんでした。

2.2024年10大AIニュース

(1) 10位から1位まで逆順に発表

10位 GPT-4o

今年5月、OpenAIがGPT-4(2023年11月に公開されたGPT-4 Turbo)の改良版であるGPT-4o(オムニ)を公開しました。GPT-4oは、従来のモデルより回答の精度及び応答速度が向上し、音声の入出力や画像認識などのマルチモーダル機能が強化されました。Gemini 2.0やClaude 3.5 Sonnetなどと並んで、現在でもトップレベルの性能のLLMとして活躍しています。

GPT-4oの公開以降、マルチモーダル対応のLLMが主流になり、画像の利用や音声での会話などAIの活用範囲が広がりました。

Chatbot ArenaのLLMリーダーボード 総合ランキング(2024.12.22現在)

9位 Computer use

今年10月、Claudeを展開しているAnthropicがComputer useという機能を公開しました。Computer useは、ユーザーの指示に基づいて、AIがスクリーンショットを解析し、カーソルの移動、クリック、テキスト入力、ウェブ検索などの操作を自律的に実行する機能です。

Computer useの実行画面

現在のComputer use機能は、テスト版で反応速度も遅く、利用できる範囲も限られていますが、AIが人間の代わりに様々なタスクを実行するAIエージェントの初歩的な機能を体験することができ、将来のAIエージェントの発展を期待させるものとなっています。


8位 Artifacts

今年6月、AnthropicがClaudeの新機能として、Artifacts機能を公開しました。Artifacts機能は、AIが生成したコードを実行して生まれる成果物(Artifacts)であるグラフ、デザイン、アプリなどをプレビュー表示する機能です。Claudeは、以下の6種類のArtifactsを生成することができます

ユーザーは、Artifacts機能を利用すれば、コードに関する専門的な知識が無くても、素早く簡単に情報を視覚的に整理したり、アプリのプロトタイプを作成したりすることができます。

今年12月に、ChatGPTもコードの実行結果やグラフを表示できるようになりましたが、ClaudeのArtifacts機能の方がアプリのプロトタイプを作成できる点や、視覚的表現の豊かさでChatGPTよりも優れています。


7位 Advanced voice mode

今年9月に、ChatGPTのスマホアプリに新機能として、Advanced voice modeが追加されました。現在は、デスクトップのアプリでも使用可能です。この機能により、人間に近い会話速度で、感情表現も含めた自然な会話が可能になりました。

さらに、今年12月には、スマホ版のAdvanced voice modeに、リアルタイムビデオ通話と画面共有の機能が追加され、スマホのカメラで映した映像やスマホ画面上の情報について会話できるようになりました。

これらの機能により、音声でも、テキストと遜色なくChatGPTを利用できるようになってきました。


6位 AI版マンハッタン計画

今年11月、米国議会の米中経済安全保障調査委員会(USCC)は、AI版マンハッタン計画の立ち上げを提言しました。

AI版マンハッタン計画とは、米国がAI技術や将来のAGI開発で主導権を握るために、国家主導で大規模な研究開発プロジェクトを推進しようとする構想です。この名称は、第二次世界大戦中に米国が原子力爆弾を開発したマンハッタン計画に由来し、同様の規模と緊急性を持つ取組だということを意味しています。

背景には、中国がAI技術の分野で大きな進歩を遂げていることがあり、中国のAI開発が軍事や産業での優位性に繋がることへの懸念が米国内で高まっていることがあります。AIの開発には多くの計算資源とそれを動かすための膨大な電力が必要となることから、原子力発電を始めとする大規模な電源開発への投資の動きも始まっています。

OpenAI、Google、Meta、MicrosoftなどのメガテックのAI開発競争が激化する中、AI版マンハッタン計画がAI技術の進化にどんな影響を与えるのか、また、開発されたAGIがオープンに利用できるものになるのかなど今後の動向が注目されます。


5位 Gemini 2.0

今年12月、OpenAIは、「12 Days of OpenAI」という12日間連続して、新サービスや新機能を発表するイベントを開催しましたが、これに対抗して、Googleも同時期にGemini 2.0などの新AIモデルや新機能を多数公開しました。

最新のAIモデル Gemini 2.0 Flash Expreimentalは、GeminiのWebサイトGoogle AI Studioなどで無料で使用することができ、旧モデルのGemini 1.5 Flashから大幅に進化して、処理速度が約2倍に向上し、マルチモーダル対応やエージェント機能が強化されました。

また、ChatGPTのAdvanced Voice modeと同様に、リアルタイムで会話し、ビデオチャットや画面共有もできるMultimodal Live APIや、ユーザーが指定したトピックについて、AIが自律的にウェブ上の情報を収集・分析し、包括的なレポートを生成するDeep Research(有料版のGemini Advancedで使用可能も同時に公開されました。

o1と同様の推論ができる新モデル Gemini 2.0 Flash Thinkingも公開され、さらには、ユーザーの日常生活をサポートするスマホ向けのAIアシスタント機能 Project Astraやユーザーの指示に基づいてWeb上でのタスクを自動化する Project Marinerなどのデモも公開されました。

これらの機能を合わせると、ライバルのChatGPTやClaudeの機能のほとんどをカバーしたものになり、AI技術におけるGoogleの底力を見せつけるものとなりました。これらの発表は市場からも評価され、発表後にGoogleの親会社Alphabetの株価は過去最高値を記録しました。


4位 動画生成AIの飛躍的進化

動画生成AIは今年になって飛躍的に進化しました。

今年2月には、OpenAIが動画生成AI Soraのデモを発表し、その高品質な映像に世界中が驚きました。

しかし、今年12月にOpenAIがSoraを改良したSora Turboを公開するまでに、高性能な動画生成AIがいくつも公開され、Soraは必ずしも最高性能の動画生成AIとは言えなくなってしまいました。Soraは高画質で、ストーリーボードやリミックスなどの動画編集機能も便利ですが、物理法則から外れた不自然な動きをすることがあり、動きをコントロールしづらいという欠点があります。

主な動画生成AIのライバルとしては、Luma DreamMachineRunway Gen-3、中国系のHailuo AIKLING AIなどがあります。特に、中国系の動画生成AIは対象物の動きが大きく、扱いやすいと感じます。

さらに、今年12月、Googleが新しい動画生成AI Veo 2のデモを公開しました。Veo 2は、最大4Kの高解像度で2分以上の動画を作成可能であり、動きも自然で、これまでに挙げたすべての動画生成AIを凌駕する性能を持っているようです。まだ利用申請受付中で利用できませんが、公開が待ち遠しいところです。

今回、10大AIニュースに入らなかった画像生成AI楽曲生成AIについても、ここで簡単に触れておきます。

画像生成AIも、2024年に大きな世代交代が起きています。無料のオープンモデルで一世を風靡したStable DiffusionはSD3.5まで公開されていますが、これを凌ぐ性能と人気の画像生成AIモデルがいくつも現れました。

今年8月に、Stable Diffusionの元開発者たちが立ち上げたBlack Forest LabsFLUX.1を公開しました。FLUX.1は非常に高品質で生成速度も速く、Xが公開したAIモデルのGrokと併せて利用できるようになったため、広く人気を集めました。また、英国のスタートアップが開発したRecraft V3やGoogleが開発したImagen 3も品質の高さや生成速度の速さが認められて、人気です。

楽曲生成AIについては、昨年12月に公開されたSunoがバージョンアップを繰り返し、今年11月にはSuno V4が公開されて、より音質が向上しています。今年4月に誕生したUdioも、10月に最新モデルのUdio v1.5が公開されて、音質が向上し、多くの新機能が追加されています。

また、今年11月に、DMMグループのAlgomaticにじボイスというAI音声生成サービスを公開し、その品質と使いやすさから、日本の音声生成AIの定番になりそうです。


3位 AI研究者のノーベル賞受賞

今年の10月、AI研究者たちがノーベル物理学賞と化学賞を相次いで受賞するという快挙を成し遂げました。

物理学賞「人工ニューラルネットワークを用いた機械学習を可能にする基礎的な発見と発明」に対して、ディープラーニングの父と呼ばれるジェフリー・ヒントン教授ら2名が受賞し、化学賞「AIによるタンパク質構造予測」に対して、Google DeepMind CEOのデミス・ハサビス氏ら3名が受賞しました。

これらの受賞は、科学研究の発展におけるAI技術の重要性を証明し、将来、科学研究の様々な分野でAI技術が大きな役割を果たしていく可能性を示しました。一方で、ヒントン教授は、AIの急速な発展に対する懸念を表明し、AI技術のリスクや社会的影響についても考えさせられる契機となりました。


2位 o1

今年の12月5日から20日まで、OpenAIが毎日新サービスや新機能を発表する「12 Days of OpenAI」というイベントが開催されました。この初日に、プレビュー版として提供されていた高度な推論能力を持つAIモデル o1の正式版が公開されました。また、併せて、月額200ドルのChatGPT Proの加入者だけが使えるo1よりも高性能なo1 pro modeも公開されました。

o1は、Chain-of-Thought(思考の連鎖)プロセスを採用し、長い時間をかけて推論することにより、複雑な問題を段階的に解決します。この手法により、数学、プログラミング、科学的な質問などの分野において、人間の専門家に匹敵する性能を発揮できるようになりました。

以下のグラフを見ると、GPT-4oと比較して、米国数学オリンピック予選(AIME)の正解率が13.4%→83.3%、競技プログラミングのCodeforcesのテストの正解率が11.0%→89.0%と大幅に上昇しているのが分かります。

出典:OpenAI公式サイト Learning to Reason with LLMs(2024.9.12)

また、o1は出力トークン数も増えており、従来より長い文章を一度に出力できることから、o1を使用するメリットは非常に大きいと言えます。

o1の公開前には、事前学習のスケーリング則の頭打ちによるAIの性能向上の限界がささやかれていたのですが、o1の発表を契機に、推論のスケーリング則によるAIの性能向上が引き続き期待されるようになりました。実際、o1によって、推論に時間と計算資源を投入することで、AIの性能をさらに向上させる可能性があることが示されましたが、この推論のスケーリング則がどこまで続くのかは、未だ分かりません。

1位 o3

今年の12月、「12 Days of OpenAI」の最終日に、o1の次世代モデルであるo3とその軽量版o3-miniのプレビューが発表されました。イベントの初日にo1の正式版が公開されたばかりなのに、最終日にその改良版が発表されたことには驚きました。なお、o3はo1の次のモデルですが、商標の関係でo2を飛ばして、o3になったようです。

o3はo1の推論能力をさらに強化した設計となっており、高度な数学、プログラミング、科学分野などで顕著な性能向上を示しています。

例えば、o1と比較して、AIME(数学)の正解率が83.3%→96.7%CodeforcesのELOレートが1891→2727と大幅に上昇しました。また、Frontier Math(数学者が数時間から数日かかる超難問)で25%以上の正答率を達成(従来は2%未満)し、 ARC-AGIベンチマーク(汎用人工知能への進捗を測定)では、高計算設定で、人間のスコアである85%を超えました。

米国数学オリンピック予選(AIME)などの成績

この成績を見ると、数学やプログラミングの分野では、既に研究者や専門家のトップクラスの成績に追い付いていることが分かります。

ただし、o3やo3-miniは現在、安全性のテスト中で、o3-miniの公開は来年(2025年)1月末、o3はそれ以降の公開予定とされています。また、o3は運用コストが相当高額らしいので、利用料がどのくらいの金額になるのかも気になるところです。

まだ公開されていないので、o3の本当の実力は分かりませんが、ベンチマークの通りであれば、少なくとも数学、プログラミング、科学などの分野では、人間のトップクラスの性能に近づいてきたということができ、このまま推論のスケーリング則の有効性が継続すれば、近い内に人間の性能を超えるAGI(超知能)を実現することが期待できます。

(2) 最終結果

2024年10大AIニュースの最終結果は以下の通りです。

その他
10位までに挙げた以外にも、取り上げたいニュースは以下のように沢山あったのですが、残念ながらランク外となってしまいました。

ChatGPTの新データ分析機能、新検索機能、Canvas機能、NotebookLM、Claude 3.5 Sonnet、ClaudeのProjects機能、スタイル選択機能、Llama 3、DeepSeek、Sakana AIのAI Scientist、ノーコードAIアプリ開発ツール(v0, Dify, Create, Boltなど)、専用AIツール(Napkin AI, Genspark, NoLangなど)、アッシェンブレンナー氏の予測、ダリオ・アモデイ氏のエッセイ、OpenAIによる5段階のAI発展レベル、EUのAI規制法、米国AI安全研究所とOpenAIなどの覚書など


3.2025年の予想

(1) AGIの足音

2025年1月末には、OpenAIから最新の推論モデルの軽量版であるo3-miniの公開が予定されており、その後、o3の公開も予定されています。ベンチマークによれば、数学やプログラミングについては、トップクラスの研究者や専門家に近い性能を持っているようであり、他の科学研究分野でも相当高い性能を持っていることが予想されます。

今後も、さらに計算資源の投入によって推論モデルの性能が進化することを考えれば、2025年中には、AIが科学研究の分野で新しい発見や発明を成し遂げたというニュースをいくつか目にすることになるでしょう。そして、2026年以降には、AIによる発見や発明が普通のことになっていくと思われます。

そうなれば、AGI(超知能)が実現したと言っても過言ではないでしょう。

(2) AIエージェントの進化

2025年には、科学研究分野での貢献と共に、AIエージェントの大きな進化が見られると思います。

今年は、Anthropicが、AIがコンピュータ画面を認識して、自律的にパソコンの操作を行うComputer useを公開し、Googleもユーザーの指示に基づいてWeb上でのタスクを自動化する同様のエージェント機能 Project Marinerのデモを発表しました。

これらの機能がさらに進化するとともに、OpenAIも2025年に新しいAIエージェントを発表すると予想されています。こうして、2025年中には、人間の業務の一部を代替できるような進化したAIエージェントが見られるのではないかと思っています。

(3) コンテンツ生成AIの進化など

現在でも、画像生成AI、楽曲生成AI、文章生成AIの性能は相当向上し、人間が作成したものと見分けるのが難しいレベルに達しています。また、動画生成AIの性能も相当上がってきました。

2025年には、AIがフル生成(人手の修正はあるが、全体をAIが生成)した短編映画が現れ、AIがフル生成した小説が文学賞を取るのではないかと思っています。

ロボットの分野もAIモデルの活用が進み、数年後には、家庭用の汎用ロボットが市販されるようになるでしょう。

(4) 最後に

2024年中に、GPT-4の後継となるGPT-4.5やGPT-5は公開されませんでした。現在、注目はo3などのoシリーズに向いていますが、GPTシリーズの今後はどうなるのでしょうか。これまでのGPTモデルとoシリーズの推論モデルを統合したとされる、通称「Orion(GPT-5?)」の行方にも関心が集まっています。OpenAIの今後の動向にはますます目が離せません。

また、より大きな視点では、米中間のAI開発競争が今後どのように展開するのか、そしてメガテック間の競争ではどの企業が主導権を握るのかが注目されます。さらに、進化を続けるAIが世界をどのように変えていくのか、私たち一人ひとりがAIの進化に取り残されないよう、しっかりと対応していくことが求められています。

2024年もAI技術は驚くべきスピードで進化し、社会に与える影響は一層大きなものとなりました。これからも、AI技術の進化を見守りながら、分かりやすい情報発信を続けていきたいと考えています。

なお、筆者の今年の大きな出来事として、初めてChatGPTに関する書籍を出版したことが挙げられます。ご興味があれば、ぜひ一度手に取っていただけると幸いです。


いいなと思ったら応援しよう!