2023年10大AIニュースと2024年の展望

2023年12月31日 16:32

2023年も年末が押し迫ってきましたので、今年一年のAIの動きを振り返り、来年の予想を立ててみたいと思います。

昨年の記事で「2022年はAI革命の始まった年として記憶されるようになる」と書きましたが、2023年は更に急速に生成AIが進化・普及し、非常にインパクトの大きな年になりました。文章生成、画像生成、動画生成、楽曲生成などあらゆる分野で生成AIが開花し、2023年は、まさに「生成AI百花繚乱の年」と言えるでしょう。

今回の記事では、最初に昨年の予想を振り返り、それがどれだけ当たり、どれだけ外れたのかを検証します。
次に、2023年の10大AIニュースを発表します。今年は本当に激動の年で、生成AIがあらゆる分野で一気に進化したため、筆者も十分にフォローできていないところがありますが、独断と偏見で自分の考えを披露します。
最後に、非常に難しいのですが、2024年の予想を立ててみます。
是非、興味ある部分だけでも読んでいってください。

１．昨年の予想の振り返り

昨年の記事では、2023年の展望として、以下の3つを予想しました。

ジェネラティブAIの時代の継続
マルチモーダルAIの覚醒
AIアシスタントの普及

(1) ジェネラティブAIの時代の継続

ジェネラティブAI（生成AI）の時代の継続は予想通りでしたが、細かく見ると、いろいろと違っている部分もあります。

まず、画像生成AIについては、「短時間に大量の画像が生成できるようになり、そこから望ましい画像を選定するためのフィルタリングが重要になる」と昨年予想しました。

画像生成の高速化は、Latent Consistency Models（LCM）やStreamDiffusionによって実現しました。特に、StreamDiffusionは１秒間に100枚以上の画像を生成することができ、テレビのフレームレートが1秒間に30枚であることと比較すると、その驚異的なスピードが分かると思います。その先のフィルタリング技術の開発は、まだこれからのようですが、画像生成の高速化技術は、リアルタイム動画生成も可能にするということが分かってきました。

また、「画像生成モデルのコンパクト化が進み、スマホにもローカルで搭載できるようになる」とも、昨年予想しました。これは技術的には実現しているのですが、生成品質や生成速度などの課題を解決して普及するのは、まだこれからということになりそうです。

動画生成AIについては、「30分以上の長時間で高精細な動画の自動生成が可能になる」と予想しましたが、動画の品質は非常に上がっているものの、未だ長時間の生成が可能なものは出ていないようです。また、「映像作成支援ツールとして利用される」と予想しましたが、これも、もう少し先のことになりそうです。

楽曲生成AIについては、「著作権問題に直面して、著作権フリーのサウンドデータなどを利用したBGM程度にとどまる」と予想したのですが、Suno AIのようなボーカルの入った楽曲を生成するモデルが出てきて驚いています。

文章生成AIについては、「ハルシネーションの解決の方向性が見えてくる」と予想しましたが、2023年3月に登場したGPT-4は、GPT-3.5よりも、かなりハルシネーションが減っています。これは、モデル自体の性能が上がったことに加えて、人間のフィードバックによる強化学習（RLHF）をより丹念に行った成果だと思います。

また、Webブラウジングで関連サイトの参照が可能になったことも、ハルシネーションの減少に貢献し、例えば、GoogleのBardには、回答の裏付けとなるソースをネット上から探して、生成した文書の正しさをチェックする仕組みがあります。

また、「Web検索したり、ユーザーとのやり取りを記憶したりすることによってパーソナライズ化が進む」という予想も、ある程度当たったと言えるでしょう。

(2) マルチモーダルAIの覚醒

昨年の記事では、「マルチモーダルAIの開発が加速し、2023年中には、これまで考えられなかったような驚異的な成果を見せてくれるだろう」と予想しました。

この予想は、現在、主流のChatGPT（GPT-4 Turbo）やGoogleのGeminiがマルチモーダル対応のモデルとなって、テキスト以外にも、音声、画像などに関する様々な機能を実現していることから当たったと言えます。

ChatGPTは、2023年9月25日のアップデートで、画像認識、画像生成、音声認識、音声生成などのマルチモーダル機能が追加されました。

画像認識のモデルはGPT-4Vと呼ばれ、ユーザーが画像をアップロードすると、その画像の内容をかなり正確に理解して詳しく説明することができます。
また、画像生成のモデルはDALL-E 3と呼ばれ、ユーザーの入力した指示に忠実に高品質の画像を生成することができ、画像の中にテキストを挿入することなどもできます。

また、ChatGPTのスマホアプリを使うと、音声でChatGPTと会話することができます。この機能は、音声認識と音声生成の機能により実現されています。

MicrosoftのBingチャットも、ChatGPTにこれらのマルチモーダル機能が追加される以前から、画像認識、画像生成、音声認識などの機能を使うことができました。

さらに、今年12月に発表されたGoogleのGeminiは、テキスト、音声、画像、動画などをシームレスに理解し、処理することができる生粋のマルチモーダルモデルだと言われています。現在、Gemini Proが英語版Bardに導入されており、画像認識、音声認識などの機能を使うことができます。

また、今年10月以降、オープンソースLLMでも、Microsoftなどが開発したLLaVA-1.5、Appleが開発したFerret、Metaなどが開発したMiniGPT-v2やMistral-7BベースのBaKLLaVA-1など、マルチモーダルLLMのモデルが相次いで発表されています。11月には、入力した画像を日本語で説明することができるJapanese Stable VLMをStability AIが公開しています。

このように、現在は、テキストと音声、画像、動画などを同時に扱えるマルチモーダルモデルの開発が主流になってきています。これから、OpenAIやGoogleが出してくるLLMも基本的にすべてマルチモーダルモデルになっていくでしょう。

さらに、今後は、こうしたマルチモーダルモデルのロボットへの導入が進み、自律的に動くロボットの進化が急速に進むことになると考えられます。

(3) AIアシスタントの普及

昨年の記事では、「すべてのヒューマンインターフェイスが対話型AIに収束していき、AIアシスタントが普及する」と予測しましたが、2023年の時点では、予想したほどAIアシスタントは普及しなかったようです。

「AIアシスタントは、スマホ型端末、ロボット、メタバースの3つの形で発展し、スマホ型端末では、アバターの映像付きのAIアシスタントのアプリが普及する」と昨年予想しました。しかし、実際には、アバター付きチャットボットのアプリは実現しているものの、日本では、まだそれほど普及してはいません。一方で、中国では、恋人役も演じられるAIチャットボットがかなり普及しているようです。

「対話型AIを搭載した家族のように会話できる高機能スマートスピーカー」も2023年は出現しませんでした。但し、AmazonのAlexaやGoogle、Microsoftなどのスマートスピーカーに生成AIを組み込むという計画が進んでいるようなので、2024年中には、こうした高機能スピーカーを見ることができると思います。

メタバース上のAIアバターも、技術的には実現しているものの、AIに押されてメタバース自体の注目度が落ちている中、広く普及するまでには至りませんでした。

(4) まとめ

昨年の予想について大まかに言えば、「ジェネラティブAIの時代の継続」と「マルチモーダルAIの覚醒」が当たり、「AIアシスタントの普及」は外れて、２勝１敗の結果でした。ただし、AIアシスタントは、2024年以降、日本でも普及していくと思います。

第３章で来年の予想をするつもりですが、来年の予想は、AIの発展について、プラスの要素とマイナスの要素があり、今年の予想よりも、さらに難しくなると思われます。

２．2023年AI10大ニュース

(1) 10位から１位まで逆順に発表

10位　Suno AI
楽曲に関する著作権の厳しさから成長は難しいだろうと思っていた楽曲生成AIも、予想を遥かに超えて進化しています。
入力したテキストから自動で楽曲を生成する楽曲生成AIは、昨年12月に、Riffusionが公開され、2023年に入ってからも、5月にGoogleの開発したMusicLM、8月にMetaの開発したAudioCraft、9月にStability AIの開発したStable Audioが発表されました。

また、今年12月に入って、簡単なテキストの入力から歌詞を生成し、歌詞に合わせた高品質な楽曲を生成できるSuno AIが大ブレイクを果たしました（Suno AIの最初の公開は今年７月）。

これまでの楽曲生成AIは、はっきりとしたボーカルの入った楽曲を生成するのが難しかったのですが、Suno AIは、歌詞がはっきりと分かるボーカルの入った楽曲を生成することができます。また、その品質も、街で普通に流れていてもAIが作成したとは気づかないレベルです。

#Suno にシンギュラリティをテーマにして曲を作ってもらいました。
入力したのは「Female vocal rock about singularity」だけです。https://t.co/POcqyw8DQ7 pic.twitter.com/NXZbUd6N6K
— IT navi (@itnavi2022) December 13, 2023

さらに、SunoはMicrosoftと連携し、Microsoft CopilotやBingでも楽曲生成することが可能になりました。

9位　動画生成AIの進化
動画生成AIも2023年に飛躍的な進化を遂げました。2022年9月に、MetaのMake-A-Videoが発表されましたが、現在の動画生成のレベルは、その頃と比べると、画像の鮮明さや動きの滑らかさに隔絶の感があります。

まず、2023年3月に、Stable Diffusionを共同開発したことで有名なRunway Researchがテキストから動画を生成できるGen-2を公開しました。また、同年7月には、1枚の画像から動画を生成できる機能をGen-2に追加し、以下のようにユーザーが簡単に自分の作成した画像を動かすことができるようになりました。

Gen-2を使えば、クリック一つで自分が生成した画像を動かすことができます。

この動画は、#Animagine XL 1.0で生成した画像が元になっています。#AIart #AIイラスト #Gen2 #SDXL
文章や画像から動画を自動生成できる動画生成AI「Gen-2」の使い方（以下のリンクから）https://t.co/UR1eU9D50s pic.twitter.com/bQmRcKTEHN
— IT navi (@itnavi2022) August 10, 2023

さらに、今年の11月以降、AnimateDiffやStable Video Diffusionなどの1枚の画像から高品質な動画を生成する動画生成AIが次々と発表されて、動画生成ブームが起きました。さらに、12月には、TikTokを運営するByteDanceなどが1枚の画像からモーションデータと同じ動きをする動画を生成できるMagicAnimateを発表しました。

#MagicAnimate による動画生成の実例 pic.twitter.com/3xhv7JjRlO
— IT navi (@itnavi2022) December 5, 2023

その後も、Pika 1.0、DomoAIなど、ユーザーが実際に利用できる動画生成AIサービスが次々と公開されています。
また、最近になって、Googleもテキストや画像から動画を生成するVideoPoetを発表しました。

8位　アルトマンCEOの解任と復帰
2023年11月に起きたOpenAIのサム・アルトマンCEOの突然の解任と短期間での復帰は、世界に衝撃を与えました。外部からは、AI開発のトップランナーであるOpneAIの運営は順風満帆であるように見えていたため、突然の異変に誰もが驚きました。

アルトマンCEOが解任された理由ははっきりとは公表されていませんが、その背景には、高度なAIがコントロールできなくなるリスクを考慮して安全性を重視する理事会のメンバーと急速な高度AIの開発とサービスの展開を進める加速主義のアルトマンCEOとの間の対立があったと言われています。

また、アルトマンCEOの解任に賛成した理事会のメンバーは「効果的利他主義者」だったとの話が出て、効果的加速主義（e/acc）と効果的利他主義（EA）の対立について注目が集まりました。

効果的加速主義は、テクノロジーを規制せずに、技術の進歩と資本主義を最大限に推し進めようとする考え方で、効果的利他主義は、他人のためになることを根拠と理性に基づいて実行しようとする考え方ですが、高度なAIの開発に対する考え方について対立があるとされています。

効果的加速主義者がAI開発の加速を支持するのに対して、効果的利他主義者は高度なAIのリスクを重く考えて、安全性を重視する立場を取っています。そして、この考え方の違いによる対立が今回の事件を引き起こしたと考えられています。

7位　画像生成AIの発展
2022年に大ブームを起こした画像生成AIは、2023年も引き続き進化を続けました。2023年の進化の方向性をまとめると、AIの生成する画像をよりユーザーの望むものに近づけるための画像コントロール技術と、より短時間で多くの画像を生成する高速化技術が大きく進歩したことが上げられます。

2023年に公表された画像コントロール技術で特に重要なのは、ControlNetとLoRAです。
ControlNetは、同年2月に発表された、入力画像の構造を維持したまま別の画像に変換する技術で、この技術を利用して、キャラクターのポーズや構図を指定してイラストを生成することができます。

また、LoRAは「Low-Rank-Adaptation」の略で、効率的に少ない計算量でAIの追加学習を行うことができる手法のことです。この手法が開発されたことにより、誰でも手軽に、特定の画風で画像を生成したり、キャラクターを固定してイラストを生成したりすることができるようになりました。

なお、Loraは2021年6月にMicrosoftが発表した技術ですが、日本人のKohya氏が画像生成のためのLoRA学習用の使いやすいツールを公開したことにより、2023年の初めころから普及が拡大し、今では定番のツールとなっています。

画像生成の高速化技術としては、2023年11月に、モデルを蒸留して少ないステップ数で画像生成できるようにするLatent Consistency Models（LCM）という手法が発表されました。さらに、同月下旬には、LCMを拡張したLCM-LoRAが登場し、様々なモデルやサービスに導入されて。高速生成が可能になりました。

また、2023年12月には、1秒間に100枚以上の画像を生成することができるリアルタイム画像生成モデルのStreamDiffusionが日本人研究者らによって公開されました。

高速画像生成は、ビデオで撮影した実写動画をリアルタイムでアニメーションに変換することなども可能であり、VTuberやビデオゲームなど、今後、様々な活用方法が広がっていきそうです。

大変お待たせしました！本日arXivにて公開された私達の論文「StreamDiffusion」について
GitHubリポジトリの方も公開しました！100fps以上出すことも可能です！
詳しくは論文、リポジトリのREADMEをご確認ください！#StreamDiffusion
論文:https://t.co/4zQKFyPKgj
GitHub:https://t.co/U1ufvRR9cq https://t.co/5hO1UXT4Ya
— あき先生 / Aki (@cumulo_autumn) December 21, 2023

その他の画像生成関係のニュースとしては、Stable Diffusionの高画質モデルであるSDXL 1.0が2023年7月に公開され、ChatGPT上で利用できる画像生成モデルのDALL-E 3が同年9月に公開されました。また、有料画像生成サービスのMidjourney（V6、12月）やNovelAI（V3、11月）もバージョンアップして、より高品質な画像が生成できるようになっています。

また、Stable Diffusionモデルの画像生成AIのWebUIとしては、これまでAUTOMATIC1111版Stable Diffusion WebUIのほぼ独占状態でしたが、2023年には、ノードベースのWebUIであるComfyUIや、Fooocus、StableSwarmUIなどのライバルとなるWebUIが登場しています。

6位　オープンソースLLM
2023年は、GPT-4、PaLM、Claudeなどのプロプライエタリ（非公開）なLLMに対抗して、オープンソースのLLMも大きく進化した年でした。

まず口火を切ったのが2023年2月に発表されたMetaのLlamaで、最初は研究者向け限定の公開でしたが、すぐに、スタンフォード大学が開発したAlpaca、カリフォルニア大学バークレー校などが開発したVicunaなどの派生モデルが多数誕生し、公開されました。

さらに、2023年7月に、Metaがオープンソースで公開したLlama 2は、GPT-3.5に匹敵すると言われるほど高性能で、世界の注目を集めました。
その後も、アラブ首長国連邦に拠点を置く研究機関が同年9月に公開したFalcon-180B、中国のアリババが同年11月に公開したQwen-72B、フランスの人工知能ベンチャーが12月に公開したMixtral 8x7Bなど有望なオープンソースLLMが次々と登場し、実際にGPT-3.5の性能に追いついてきました。

なお、これらのLLMの性能の比較は、以下のチャットボット・アリーナで見ることができます。

海外でのLLM開発の隆盛を受けて、2023年には日本でも、日本語専用（又は日英二か国語）のLLMの開発が盛んになり、多くの研究機関や民間企業、AIベンチャーが独自モデルの開発に取り組んでいます。

日本の場合、海外の優秀なLLMに日本語の訓練データを追加学習して、日本語性能を高めたものが多いのが特徴です。

日本で開発された主なLLMとしては以下のようなものがあります。

ELYZA：東大発AIベンチャーのELYZAが開発したLlama 2ベースの日本語LLM。7Bサイズと13Bサイズを公開。　
Japanese StableLM：Stability AIが開発した日本語LLMで、独自開発のAlpha(7B)、Llama 2ベースのBeta(7B,70B)、MIstral-7BベースのGammaなどがある。
CALM2：サイバーエージェントが独自開発した7Bサイズの日本語LLM
Youri、Nekomata：rinna株式会社が開発した日本語LLMで、Llama 2(7B)ベースのYouri、Qwen-7B,14BベースのNekomataなどがある。
Swallow：東京工業大学と産業技術総合研究所の研究チームが開発したLlama 2（7B,13B,70B）ベースの日本語LLM
Karasu、Qarasu：東大発AIベンチャーのLightblueが開発した日本語LLMで、Shisa-7BベースのKarasuとQwen-14BベースのQarasuがある。なお、Shisa-7Bは、Mistral-7Bベースの日英二か国語LLMです。

最初は、Llama 2などの大規模な多言語モデルにも日本語性能で負けていた日本語LLMですが、特に2023年の年末にかけて、多くのモデルが公開され、その性能も上がってきました。

さらに性能を上げるためには、モデルの大規模化も必要となりますが、2024年には、日本でどのくらい大規模なモデルが出てくるのかも注目されるところです。

5位　Gemini
2023年12月6日、「人間の専門家を上回る性能を達成した最初のAIモデル」という触れ込みのGeminiがGoogleから発表されました。
Geminiには、Nano、Pro、Ultraの３種類のモデルがあり、中間のGemini Proは、英語版のBardに導入済みで、実際に使ってみることができます。

Geminiは、テキスト、音声、画像、動画などをシームレスに理解し、処理することができる生粋のマルチモーダルモデルで、英語版のBardでも、高性能の画像認識などの機能を使用できます。
また、2024年初頭には、最高性能のGemini Ultraを搭載したBard Advancedが公開される予定です。

英語版のBardはGoogleアカウントの設定で英語を優先言語に設定すれば、使用することができます。また、英語版のBardでも、ある程度、日本語のやり取りが可能です。

実際に、筆者が英語版BardのGemini Proを試してみた感想としては、GPT-3.5と同じくらいの性能です。論理性や内容の深さという点では、GPT-4には及びません。文章表現力は非常に高く、GPT-4を超えるような高い表現力を示すこともあります。

また、画像認識能力も非常に高いのですが、著作権などへの配慮が厳しく、人物の描かれた画像には対応してくれません。
なお、GPT-4の画像認識は基本的に英語しか読み取ることができないのですが、Geminiは日本語でも読み取ることができます。

Gemini Proの導入されたBardは無料で使用できるので、無料版ChatGPTのGPT-3.5と同程度の性能であるというのは、十分健闘していると言えるでしょう。早く、日本語版のBardにも導入してもらいたいものです。

また、実際にGeminiの性能がGPT-4に匹敵するのかどうかを評価するには、2024年初頭のGemini Ultraのリリースを待つ必要があります。Gemini Ultraの搭載されるBardを「Bard Advanced」と呼んでいるところからすると、こちらは有料になるのかもしれません。もし、GPT-4以上の性能を示すのであれば、仕方のないところだと思います。

4位　AI規制の動き
AIの性能が急速に進化するのに対応して、高度なAIが引き起こす可能性のある現在及び将来のリスクについて議論されるようになりました。また、2023年3月には、GPT-4より能力が高いAIシステムの開発を6ヶ月間停止することを呼びかける書簡が公開され、大きな議論を呼びました。

こうした動きを踏まえて、現在、各国で、AI技術の使用に対する規制を検討する動きが広がっています。

こうした中で、最も早くAI規制の取り組みが進んでいるのがEUです。
2023年12月、EUでは、加盟国、欧州議会、欧州委員会の三者協議で、リスクに応じてAI技術の利用を規制し、違反に巨額の制裁金を科すというAI規制法案について大筋で合意しました。
EUのAI規制法案は、今後、加盟国と欧州議会による正式な承認を経て成立し、2026年にも規制が適用される見通しです。

米国も、2023年10月に、AI規制の導入に関する大統領令を発令しました。
規制の内容は、高度なAIを開発する企業に、安全性のテストを受けさせ、政府に開発情報を提供することを義務付けるというものです。
ただし、強力な規制が自国企業のAI開発を妨げることを危惧して、規制は新しいモデルにのみ適用することとし、既に公開されているChatGPTなどの既存のサービスは規制対象に含まないことにする模様です。

また、大統領令には、コンテンツがAI製かどうかを識別できる仕組みの創設なども盛り込まれましたが、これに関する法的な義務付けは課さないようです。

日本でも、2023年12月に法的拘束力のない「AI事業者ガイドライン案」が政府のAI戦略会議より公表されました。（参考：概要）
ガイドラインは、同年10月にまとめられた、高度なAIのルールに関する「広島プロセス国際指針」を踏まえたものとなっており、人間中心や安全性など、AIの開発者、提供者、利用者が守るべき原則を示したものとなっています。
ガイドラインは、パブリックコメントを経て、2024年3月を目途に正式に公表される予定です。

現在のところ、AI規制はEUが最も厳しく、日本が最も緩いものとなっています。一方で、EUもフランスのMistral AIやドイツのAleph Alphaなどの域内でAIを開発する有望な企業は（規模が小さいので）規制から外すという話もあり、自国の産業はしっかり守ろうとしているようです。

日本でも、AI規制の法制化を求める声が自民党などより上がってきましたが、現在の日本のAI開発は、米国や中国などと比べて遅れており、ようやく日本語LLMなどの開発が始まったばかりという段階なので、その開発を阻害しないよう、規制と技術発展のバランスを取って進めてもらいたいと思っています。

3位　ChatGPTの機能拡張
2023年3月のGPT-4登場以降、ChatGPTは次々と機能を拡張して、ChatGPTでできることを増やしてきました。

まず、同年5月にプラグインとWebブラウジング機能をChatGPT Plusユーザーに公開しました。
プラグインは、ChatGPTの機能や能力を拡張し、特定のタスクや目的に合わせてカスタマイズするための追加モジュールで、これによって、ユーザーは、より具体的な情報やサポートを受けることができます。

Webブラウジングは、MicrosoftのBingの検索エンジンを利用して、ChatGPT上でWeb検索ができる機能です。当初は、検索に失敗したり、時間がかかったりすることが多くて、あまり使えなかったのですが、2023年11月以降は、相当改善して、本家のBing検索と同じように多くのサイトから必要な情報を取ってくることができるようになりました。

2023年7月には、ChatGPT PlusのプラグインとしてCode Interpreterの提供が開始されました。なお、Code Interpreterは、同年8月にAdvanced Data Analysisと名称変更しています。
Code Interpreterを利用して、ChatGPT上でPythonコードを生成、実行したり、ファイルをアップロードして利用・加工したり、ChatGPTの作成したファイルをダウンロードしたりすることができるようになりました。

同じく2023年7月に、新機能として、カスタム指示（Custom Instructions）が導入されました。
カスタム指示は、役割や条件を予め指定しておくことによって、ChatGPTの回答を自分用にカスタマイズする機能であり、セットしている間は効果が継続するため、毎回、同じような指示を入力する手間を省くことができます。

また、カスタム指示を上手く利用することにより、プラグインのように様々なタスクをユーザーの入力に合わせて実行させることもできます。

2023年9月には、ChatGPTのマルチモーダル化を進める様々な機能が追加されました。すなわち、画像認識機能（GPT4-V）、画像生成機能（DALL-E 3）及びスマホのChatGPTアプリで使用できる音声会話機能です。

GPT-4Vは、ChatGPTのGPT-4モデルに画像認識機能を追加したものです。ChatGPTに画像ファイルをアップロードすると、その画像をChatGPT上に表示して、内容を分析し、画像の内容を説明したり、画像に関する質問に回答したりすることができます。
また、ユーザーが画像に印を付けて、その部分について質問しても、印を付けた場所を把握して、適切に回答することができます。

DALL-E 3は、ChatGPT上で動作する画像生成AIで、ChatGPTに話しかけるだけで、自動的に画像を生成することができます。
DALL-E 3の特徴は、複雑なプロンプトでも忠実に画像を生成できることで、画像中に英語の文字を挿入することもできます。

ユーザーが入力したテキストからそのまま画像を生成するのではなく、ユーザーの指示を受けたChatGPTが指示を踏まえた画像生成用のプロンプトを作成し、そのプロンプトからDALL-E 3が画像を生成するという2段階の仕組みが採用されています。そのため、簡単な指示でも、ChatGPTが必要な情報を追加して、高品質な画像を生成することができます。

音声会話機能は、スマホのChatGPTアプリで使用できる機能で、こちらも、2023年9月に追加されました。
この機能を使用すると、5種類の男女の声の中から一つを選んで、ChatGPTと英語や日本語で会話することができます。また、会話が終了すると、それまでに話した内容が文章で記録されるようになっています。

仕組みとしては、ユーザーの話す音声を音声認識モデルのWhisperが聞き取って自動文字起こしを行い、その文章の内容からChatGPTが回答をテキストで作成し、そのテキストを音声合成システムで音声に変換して回答するようになっています。

2023年11月6日に開催された開発者向け会議のOpenAI DevDayで、またChatGPTに大きなアップデートの発表がありました。
まず、これまでのGPT-4モデルより高速で、2023年4月までの知識に対応できる新モデルのGPT-4 Turboが導入され、さらに、ここまで説明してきたWebブラウジング、Code Interpreter、GPT-4V、DALL-E 3などの機能が切り換えずに同時に使えるようになりました（GPT-4 All Tools）。

また、特定のタスクを実行するために、ノーコードでChatGPTをカスタマイズすることができるGPTsも発表されました。そして、2024年初めには、作成したGPTsを公開・販売できるGPTストアを開設することが予定されています。

OpenAIは、恐らくChatGPTを誰もが最初にアクセスする次世代のプラットフォームに育て上げるつもりなのでしょう。機能を次々と拡充し、プラグインやGPTsのように第三者が制作した「アプリ」をChatGPTの基で流通させ、AppleやGoogleの地位を奪おうとしているように見えます。

2位　GPTs
GPTsは、特定のタスクを実行するためにChatGPTをカスタマイズして、アプリのように切り替えて使用したり、他人と共有したりできる便利なツールです。

GTPsでは、Webブラウジング、DALL-E 3による画像生成、Code Interpreterを同時に使うことができ、また、事前にアップロードしておいたファイルの内容を参照したり、外部のAPIにアクセスしたりすることもできる、これまでのChatGPTの機能の集大成と言えるようなツールとなっています。

筆者自身も沢山のGPTsを作成してみましたが、簡単な操作で様々な機能を持つGPTsを作成することができ、非常に大きなポテンシャルを感じます。2024年にGPTストアがオープンすれば、GPTsは、更なる注目を集めることになるでしょう。

1位　GPT-4
2023年の最大のニュースと言えば、間違いなくGPT-4の登場でしょう。GPT-3.5は自然な会話能力を備えていましたが、実際の業務に使用するには、緻密な論理や正確性に課題がありました。

GPT-4も完全な正確性は保証されていませんが、GPT-3.5と比べて顕著な改善が見られ、文章の内容もより深く、洗練されたものになっています。筆者の見解では、GPT-3.5とGPT-4の差は、中学生が書く文章と大学生が書く文章くらいの差があります。

したがって、GPT-4は完璧ではないものの、初めての実務に有効に利用できるLLMになったと言うことができるでしょう。

文章以外の生成AIの進化も、高性能なLLMを活用することによって実現できているものが少なくないことから、高性能なGPT-4の登場は、まさに2023年の生成AIの進化を牽引するエンジンの役割を果たしたと言うことができるでしょう。

(2) 最終結果

1位　GPT-4
2位　GPTs
3位　ChatGPTの機能拡張
4位　AI規制の動き
5位　Gemini
6位　オープンソースLLM
7位　画像生成AIの発展
8位　アルトマンCEOの解任と復帰
9位　動画生成AIの進化
10位　Suno AI

その他
10位までに挙げた以外にも、以下のようなニュースについて、取り上げたいと思っていたのですが、残念ながらランク外となってしまいました。

BingとBardの登場、Microsoft Copilot、AIエージェント、コード生成AI、科学分野でのAI活用、広島サミットでAIについて議論、ロボットへの生成AI活用、DeepMindとGoogle Brainの統合など

３．2024年の展望

(1) 2023年の生成AIの進化と懸念材料

2023年は、文章生成、画像生成、動画生成、楽曲生成などのあらゆる分野で生成AIが進化して、次々と新しいAI技術が生まれ、まさに「生成AI百花繚乱の年」と呼ぶのにふさわしい年でした。

一方で、高度なAIが引き起こす可能性のあるリスクを懸念して、AI技術の利用に対する規制の導入が始まったり、著作権侵害を理由にOpenAIなどの生成AI事業者が訴訟を起こされたり、AIに職を奪われることを恐れて反対運動が起こったりするなど、生成AIの進化を抑える動きも顕在化してきました。

果たして、2024年以降は、これまでのように順調に生成AIが進化していけるのか、それとも進展にブレーキが掛かるのか、現在は予断を許さない状況になっています。

(2) 2024年中にGPT-5はリリースされるのか

AIに関心を寄せる人々が2024年のAIの動向で最も注目しているのは、果たして2024年中にOpenAIがGPT-5又はGPT-4.5と呼ばれる新モデルをリリースするのかどうかという点です。

OpenAIが現在、次世代のLLMを開発中であることは間違いないでしょう。そして、これまでのモデルの訓練期間から考えると、2024年中にGPTの新しいバージョンがリリースされる可能性が高いです。

しかし、高度なAIが引き起こす可能性のあるリスクや国際的なAI規制の強化を考慮すると、これまで以上に慎重なアライメントが求められ、新モデルのリリースが遅れる可能性もあります。

加えて、OpenAIの組織内の事情も影響を与える可能性があります。アルトマンCEOは、GoogleのGemini Ultraが2024年初めにリリースされることを受けて、競争上、それを上回る性能の新モデルを早期に発表したいと考えているでしょうが、一度、解任を経験しているために、自分の判断だけで進めることが難しいかもしれません。

2023年にGPT-4が生成AI全体の進化を牽引したように、GPT-5のリリースは、2024年の生成AI全体の進化の速度に影響を与える可能性があります。

このような難しい状況ですが、オプティミストの筆者は、2024年中にアルトマンCEOは、高性能な次世代モデルをリリースしてくれるはずだと予想しておきます。

(3) GPT-5は汎用人工知能に近いものなのか

では、2024年中に次世代モデル（GPT-5）がリリースされると仮定すると、その性能はどの程度のものになるのでしょうか。汎用人工知能（AGI）に近いものになるのでしょうか。

勿論、GPT-4と性能が大きく変わらず、Gemini Ultraより性能が低いと判断されるようなモデルなら、幻滅されるだけで、わざわざリリースする意味は薄いでしょう。したがって、GPT-5は、明らかにGPT-4より高性能なモデルになると考えられます。

そして、GPT-4より性能が高いのであれば、様々なタスクに人間のように柔軟に対応できる汎用人工知能に近いものになる可能性があります。

一方で、現在のように人間が作成したテキストを基に訓練する限り、人間の知能を大きく超えて、未解決の科学的問題を次々と解決していくことや、人の手を借りずに自ら学んでどんどん賢くなっていくことは難しいでしょう。

このような「超知能」と言うべき性能を備えるためには、「Q*プロジェクト」の話が出てきたときに話題になったディープラーニング以外のアプローチ、例えば強化学習などの手法を現在のTransformerベースのモデルに追加する必要があると考えられます。しかし、この技術を実現するには時間がかかるため、GPT-5にはまだ採用されないだろうと推測しています。

また、Geminiは、テキスト、音声、画像、動画などを同時に扱うことができるように訓練されたマルチモーダル・ネイティブのモデルであることを売りにしていますが、GPT-5も同様に、よりマルチモーダル性能が高いモデルになると思われます。

結論としては、GPT-5は様々なタスクに人間のように柔軟に対応できる汎用人工知能に近いものになるが、人間の知能を大きく超えるようなものにはならないと予想します。

(4) クリエイティブ分野における生成AIモデルの将来像

画像生成AIは、昨年より遥かに品質が向上し、ControlNetやLoRAなどの新しい技術によって、作り手の希望に沿った画像コントロールも可能となり、成熟期を迎えたと言えるでしょう。

しかし、プロや高い品質を求めるユーザーにとっては、自らの手を加えなければ、完全に満足する画像にはなり得ないため、今後は、Photoshopで使用できるAdobe Fireflyのように、画像編集ソフトに組み込まれていく流れが主流になるのではないでしょうか。

一方で、それほど高い品質を求めない一般向けの画像生成AIは、様々なソフトウェアや製品に組み込まれていくと思います。例えば、プレゼン用のイラスト作成機能としてPowerPointに組み込まれたり、オリジナルの年賀状をデザインする機能が年賀状作成ソフトに組み込まれたりすることが考えられます。

このように、画像生成AIは、プロや高品質を求めるユーザー向けと一般向けの二つに分かれて、既存のソフトウェアや製品に取り込まれ、特にAIを意識せずに利用されるようになっていくのではないでしょうか。そうなれば、AI生成と手描きの境界が曖昧になり、AI推進派vsAI反対派のような対立もなくなっていくのではないかと思っています。

このような方向性は、他の生成AIでも同じであり、文章生成AIも、ワープロソフトなどに組み込まれて、一部のアイデアを出したり、要約したり、人が書いた文章を修正したりするような形で使用されていくのではないでしょうか。筆者自身も既に、そのような形で、一部に文章生成AIの助けを借りながら生成AIの力とミックスした形で文章を書くようになってきました。

また、簡単な文章や定型的な文章の作成は、やはりワープロソフトやメールソフトに組み込まれて、簡単に作成・編集ができるようになっていくでしょう。これは、Github Copilotのようなプログラミング支援ツールを想起させます。

楽曲生成AIは、音楽分野の厳格な著作権管理のため、十分なトレーニングデータの確保が困難だと思われていましたが、Suno AIのような高性能のAIモデルが登場してきました。このモデルの品質をさらに向上させるには、やはりトレーニング用の楽曲データを集める難しさがあると思いますが、今後は、どのように進んでいくのでしょうか。

楽曲生成AIも今後、順調な進化を遂げれば、画像生成AIや文章生成AIと同じように、音楽編集ソフトの中に組み込まれていく流れになるでしょう。

2023年の終わりに掛けて、動画生成AIの進化が盛り上がってきました。現在は、まだ再生時間が短く、画質も改善の余地がありますが、2024年には、YouTubeなどで流すのに十分な5分から10分程度の長さの動画が簡単に作れるようになると予測されます。また、動画に合わせたBGMや効果音、登場人物の声なども同時に生成できるようになるでしょう。

いずれにせよ、動画生成AIも動画編集ソフトの中に組み込まれていくようになると思います。

このように、クリエイティブ分野における生成AIは、既存の編集ソフトなどの中に取り込まれ、外からは見えない「ステルスAI」として発展していくのではないかと思っています。

(5) その他

その他の分野では、StreamDiffusionのようなリアルタイム画像生成モデルについて関心を持っています。この技術は応用範囲が広く、今後、画像の品質が上がり、画像を制御する技術が上がっていけば、モーションキャプチャーの代わりに使って、思い通りにアニメイラストや特撮画像を操作することも可能であり、VTuberやRPGなどのリアルタイムゲーム作成にも利用できるのではないかと思います。

また、深津氏の試しているStreamDiffusionを利用したイラストのリアルタイム編集にも大きな可能性を感じます。

可能性の空間探索のテスト。複数のembedding空間を同時に動かすことで、シームレスになんかバリエーション探索できるようになった。この辺は、応用が色々とききそう#StreamDiffusion pic.twitter.com/fuHRRJlXWd
— 深津貴之 / THE GUILD / note (@fladdict) December 26, 2023

もう一つ、筆者が関心を持っているのは、ロボット制御におけるLLMの活用です。ロボットをLLMで制御する試みは、2022年からGoogleを中心に成果が発表されてきましたが、2023年も、7月にGoogle DeepMindが視覚と言語を行動に翻訳する新しいVLA（Vision-Language-Action）モデルのRT-2を発表し、10月には、NVIDIAがLLMを活用して、ロボットにペン回しのような複雑なスキルを教えることができるAIエージェントのEurekaを発表しました。

現在も、テスラのOptimusのように自律型の人型ロボットを目指す動きがありますが、2024年には、LLMを活用したロボット制御が更に進化し、自律的にタスクを実行できるロボットが大きく進化するのではないかと思っています。