生成AIの現在地と事象の地平面

2024年9月28日 22:47

2022年から話題になっている生成AIですが、2024年秋現在も引き続き話題になり続けています。私も当初から生成AIのユースケースの探索、数百以上の商談のレビューとマーケティング・広報に密接に関わってきました。話題になってから約2年が経過していることもあり、状況は当初と比べるとだいぶ整理されてきています。このnoteでも不定期に生成AIネタを取り上げていますが、今のタイミングで定点観測をします。

対象読者ですが、技術的に詳細で最新の情報を取り上げている記事は他にたくさんあるので、この記事では、あまり普段は生成AIのことを追っていないけれども、技術が進歩して変わっても「不変なこと」に注目して活用可能なことの限界 (事象の地平面) についての大局観を掴みたい人を意識しています。技術や市場動向も簡単に取り上げますが、生成AIが結局どう使えるのかについての考察に力を入れます。

生成AIはここまで来た！同時に見えてきた課題

Googleトレンドによる世界の検索キーワード状況を見てみると、生成AI (ChatGPT) は引き続きユーザーの関心事であるように見えます。前回、2023年11月の時には関心がピークアウトしていたように見えた欧米の国々でも、2024年7月末の生成AI関連銘柄の株価暴落あたりから関心はむしろ上がってきています。

Googleトレンドにおける様々な国の「ChatGPT」のトレンド (2022/10~2024/9)
※各地域でトレンドのピークを100として指定期間内で相対的に比較地域間の絶対値の比較は意味がない

日本は2023年4月頃にピークアウトしておりトレンドが異なっていますが、「生成AI」という日本語キーワードでは単調増加のトレンドになっていることから、ChatGPTが出た当初に他のどの国よりも早く高い関心が寄せられたという特別なトレンドがあったものと解釈するのが妥当なようです。

次に、直近の新技術の動向ですが、大まかにいうと

「マルチモーダル対応」
「様々な特徴を持つ大小の多様な言語モデルの登場」
「拡張検索生成等による言語モデルの拡張」

の3つがホットです。マルチモーダル対応とは、テキスト、音声、画像、動画、センサ情報等の異なる種類の情報をまとめて扱えることです。たとえば音声による会話の入力、画像や動画の中から文字などの情報を抽出して入力できる機能は、テキストをキーボードから入力する方法に比べてかなり生産性が上がります。拡張検索生成 (RAG: Retrieval Augmented Generation)とは、言語モデル (LLM: Large Language Model) が持っていない最新情報や企業内の独自情報などを追加で情報ソースに含めることができる仕組みです。

技術でいうと市場をけん引しているのはOpen AIの動向です。Open AIは、2024年5月にChatGPT-4o、7月にChatGPT-4o mini、9月にo1、o1 miniをリリースし、マルチモーダル対応や多言語対応を進めるとともに応答時間の短いモデル、長時間熟考するモデル、軽量/コスト削減モデルといったさまざまなニーズに応えるモデルをリリースしています。

直近では、4か月前に発表された「Advanced Voice Mode」が9月24日から有料ユーザー向けに実装開始されました。感情を考慮した会話、会話への割り込みや人間からの問いかけ直後の素早い応答など、日本語の音声合成の抑揚の自然さも併せて、生成AIと声でかなり自然な会話を行うことができます。

＊

一方、生成AIが急速な技術進化を遂げても変わらない課題もあります。それは、生成AIの回答の安定性/再現性と信頼性です。たとえば、同じプロンプト (質問文) で生成AI (ChatGPT-4o)に5回聞いたとすると、以下のような回答が返ってきます。回答文は長いので、それぞれのリンク先をご覧ください。
(音声入力で質問しているため、#3, #4はテキスト変換されたときに質問文のテキストが若干変わっています)

問: 富士通の良いところと悪いところを教えて。
回答1: 富士通の長所と短所
 回答2: 富士通の長所と短所
 回答3: 富士通の良し悪し
 回答4: 富士通の利点と欠点
 回答5: 富士通のメリットとデメリット

5つの回答文を比べてみると、あるものは箇条書き (数が3つのものと4つのものがある)、あるものは文章で返しています。また、取り上げているトピックにも揺らぎがあり、5つに共通して取り上げられていること (長い歴史、高い技術力、グローバル展開、意思決定遅い、保守的文化) もあれば、ひとつでしか取り上げられていないこと (福利厚生が良い、業績に波あり、コスト高い) もあり、そして従業員からすると真偽が怪しい回答 (労働時間) もあります。

これは、生成AIの回答ロジックに乱数と確率に依存する部分が入っているためで、加えて少し時間をおいて言語モデルの版が変わると、また異なる回答をしたりします。ChatGPTの場合、API経由だとこれらの要素を制御して "軽減" する方法も提供されているものの、生成AIの特徴である創発性には必要な要素でもあり、従来からのAIと比べて生成AIは本質的に安定性/再現性を欠くものなのです。

加えて、言語モデルが確かな情報を持っていない場合にも、それっぽい知ったかぶりの回答を生成AIがしてしまう「ハルシネーション (幻覚)」の問題も起こります。特化された情報を言語モデルに覚えさせたりRAGを使って軽減できるとされていますが、これも本質的に集合知ですべての事柄を解決できないことから生成AIが持つ本質的な課題の一つであると言えます。

「富士通の良いところと悪いところを教えて」の例を見てもお分かりの通り、生成AIには何度か同じ質問をして回答頻度が多いかどうか、内容が正しいかどうかを最後は人間が判断してから結果を活用することになります。

見えてきた生成AIの応用分野と地平面

この2年間で世界中で生成AIの適用可能分野についてさまざまな探索、検討がなされ、だんだん整理がされてきています。軸を大きく分けると、

❶日常利用なのか革新的利用なのか
❷内部での運用なのか外部顧客対応なのか
❸生産性向上のためか事業成長のためか

の3つになります。ただし、この3つの軸は互いに完全に独立でないものがあり、「❸生産性向上のためか事業成長のためか」を❶❷の4象限の平面に写像することができます。

それぞれ、以下のような典型的なユースケース(可能性も含む)が見えてきています。

【バックオフィス】内部運用 x 日常利用AI (生産性向上)
文章・画像・動画等の生成、修正、書式変更
ブレーンストーミング、アイディア創出、Q&Aチャットボット
文章の翻訳、要約、トーンやジャンルの変更
画像⇒画像生成、高解像度化 (超解像)、色つけ
【コア・ケイパビリティ】内部運用 x 革新的利用AI (生産性向上~事業成長)
コード生成・補完、バグ検出
組み合わせ問題 (創薬、材料探索)
【フロントオフィス】外部顧客対応 x 日常利用AI (生産性向上~事業成長)
顧客向けアドバイザー(一問一答、レコメンデーション)、接客AIアバター
【製品・サービス】外部顧客対応 x 革新的利用AI (事業成長)
ロボット制御、自動運転など

生成AIのユースケースについて、それぞれの象限での活用を考えるに当たり、生成AIとよく似た「派遣労働」と照らし合わせながら考えていきましょう。

昔の記事で、生成AIを人格化すると

「インターネット上の情報を学習した、うまく質問すれば回答や作業結果をくれる気は利かない無邪気で常識のない外部人材」

であると書きました。生成AIの本質的な位置づけ・性質は、2024年9月現在でも、この「派遣労働」と変わっていません。人間で言えば、ちょっと癖のある優秀な派遣社員に来てもらうようなものです。

図: DALL E 3 (Microsoft Designer)が作成した「インターネット上の情報を学習した、うまく質問すれば回答や作業結果をくれる気は利かない無邪気で常識のない外部人材」のイメージ

以下では、生成AIを「派遣労働」と対比させながら、どこまで使えるかについて考えてみましょう。

人間の監督の下での能力拡張には十分使える

ユースケースについて大まかに言うと、内部運用で従業員が生成結果を吟味して使うシナリオはたくさんあり、かつ実現性も高く、効果が見えやすく、すでに多くの企業で導入が始まっています。主にはコンテンツ生成、情報や知識の発見、会話型UIの分野です。

マイクロソフトはCopilotを様々な製品やサービスに埋め込んで既存の製品・サービスがカバーするシナリオでの(劇的な)生産性向上を狙っています。また、画像生成も無料でできるツールがStable Diffusion以外にも様々なものが市場に出回り、Microsoft Designerのような従来のマイクロソフト型生産性向上ツールのUIやサービスと統合され無料で使える高品質なもの (DALL E 3利用) も出てきています。(この記事のヒーロー画像もMicrosoft Designerで一瞬で作成しました)

また、マイクロソフト以外のベンダーも、自社の製品・サービスに生成AIの実装を進めています。これにより同様に既存の製品・サービスがカバーするシナリオでの(劇的な)生産性向上が狙えます。

従業員が派遣社員 (生成AI) の作業結果を常に管理監督して活用するのであれば、特に問題なく「派遣労働」という仕組みを使いこなせるでしょう。

この分野における生成AIは、いますぐ使わない手はありません。人や企業によってはどんどん使って行くため、使わない人や企業とそのうち大きな差が開いてくることでしょう。

無人での顧客への直接対応でどれだけ許容できるか？

さて、問題になるのはその他のケース、特に従業員を介さずに生成結果が直接的に顧客や取引先の手に渡るケースです。「派遣労働」で考えてみると、特に癖のある派遣社員が出した結果については、多くの場合は従業員が内容を見た後に顧客などに渡すでしょう。

もちろん、コールセンターや飲食店における接客対応など、「派遣社員」にあたる人材が直接接客するケースは現実では多くあります。ただし、その場合は業務内容をきちんと定義したマニュアルや業務オペレーションに従った業務を行い、派遣社員の個性を消す形で結果の品質を制御するようにしています。生成AIの場合は結果が本質的に安定しないため、顧客や取引先との直接対応には適していないと言わざるを得ないでしょう。

自動運転やロボット制御などを生成AIでチャレンジしているケースも報道されていますが、今現在のところアメリカや中国で実用化され始めたレベル4の自動運転タクシーは、生成AIによる実装ではなく、従来のAIによる実装です。従来のAIは「結果が安定している」のが生成AIとの大きな違いです。

日本が急速な少子高齢化社会を迎えるにあたり、必要な人材が今後急激にいなくなった場合、顧客側が期待値をいまよりもかなり下げることができるのであれば、生成AIによる顧客向けのユースケースも広げられるかもしれません。ただ、私もいろいろな大手企業のCxOや幹部と話す機会がありますが、「生成AIを顧客体験の向上に直接的に利用している」大企業は、日本ではまだ殆どなく、試そうとしていても計画・検討中か、PoCをやろうとしているくらいのステータスのようです。

従来AIと生成AI、拡張検索生成の組み合わせで能力を補完

生成AIは確かに素晴らしい技術で、ここ2年ほど市場を騒がせていますが、同時に万能ではありません。人間の脳も計算・論理的思考・分析などが得意な「左脳」、音楽・芸術・創造が得意な「右脳」、身体制御が得意な「小脳」という具合に、得意分野が違う複数の脳からできています。

生成AIを「右脳」だとすれば、より安定した信頼性のおける結果を出す従来型のAIを「左脳」、最新情報や組織ごとの秘密情報を参照する拡張検索生成と組み合わせたシステムを作るのが、現実的な選択です。調査会社のガートナーも、この組み合わせアプローチを推奨しています。

複数の言語モデルを統合するフレームワークは、Sakana AIによる「進化的モデルマージ」や、富士通の「混合生成AI技術」などで研究が進んでいます。最近たくさん出てきているさまざまな特化型言語モデルをうまくマージすることで、より高いパフォーマンスを出すシステムを簡単に作れるようになることが期待されています。

そして、拡張検索生成 (RAG) については、関心がある層の約半分がすでに取組中であるとの調査報告もあります。しかし、実際にRAGを実装してみた企業に話を聞いてみると、企業内情報を参照できると言っても現在の技術では断片的な情報しか拾ってこないため想定した回答とは程遠いと、結果に満足していない人が多いようです。RAGについてはまだまだ技術的な改善の余地があり、情報に体系的な整理を施して検索させる「GraphRAG」「ナレッジグラフ拡張RAG (富士通版GraphRAG)」等、新たなアプローチによる解決が待たれます。

生成AI市場のエコシステム

話は変わりますが、現在の企業のIT環境の状況は、約20年前の「クライアント・サーバーシステム普及期」、約10年前の「クラウドシステム普及期」と並ぶ新たなITシステムの普及期「(生成)AI普及期」を迎えています。

生成AIのプロバイダー側にはいろいろな種類のプレイヤーがいますので、このプレイヤー間の関係性 (バリューチェーン)について少し整理した図を掲示します。

生成AIビジネスは、急速に新しい富が出現してみんなが寄って集ってどんどんビジネス規模が大きくなっていることから、よく「ゴールドラッシュ」に例えられます。ただし、過去のゴールドラッシュの例でもそうでしたが、必ずしも「金を直接掘りに行く人」が一番儲かったわけではありません。

生成AIについては、計算力の源泉であるGPU (画像処理装置) を製造しているGPUベンダーが「つるはし」を提供する役割であり、確実に儲かります。NVIDIAの売上高がこの2年で4倍になり株価がこの4年で10倍になったことは記憶に新しいでしょう。

クラウドベンダー、LLMベンダー、特化型アプリベンダーは、それぞれインフラとそこに載っける言語モデルを提供するベンダー、言語モデルを応用して実際にユーザーが使えるアプリを実装するベンダーです。これらははっきりと分かれずひとつにまとまっている場合もあります。インフラ提供者は「鉄道」を敷く役割で、言語モデルやアプリを探索するベンダーは「金を掘りに行く人」のようなものです。これらのプレイヤーは一攫千金のために潤沢な資金を投資する必要があります。

これらの下流に位置する総合ITベンダー・コンサルは、「掘られてきた金を顧客まで届ける流通」のような役割です。言語モデルや生成AIアプリはさまざまな品質のものが玉石混交状態になっているため、流通に当たるプレイヤーが目利きをして整理をする必要が出てきます。今は約20年前の「クライアント・サーバーシステム普及期」、約10年前の「クラウドシステム普及期」の頃と比べて、日本のユーザー企業にもテクノロジーと英語ができる優秀なCIO/CTOが増えていますので、直接アメリカの言語モデルや生成AIアプリベンダーと話をするケースも増えてきているようです。しかし、一通り直接話を聞いたものの「結局どこと組めばいいのかわからないので富士通にアドバイスをほしい」と富士通を頼っていただくケースを私も結構聞いています。

どこまでを自分で実装するか？

また、読者の皆様がユーザー企業の場合、今の時点でどの層までを自社で管理してどの層までをプロバイダに任せるかにも興味があるかと思います。これはクラウドが登場したときにも検討したことと似たような議論です。

最近はユーザー企業でも高い技術力と英語力を持つ人材が増えてきており、自社開発でかなりの部分をカバーできるという企業もいらっしゃるかもしれません。ただし、生成AIは現時点でまだまだ技術の進化が物凄いですので、新しい技術が出てきたときに、いままでの実装をすべてやり直す必要が出てくることもざらにあり (例: ChatGPT-4o mini提供に伴うChatGPT-3.5 Turbo提供終了) 、自社開発ですべて賄っていた場合に大きな手戻りになるケースもあるので、よくよく考える必要がありそうです。

まとめ: 生成AIへの期待値の収斂先は？

以上、なかなかのボリュームになりましたが、生成AIという技術の現状と課題、現在のトレンド、ユースケースの可能性と限界、現在取るべきアプローチなどについて、概要を説明してきました。

技術や市場状況は少し時間が経つとまだまだ大きく変化し続けていますが、その中でも「不変なこと」に注目することで、大局観を得ることが可能になります。

生成AIへの期待値は今までのところ大きいのですが、従業員の管理監督がいらない形でどこまで直接的に外部顧客対応に使えるのか、はたまた生成AI単体でなくても従来型AIとの組み合わせなどでどこまで限界に挑めるのか、がポイントになってくるように思います。

話は脱線しますが、ブラックホール物理学では「如何なる方法を用いても情報伝達がされない境界面」のことを「事象の地平面 (event horizon)」と呼びます。これからの生成AIの技術や市場の変化の如何にかかわらず生成AIが持っている限界、「生成AIの事象の地平面」をいち早く見極めることが、ユーザー企業の立場で生成AIに携わる読者の皆様には求められているのではないかと思います。

この記事がその理解の一助になれば幸いです。

最後までお読みいただきありがとうございました！では、また！