生成AIの進化とビジネス受容のギャップがビジネスチャンス
生成AIの進化は常に予想を上回っています。逆にビジネスにおける需要は予想を下回っています。このギャップが拡大しているというお話をします。
生成AIの進化
登場時点からすごいすごいといわれている生成AIですが、常に予想を上回る進化があります。
大量のインターネットデータによる学習をした言語モデル(単語の遷移確率のモデル)が文章を生成できること
人間フィードバックによる強化学習が人間に受け入れられるレベルの文章作成を可能にすること
事前学習をした基盤モデルが少数の例に基づき、モデルの組み替えなしで多様な問題に対応できること
文章だけでなく画像、動画、音声、推論、分子構造なども大規模ま事前学習でモデル化できること
機械学習のTransformerアーキテクチャが中間トークン数を増やせば論理回路と等価な演算ができること ([Zhiyuan])
事前学習後に推論時に計算資源をかけることで精度を上げることができること ([Snell])
OpenAIでは毎週研究ミーティングがあり研究のモデルやサービスの紹介がありますが、毎週驚くことの連続だと言われています。
しかし、これほどの驚異的進化がビジネスを変えているかというとそうでもありません。
ビジネスにおける受容
一部のシナリオライターや画像イラストレータを除くとほとんど失業は起こっていません。また、生成AIをベースにしたビジネスリエンジニアリングやビジネストランスフォーメーションも起こっていません。
OpenAI o1はIQ120相当という報道もありますが、それで社員をo1で代替するという話も聞きません。ツールの利用など機能制限があるのは事実ですが、APIを使えば迂回できるわけで、人間を代替するには至っていません。
ChatGPTを使っていますという以上の組織のAIトランスフォーメーションはほとんど見られません。
むしろハルシネーションが多くてカスタマサービスなど顧客向けサービスには使いづらいと思われています。
企業における最大のボトルネックは人間労働ですから、ここを置き換えない限り、生産性の大幅な向上は見込めないです。
ビジネス受容を阻む要因
ビジネス受容を阻んでいる最大の要因は信頼ならないことです。
生成AIはハルシネーションがあるから、と言われます。生成AIの世界でハルシネーションとは生成AIが事実と異なる回答をすることです。
人間が期待する精度と生成AIが実現する精度の間には大きなギャップがあります。
生成AIが自動的に作業をして、その間に1000回判断が必要だとしたら、生成AIには99.9%の精度が求められます。あるいは99.99%かもしれません。
実際には、
この薄くなっているところは64回試行して多数決で正しい場合の数字です。
以下はAnthropicのClaude 3.5 Sonnet (New)のエージェントのベンチマークTAUの結果です ([Anthoropic])。
繰り返すと正解率が落ちることがわかります。
2024年の最先端のモデルでも最初の1回では正解が出ないかもしれないし、最初の1回で正解でも何回もやると正しく動かないかもしれない、となるとビジネスで使うのは難しいです。
コストが非常に安くなれば勝手に何回も繰り返して正答を絞れば精度があがりますが、それでも人間がコンピュータに期待する99.99%とかの精度に到達するにはコストもかさみます。
これらは一般的な例であり、企業内のビジネス情報を扱う場合には、そもそも大量の情報の中から正解を導くために必要なデータを取り出してくるところの精度を上げることも必要です。
精度が上がらないからといって似たようなデータを多数入力するとさらにモデルの精度は落ちます。かといって正解を知らないのに正解に関係するデータを検索してきて投入するのはこれはこれで高い難度の仕事になります。
ビジネスチャンス
生成AIの進化と実際の生産性向上のギャップは拡大しています。
昨年 GPT-4のAPIがリリースされたときにはこれからAIアプリの時代になると思いました。ChatGPTは大ヒットしましたが、他のアプリはそうでもありません。
これからのビジネスチャンスは生成AIの先頭を走ることではなく、拡大し続ける進化とビジネス実現のギャップを埋めることです。
ギャップを埋めるサービスはいくつか考えられます:
コンサルタント
精度があがらない原因を説明する
より限定された特殊な用途での成果を求めるようにアドバイスする仕事
生成AIが失敗した場合にフェイルセーフにするデザインをする
教育
基盤モデルはシミュレーションであり単に方向を示しているだけで何度も検証しなければならないマインドセットを教える
むすび
研究は驚くべき進展を見せていますが、人間の感覚にマッチするにはまだ時間がかかります。
今の生成AI技術でも毎回100万回くらい検証すればビジネスで使えるレベルになるかもしれません。そのためにはコストが100万分の1になる必要があります。コストパフォーマンスサイドから言えば、それが実現するのは10年以上かかると思います。
モデルはどんどん進化しますが、コンピュータが答えを出しているのだから正確なはずという人間の感覚にマッチするにはまだ10年単位で時間がかかりそうです。
参考文献
[Anthropic] Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf 2024年
[OpenAI] Learning to Reason with LLMs https://openai.com/index/learning-to-reason-with-llms/ 2024年
[Snell] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters by Charlie Snell et al. https://arxiv.org/abs/2408.03314 2024年
[Zhiyuan] Chain of Thought Empowers Transformers to Solve Inherently Serial Problems by Zhiyuan Li et al. https://arxiv.org/abs/2402.12875 2024年