生成AIの本質は生成機能ではない
初めに
筆者は、ChatGPTの衝撃から機械学習の世界に入り、AIが汎用知能化することによる革新的な価値提供について約2年間考え続けてきました。
そんな中、多くの人が生成AIに対して、コンテンツを生成する側面ばかりを注視していることに疑問を覚えます。生成AIの本当の凄さは、「コンテンツを生成すること自体」ではなく、コンテンツを生成出来るほど「コンピュータの知能化」が進んだことにあるのではないでしょうか?
今までのAIのようにただ識別するのと、コンテンツを生成するのでは全く異なるレベルの「コンピュータの知能化」が必要なことは直感的にも理解できるかと思います。
この記事では、筆者の考える生成AIの本質、使い方について記述することで、これを読んだ人のアイデア創出の一助となり、革新的な価値提供を行うプロダクト作りがさらなる活性化をすることを祈ります。
歴史的に本筋は「コンピュータの知能化」
AI(人工知能)という言葉が初めて使われたのは1956年のダートマス会議でした。また、一般的に「最初の電子デジタルコンピュータ」として認識されているのは1945年に開発されたENIACです。という事は、AIという概念は、コンピュータというものが世の中に生まれてからすぐのタイミングから存在しており、現在まで研究されてきたものであることがわかります。
ダートマス会議において、AIとは「知的機械を作成する科学と工学」であると定義され、目標は機械が人間のように知的行動を行うこととされました。
そして現在までAIの研究者たちは、この実現に向かって認知科学とコンピュータサイエンスの交差点として、人の知能についての研究で得られた知見をコンピュータ上で実装するアプローチによりAIの開発を行ってきました。(深層ニューラルネットワークが人間の脳のネットワークを真似たように)
この過程で、知能化の段階を基準にAIの能力を表現する"弱いAI"、"強いAI"という用語が作られます。"弱いAI"は画像識別のAIのような特定のタスクをこなすことが出来るようにトレーニングされたモデルのことであり、"強いAI"は特定のタスクでなく、汎用的なタスクに対応することのできるモデルです。
今までのAIは"弱いAI"に分類されるもので、決められた特定のタスクしか解くこと出来ませんでした。そのため世界中で"強いAI"の開発が切望され、多くの天才と莫大な資本が投じられます。
そして、その流れの上の革新的なパラダイムが生成AIなのです。
次では、生成AIがなぜ革新的なのか、なぜ"強いAI"を実現するのか、モデルの学習の側面から考えてみます。
生成AIの学習
生成AIの学習は物凄い大量のデータによって行われます。例えば、ChatGPTよりも前に開発されたGPT3と言われるモデルは、570GB以上のテキストデータでトレーニングされています。これは人間が一生をかけても全く読み切ることが出来ない量のデータに匹敵します。
生成AIはこの大量のデータから、一般的な常識や文の構造を学ぶことで、入力文章の理解、出力文章の生成が可能です。この能力の獲得が非常に革新的であり、モデルへの入力を変化させることで別のタスクを解くことができるのです。このことにより、生成AIは汎用的な"強いAI"に近づいたと言えるのです。
認知科学的な視点から上の記述に不信感を持つ人向け
この記事では、生成AIの登場を「コンピュータの知能化」としてイメージしやすくするために、人間の「理解」や「学習」をアナロジーとして使っています。これは、プロダクトに応用する時のアイデアを出やすくするためです。あくまで、実際の内部実装には目をつぶり、哲学的ゾンビのように内部実装をブラックボックスとし、入力、出力だけを見るように記述することにご留意ください。
「コンピュータの知能化」をどう使うのか
ここまで読んでくださった方はこう思ったかもしれません
確かに「コンピュータの知能化」はかなり抽象的な概念であり、実際にプロダクトにして価値を生み出すには、具体的な使い方として落とし込む必要があります。そこで最近もっとも注目されている(と筆者は思っている)のが"AIエージェント"です。
この"AIエージェント"について、ChatGPTを開発したOpenAIが提供するAPIであるFunction Callingを参考に説明します。
"AIエージェント"とは何なのか。
それは、なにか特定の目的を達成するために、外部ツールとの連携、必要な情報の収集などを「自立的」行うシステムのことです。
具体例として、「天気を教えてくれる機能を持ったエージェント」を構築することを考えます。生成AIのモデルは、トレーニングに使われたデータしか知りません。そのためモデルは最新の情報を持っておらず、天気情報を知るための外部ツール(天気予報API)を与えてあげる必要があります。この外部ツールは、「いつ」「どこ」を入力とし、「天気予報」を出力するものとします。
この時、ユーザが「明日の天気を教えて」とエージェントに伝えたとき、エージェントはどのように動作するでしょうか?「いつ」は明日であることが分かりますが、「どこ」の情報がユーザの入力には含まれていません。そのため、モデルはこれだけの情報では外部ツールを呼び出す(天気情報を得る)ことが出来ないと判断し、ユーザに「どこの天気を知りたいですか?」と質問を返すのです。そうして、「どこ」の情報を得たエージェントは外部ツールを利用し「天気予報」を得たら「明日の東京の天気は晴れです」と返答するのです。
この過程において、"AIエージェント"は「天気を教える」という特定の目的を達成するために「天気予報API」という外部ツールを利用しました。また、外部ツール利用のために必要な情報が不足していることを「自律的」に判断し、ユーザに質問をするという動作を行いました。
これが「コンピュータの知能化」によって可能になること。
"AIエージェント"の実現なのです。
チャットUIに捉われるな
「コンピュータの知能化」を最大限利用するには、インターフェースについて深く考えることが非常に重要です。
生成AIとして代表的なChatGPTやStable DiffusionはチャットUIです。これは生成AIの入出力を考えた時にとても素直なインターフェースです。しかし、それは人間に優しいインターフェースなのでしょうか。
個人的に、チャットUIはあくまでAIの都合をもろに出したインターフェースだと感じます。なぜなら、人間の思考よりもはるかに遅い速度での入力と出力が強制されるためです。人間の思考速度はタイピングよりも圧倒的に速いはずです。しかし、チャットUIの優れた点もあります。それは、「対話」によって意図の伝達が可能な点です。これは、「コンピュータの知能化」による革新的なインターフェースであると感じます。
我々エンジニアに求められているのは、生成AIの本質を「コンピュータの知能化」としてとらえ、それを最大限利用するインターフェースの設計、ひいてはUXの設計を行うことなのだと、僕は思います。
"AIエージェント"を信頼する必要性
"AIエージェント"の最も大きな強みはその「自立性」です。1の命令で10のタスクを自律的に思考しこなしてくれるだけでなく、人間の認知していない所で人の助けになるような動作をすることも出来るかもしれません。
僕の仮説ですが、そのような動作を目指す中で、新しいコンピュータシステムには人との信頼関係が求められるのではないかと考えています。さらに言えば、人はコンピュータシステムをただ「使う存在」として捉えるのでなく、人にするのと同じような「コミュケーションをとる存在」として捉える必要があると思うのです。
それにより、"AIエージェント"はよりユーザの生活に密着、多くのパーソナルな情報にアクセスすることが可能となり、「コンピュータの知能化」がもたらす価値が新たな段階へと踏み出すのだと思います。
まとめ
生成AIの登場は、単なる一過性の流行りではありません。
これは、長年の目標である「コンピュータの知能化」を大きく飛躍させた技術です。
しかしこの技術は、今までのビジネスのコストバランスを大きく崩す可能性を秘めています。それにより、利益を得る人がいれば不利益をこうむる人もいるでしょう。
もしかしたら、この変化は人類の歴史において最も劇的な変化の1つである産業革命に似ているかもしれません。産業革命は、大きな経済成長をもたらした一方、多くの失業者、社会格差の拡大などをもたらしました。
しかし、この資本主義に生きる我々は技術の進化から逃れることは出来ません。むしろ進化する技術をうまく利用していくべきです。そして、この「コンピュータの知能化」を社会に実装できるのは、技術を深く理解した経営者と我々エンジニアしかいないのです。
また日本人は、諸外国に比べてAIに対して拒否的でなく、親和的であることが多いと言われます。これは、創作の世界においてAIをターミネーターのような侵略として表現するのではなく、鉄腕アトムやドラえもんのように人を助けてくれるものとして表現してきたからという説があります。
是非とも、そんなAIとの親和性の高いこの日本で「コンピュータの知能化」による革新的な価値をもたらすプロダクトを、それがもたらす不利益にも目を向けながら、共に作っていきましょう。
この記事が気に入ったらサポートをしてみませんか?