AIの流行語の説明:40分で99%の人々よりもAIを理解する
16,919 文字
はい、これから深層学習、機械学習、人工知能、ニューラルネットワーク、生成AI、大規模言語モデル、トランスフォーマーなどについて説明していきます。みんなこれらの用語を同じように使うてはりますけど、実際はそれぞれ違うもんなんです。ほんまのところ、これらの専門用語ってどういう意味なんでしょうか?誰かがもっと専門用語を使わずに説明してくれへんかなぁ、って思うてはる方におすすめの動画です。
1時間もかからへんうちに、めっちゃ濃い目のAI入門をお届けします。これを見たら、99%の人よりもAIのことがよう分かるようになりますよ。画面に出てくる全ての用語を説明していきますし、1つの図にまとめて、忘れへんようにしていきます。それに、完全に分かりやすい言葉で説明していきます。AIの概念を簡単に説明すると約束しているビデオの多くが、その約束を守れてへんのに気づいたからです。
余計な専門用語は一切使わへんけど、同時に正確さは保ちます。全体像を理解するのに必要やない細かいところは省きます。ここでの目標は、それぞれのAIの概念の全体像と、なぜそれがあなたやあなたのビジネス、仕事、社会にとって重要なのかに焦点を当てることやからです。
この動画を見たら、今日ほとんどの人ができへんような、AIについての教養ある会話ができるようになりますよ。これは「AIの全体像」コースの3本目の動画ですけど、もし1本だけ見る時間しかないんやったら、この動画に集中してください。AIについて素早く全体を把握するのに、一番役立つ動画です。
ほな、始めましょか。
レベル1:まず、全てを包含する赤い円、AIつまり人工知能から始めます。99%の人はもうAIが何を意味するか知ってはると思います。AIは単に、コンピューターやロボット、自動運転車などの機械が示す知能のことを指します。生き物が持つ知能とは対照的なものです。AIは洗練されたソフトウェアを使って作られます。ソフトウェアであることは、全てのAIの重要な特徴の1つです。
将来的には、何らかの形の人工生物学や、脳の構造を模倣した特殊なハードウェアを使ってAIを構築することもあるかもしれませんが、今のところ、全てのAIは純粋なソフトウェアです。最新のAppleのラップトップのような汎用コンピューターでも実行できることが多いです。
AIの次のレベルを見る前に、AIの概念全体について、1つの大きな全体像のアイデアをお話しします。これは多くの人が理解してへん深遠なことですけど、この全体像のアイデアを理解したら、他の全てのことが納得いきますし、なぜAIをめぐってこんなにフィーバーやゴールドラッシュが起こっているのかもすぐに分かります。
AIは人類史上最も重要な発明です。なぜなら、それは唯一の発明できる発明やからです。AIはメタ発明、もっと正確に言うと、AGIレベルに達すれば発明できるようになります。AGIは、AIゴールドラッシュに参加している最先端のテック企業全ての最終目標です。AGIって何やねんって?そこまで行きますけど、まず次のレベルの図を理解せなあきません。
レベル2:AIファミリーの最初の大きな分岐は、AI研究者が知能を作り出そうとした2つの主なアプローチの間にあります。この2つのアプローチは、記号的AIと機械学習です。他のアプローチもありますけど、それほど重要ではありません。この動画では、AIの最も重要な概念にのみ焦点を当てています。
この2つの主なアプローチは、1950年代のAI分野の始まりから存在していましたが、1950年代から今世紀初頭まで、その重要性は劇的に変化しました。1950年代から2000年頃まで、記号的AIが圧倒的に主流のアプローチでした。だから、古典的AIやクラシックAI、さらには冗談半分に「良き古き時代のAI」とも呼ばれています。
せやけど、2000年頃から今日まで、完全に立場が逆転して、今では機械学習がほぼ全ての研究の注目を集め、企業に金を稼がせています。実際、機械学習はとても成功したので、しばしばAIセクター全体の同義語として使われるようになりました。求人情報でAIエンジニアの代わりに機械学習エンジニアという職名を見かけるのはそのためです。
でも、私らは全体像を見たいわけで、2つのアプローチの主な違いは何やろか?って思うてはるかもしれません。さっき言うたように、両方のアプローチの最終製品は常にソフトウェアですけど、そのソフトウェアに何を入れようとするかが根本的に違います。
記号的アプローチは、まず思考のルールを見つけ出そうとして、そのルールを直接ソフトウェアコードに書き込もうとします。一方、機械学習は、思考の全てのルールを見つけるのは極めて難しい、もしかしたら不可能かもしれへんという前提から始まって、代わりにルールを自分で学べるソフトウェアを作ろうとします。
ざっくり言うと、記号的AIは完成した心を作ろうとしているのに対して、機械学習は空っぽの脳を作ろうとしているようなもんです。その空っぽの脳に大量の情報を与えることで、独自の心を発達させることを期待しています。赤ちゃんが何年もかけて感覚情報にさらされて考えることを学ぶのと少し似ています。だから機械学習は機械学習と呼ばれるんです。本当に考えることを学べる機械を作ろうとしているからです。
ちなみに、記号的アプローチは、ルールベースAIやロジックベースAI、さらにはフォーマルAIとも呼ばれることがあります。このアプローチは、私らの心の中で起こるルールや論理的プロセスを形式化しようとして、それを直接ソフトウェアコードに書き込もうとしているからです。
今日では記号的AIの重要性は劇的に縮小していて、日常生活で遭遇する記号的AIの有名な例はあまりありません。でも、1980年代と1990年代に非常に人気があって、今でもよく言及される2つの例を挙げましょう。
1つは、1997年に初めて人間のチェスのグランドマスターを打ち負かしたAI、ディープブルーです。ディープブルーは記号的AIでした。それを作ったAI研究者らは、チェスの戦略を手動でそのソフトウェアに直接入力せなあきませんでした。ディープブルーは戦略を自分で学んだわけではありません。ただ、ソフトウェアの中に入れられた全ての戦略をめっちゃ速く検索できただけです。
対照的に、2017年のAlphaZeroは、ディープブルーと同じように全ての人間のグランドマスターを打ち負かしましたが、今度は機械学習のAIでした。機械学習のおかげで、誰もチェスの戦略を手動で入力する必要がありませんでした。AlphaZeroは単にプレイすることで戦略を自分で学びました。それが機械学習のパワーです。
前世紀に成功した記号的AIのもう1つの例は、エキスパートシステムと呼ばれるものでした。これは80年代のAIブームの主役でした。医療、金融、法律など、専門家の意思決定に使われるシステムでしたが、一部の用途では機能したものの、全てのルールを人間が手動でエンコードせなあきませんでした。「これが起こったらこうせえ、あれが起こったらああせえ」みたいな感じです。
もちろん、人間がエンコードしたこれらのルールを作るのは非常に面倒で、最新の状態に保つのは悪夢のようでした。今日では、一部の医療意思決定システムなどに残っていますが、ほとんどは機械学習やハイブリッドシステムに取って代わられています。
今日私らの周りにある機械学習の成功例は数え切れへんほどありますが、最も有名なものをいくつか紹介する前に、まず機械学習の中の次の分岐を理解せなあきません。
レベル3:機械学習は、一方でニューラルネットワーク、もう一方でニューラルネットワークを使わない他の全ての機械学習に分けることができます。ニューラルネットワークを使わない機械学習の例は、あんまり聞き覚えがないかもしれません。ニューラルネットワークアプローチほど重要ではないからです。だから、この全体像のビデオでは取り上げません。
重要なのは、これまでのところ、はるかに優れた合成思考を生み出した機械学習アプローチは、ニューラルネットワークを使うものやということです。振り返ってみると、このアプローチがこんなに成功したのは驚くべきことではありません。
機械学習アプローチは、思考そのものを作り出すんじゃなくて、考えることを学べるものを作ることやと言いました。ほな、学習マシンを作りたいんやったら、宇宙で唯一学習できることが分かっているものを模倣したマシンを設計しようとするのは理にかなってるんちゃいますか?その唯一のものは、動物や人間の脳です。
ニューラルネットワークは、まさに脳の構造から直接インスピレーションを得た種類の機械学習です。だから、人工ニューラルネットワークとも呼ばれます。「人工」が付くのは、人間や動物の脳を構成する生物学的ニューラルネットワークとの違いを強調するためです。時々、略してニューラルネットとも呼ばれます。
ニューラルネットワークが何か重要な結果を出し始めるまでに50年以上かかりましたが、いったん機能し始めたら、ブーム!現在のAI革命を起こしました。なぜそんなに長く時間がかかったんでしょうか?それは別の動画のネタになりますが、要するに、十分に大きなニューラルネットワークを作るのに必要な計算能力がなかったし、その巨大なニューラルネットワークに考え方を教えるのに必要な大量のデータもなかったんです。
ところで、ニューラルネットワークってどんな風に機能するんでしょうか?めっちゃファンシーに聞こえますよね。とてもSFっぽいです。そういう魅力に値するんです。なぜなら、ニューラルネットワークは絶対的な技術の奇跡やからです。私らの脳とほぼ同じように学習できるんです。
もちろん、構造的な細部では大きく異なるって聞くでしょう。それは本当ですが、機能の仕方の大きな原理は驚くほど似ています。人間の脳の場合、ほとんど何も情報や思考パターンが保存されてへん、ほぼ処女のニューラルネットワークを持って生まれてきます。
何年もの間に、たくさんの視覚情報、声、音、匂いなどにさらされて、少しずつ私らのニューラルネットワークがその全ての情報を反映するように相互接続し始めます。だから、少しずつ考えることを学ぶんです。生まれて数日の赤ちゃんは、ミミズよりもあんまり賢くありません。失礼な言い方ですが。でも、数ヶ月間感覚情報にさらされると、赤ちゃんのニューラルネットワークが世界をどんどん理解できるような方法でつながり始めます。
人工ニューラルネットワークの場合も同じです。ニューラルネットワークは、ニューロンをシミュレートするソフトウェアプログラムです。AIでは、ニューロンの代わりにノードと呼ばれます。脳と同じように、それらの間の接続もシミュレートします。
私らの脳と同じように、人工ニューラルネットワークは視覚情報やテキスト情報、あるいはそれらの組み合わせにさらされます。そうすると、少しずつそのデジタルニューロン間の接続が、世界を理解し、思考に似たものを生み出す能力を生むような方法で設定され始めます。
一部の専門家は、これは本物の思考やと言います。他の専門家は、単に思考のシミュレーションに過ぎへんと言います。でも、この動画ではその論争は取り上げません。全体像として重要なのは、シミュレーションであろうとなかろうと、この思考は驚くほど私らのものと似ていて、多くの実用的な目的では区別がつかへんし、時には優れているということです。
最後にもう一言。脳はめっちゃ相互接続されていて、ニューラルネットワークは脳から着想を得ているので、ニューラルネットワークが接続主義的アプローチと呼ばれることもあります。
ほな、ニューラルネットワークが脳の構造を模倣したAIやとしたら、ディープラーニングって何なんでしょうか?
レベル4:ディープラーニングは、人工ニューロンの多くの層を積み重ねたタイプのニューラルネットワークに過ぎません。だから、このアプローチはディープニューラルネットワークとも呼ばれます。
ディープラーニングがこんなに有名な用語になったのは、ニューラルネットワークの中で最も成功したアプローチやからです。ディープラーニングではないもう一つのタイプのニューラルネットワークは、シャローニューラルネットワークで、ニューロンの層が1つか非常に少ないです。でも、もう誰もそれらを使うてへんのです。なぜなら、ディープなものほど洗練された学習を達成できへんからです。
ディープニューラルネットワークを作る技術的な困難が克服されたら、シャローアプローチは放棄されました。今日では、ディープラーニングとニューラルネットワークはほぼ同じ意味で使われています。
パターンが見えてきましたか?今まで見てきた全ての用語は、その親カテゴリーの中で最も成功したアプローチでした。ディープラーニングは単にニューラルネットワーク内で最も成功したアプローチです。ニューラルネットワークは機械学習内で最も成功したアプローチで、機械学習はAI内で最も成功したアプローチです。
だからこそ、AIについての会話でこれらの用語が混同されるのはよくあることです。人々はしばしばディープラーニング、ニューラルネットワーク、機械学習、AIを互換的に使います。なぜなら、AIセクターのほぼ全てを占めているAIアプローチを、異なる名前で呼んでいるだけやからです。そのアプローチがディープラーニングニューラルネットワークです。今日のAIセクターの大部分が、ディープラーニングニューラルネットワークを使うことを中心に回っているからです。
ほな、次のレベルに行きましょう。これもきっとよく聞いたことがある用語です。
レベル5:ディープラーニングは多くのことに使えますが、ここ数年で最も注目を集めて見出しを飾っているタイプのディープラーニングアプリケーションは、コンテンツを作り出せるタイプです。そのタイプは生成AIと呼ばれます。テキストを書いたり、メロディーを作曲したり、漫画を描いたりできる人工知能です。生成AIという名前は、コンテンツを生成できることに由来しています。GenAIと略されることもあります。
これまで見てきた全てのレベルと違って、生成AIは AIを作り出すための別のアプローチや別のアーキテクチャではありません。AIのアプリケーション、つまり使用事例です。でも、ディープラーニングの中に入れています。なぜなら、良いコンテンツを生成できるAIで、ディープラーニングに基づいてへんものはほとんどないからです。事実上、全ての生成AIはディープラーニングニューラルネットワークによって動いています。
でも、なぜ2022年に突然みんなが生成AIについて話し始めたんでしょうか?2022年以前は、生成AIはまだ非常に実験的で、作り出すコンテンツの質もまだ低かったからです。だから、2022年にこのタイプのAIがかなりまともな画像やテキストを生成し始めたとき、人々は注目し始めました。
そして、その年の終わりにOpenAIがChatGPTをリリースしたとき、素晴らしいテキストを生成し、使うのがめっちゃ簡単で、しかも無料やったので、口コミで一夜にして大ブレイクしました。
実際、2022年はAIにとって革命的な年でした。突然、AIはほとんどの人間と同じくらい上手に、あるいはそれ以上にテキストを生成できるようになりました。画像も同じです。数秒で、プロのイラストレーターを雇って数日待つ必要があったようなアートワークを作れるようになりました。
レベル6:トランスフォーマーと拡散モデル。この2つの用語は特に威圧的に聞こえるかもしれません。AIの会話でもよく聞かれますが、技術的でない人々にはほとんど分かりません。でも、心配せんでええです。AIの全体像を理解するのに、これらがどのように機能するかの詳細や他の細かいことを知る必要はありません。
知っておくべきことは、これらが単にニューラルネットワークの2つのタイプやということです。もちろん、シャロータイプではなく、ディープニューラルネットワークタイプです。だからディープラーニングの下に入れています。
最後に知っておくべきことは、他にも多くのタイプのディープラーニングニューラルネットワークがありますが、人々がこの2つについてそんなにたくさん話すのは、生成AIで2つの最大の成功事例を生み出したからです。
レベル7:拡散ニューラルネットワークはテキストから画像へのモデルを生み出し、トランスフォーマーはテキストからテキストへのモデルを生み出しました。
テキストから画像へのモデルは、画像生成モデルとも呼ばれます。欲しいものの説明を入力すると、モデルが数秒でそれを作り出してくれます。このタイプのモデルの有名な例には、DALL-E、Stable Diffusion、Midjourney などがあります。
テキストからテキストへのモデルは、テキスト生成モデルとも呼ばれ、多くの異なることに使えますが、今のところ最も人気のある使用事例はチャットボットです。だから、時々この全カテゴリーが単にチャットボットと呼ばれることがあります。でも、実際はそれ以上のものです。
ちなみに、AIの世界でモデルと言うたら、ソフトウェアの一部、つまりプログラムを意味します。例えば、誰かが新しいテキストから画像へのモデルをリリースすると言うたら、新しいテキストから画像へのプログラムをリリースすると言うているのと同じです。
レベル8:このレベルで、もう一つの超人気のAIバズワード、LLMが出てきます。LLMは大規模言語モデル(Large Language Model)の略で、説明はめっちゃ簡単です。LLMは単に、特に大きなテキストからテキストへのモデルです。
実際、LLMは、AI技術者が最近まで作れたニューラルネットワークと比べてめっちゃでかいです。この巨大なニューラルネットワークが可能になったのは、それらを実行するのに必要な計算能力の進歩と、それらに適合させるのに必要な膨大なデータ量の蓄積、つまり学習できる情報のおかげです。
LLMがこんなに有名になったのは、ご存知の通り、有名なChatGPTもLLMやからです。ChatGPTは、AI史上最大の成功事例です。だからLLMもみんなの口の端にのぼるようになりました。
もう一度パターンが繰り返されています。テキストからテキストへのモデルは生成AIの中で最も人気のある種類で、LLMはテキストからテキストへのモデルを作る最も効果的な方法で、ChatGPTは最も人気のあるLLMです。
正確に言うと、ChatGPTの背後にあるモデルがLLMで、ChatGPT自体はLLMではありません。ChatGPTは実際にはモデルではなく、モデルの顧客向けの外観です。GPTとして知られるLLMモデルを簡単に使えるようにしたチャットサービスです。
2022年にChatGPTが最初に立ち上げられたとき、GPT-3モデルが内部にありました。今、この動画を撮影している時点では、GPT-4モデルが内部にあります。コンピューターのオペレーティングシステムのように、OpenAI(これらのモデルを開発している会社)は、新しい改良版をリリースするたびに、モデルに新しい番号を付けています。
ここで知っておくべきもう一つの重要なことは、これらの大規模言語モデルは、ChatGPTのようなチャットを通して話すだけでなく、他の多くのことにも使われていることです。例えば、GPTモデルを提供しているOpenAIにお金を払って、あなたが持っているアプリやウェブサイト、その他のビジネスアプリケーションを接続し、GPTにそのサービスの頭脳を提供してもらうことができます。
一例を挙げると、「マイ・ライティング・パル」というアプリを作って、作家に小説を改善するためのアドバイスを提供し、GPT-4を内部に置いて、それらの提案を生成するための知能を提供することができます。
つまり、この例では、「マイ・ライティング・パル」やChatGPTは、GPT-4大規模言語モデルを使って知能を提供するユーザー向けのアプリケーションに過ぎません。
ちなみに、AIの時代にビジネスやキャリアをどう適応させるべきかアドバイスを求めているなら、私との発見コールを予約するのもええかもしれません。AIトランジションコンサルティングを専門にしていて、AIが自分のキャリアやビジネスに与える可能性のある影響を懸念している個人や経営者、または現在の職業でAIを活用してより競争力を持てるかどうか知りたい人にガイダンスを提供しています。
発見コールは無料で、自信を持ってお役に立てると思える場合にのみクライアントとして受け入れます。全ての人が適しているわけではないからです。興味があれば、発見コールを予約するリンクが説明欄にあります。
今日存在する全てのタイプのAIモデルの中で、LLMは経済的にはるかに最も重要です。2022年以前は、このタイプのニューラルネットワークを非常に大きくするだけで、人間の言語を理解するのがこんなに上手くなるということを、ほとんどの人が気づいていませんでした。
実際、今日ではほぼ全てのAIテキスト生成がLLMで行われるほど、上手くなっています。でも、LLMをさらに大きくしていくと、テキスト生成以外の多くのことでも上手くなり始めています。
現状をより正確に反映させるなら、トランスフォーマーとLLMは生成AIの領域から飛び出して、他の非生成的な用途にも使われているということになります。次のセクションで見ていくように。
ここでの大きな全体像は、今のところLLMが大手テック企業や一部の強力な政府によって、AIの賢者の石と見なされているということです。つまり、潜在的に大きくなり続けるにつれて、主人が命じるほぼ全てのことができるようになるかもしれないAIです。
だからこそ、全ての大手テック企業がLLMに夢中になっています。自社のLLMを持っているか、自社のLLMを構築中か、LLMを所有するAIラボに投資しています。現在最も強力なLLMは、既に言及したGPT(OpenAIによって開発され、Microsoftが一部所有)、Claude(AnthropicによるAIラボが開発し、Amazonが一部所有)、Gemini(Googleのllm)、Llama(Facebook)、そして最後にGrok(Elon MuskのAIラボX.AIが作成)です。
生成AIを超えて
さて、ちょっとレベル5に戻らなあかんのですが。生成AIは今のところ最もよく知られたAIの使用事例ですけど、他にも2つの非常に重要な使用事例があります。面白いことに、1つは実際に生成AIよりも古くて、もう1つは...まだ準備ができてへんのです。でも、準備ができたら、生成AIよりもさらに私らの世界を揺るがすでしょう。
識別AI
識別AIは、コンテンツの作成に焦点を当てるんじゃなくて、分類や予測を行うのに使われる種類のAIの使用事例です。この種類のAIは長い間、生成AIよりもずっと前から私らと一緒にありましたが、かなり目立たへんもので、その結果、生成AI革命ほど話題にならへんのです。
日常生活でのこの目に見えない知能の例は数え切れへんほどあります。例えば、識別AIは、あなたに送られたメールがスパムのように見えるかどうかを判断し、受信トレイに表示すべきでないかどうかを決定します。メールアプリは内部で識別AIを使っています。
だからこそ、このタイプのAIは識別AIと呼ばれるんです。物事を区別するからです。カテゴリーに分類します。この例では、カテゴリーはスパムとスパムでないものになります。
でも、識別AIは予測もできると言いました。時々、このタイプのAI全体が予測AIと呼ばれるのを聞くことがあります。識別AIが予測に使われる最も有名な例は、オンラインのおすすめです。Netflixで次に見る映画や、Amazonで「他の人はこんな商品も買っています」みたいなおすすめです。
これらは全て、過去にあなたが好きやったものや、他の種類の行動に基づいて、将来あなたが好きかもしれへんものを予測しようとAIを使っています。そして、YouTubeも識別AIを使っているのはご存知ですよね。
よく言われることですが、本当です。このチャンネルを登録したり、この動画にコメントしたり、あるいは単に「いいね」を押すだけでも、YouTubeのアルゴリズムに、あなたがどんな種類のコンテンツをおすすめに見たいのか、重要な手がかりを与えることになります。
ちなみに、これも全て識別AIで、ディープラーニングニューラルネットワークを使って構築されているんでしょうか?答えは「いいえ」です。実際のところ、生成AIとは違って、識別AIの場合、ニューラルネットワークを使わない他の種類の機械学習も使われています。
だから、完全に正確を期すなら、識別AIもここに含める必要があります。
エージェンシーAI
さて、識別AIは私らのほとんどが経験した最初の使用でしたが、最も目立たへん、ほぼ目に見えへんものでした。そして、生成AIは成熟するのに時間がかかりましたが、成熟したときには、そのSFっぽい、ほとんど魔法のような質のおかげですぐに注目を集めました。機械が絵を描いて話すって、すごいでしょ?
さて、これらの2つのタイプは非常に有用で、これからも私らの生活の大きな部分を占め続けるでしょうが、3つ目のタイプ、エージェンシーAIが私らの世界を最も変えることになるでしょう。
なぜそうなのかは後で説明しますが、まず、エージェンシーAIって一体何なんでしょうか?エージェンシーAIは、名前が示す通り、エージェントのAIです。AIの文脈でのエージェントとは何でしょうか?
AIの文脈では、エージェントは自律的になれるAIソフトウェアの一部を指します。だから、このカテゴリーは自律AIや自律AIシステムとも呼ばれるのを見ることがあります。自律的というのは、制限された、管理された、限定されたアプリケーションの中だけに存在するんじゃなくて、自分で世界で行動を起こせるAIソフトウェアの一部を意味します。
例えば、ChatGPTはめっちゃ賢いですが、できることは質問に答えることだけで、ウェブサイトの中に閉じ込められています。インターネットで何かをしたり、メールを送ったり、あなたに代わって人々に電話をかけたりするように頼むことはできません。
一方、AIエージェントは潜在的にChatGPTと同じくらい賢くなれますが、あなたの用事を済ませに行けます。そして、十分賢くなれば、完全な仕事さえもこなせるようになるでしょう。
エージェンシーAIを考える主な方法は、行動できるAIだということです。AI執事やAI秘書、その他の種類のAI駆動の仮想アシスタントは全て、AIエージェントに分類されます。
実際、厳密に言えば、あなたはもうAIエージェントを知っていて、おそらく交流したことがあります。Siri、Alexa、Googleアシスタントは全てAIエージェントです。でも、知能が限られていて、自由度も低いので、ほとんどの人はまだそれらをエージェントとは考えていません。
アイデアとしては、エージェンシーAIがより賢く、より信頼できるようになるにつれて、AIエージェントにはより多くの行動の自由が与えられ、最終的には私らの生活を楽にするために、コンピューター全体や電話のパスワードの管理を任せるような、非常に便利な個人アシスタントになるということです。
でも、いつの日か、AIエージェントはAIワーカーにもなれるかもしれません。つまり、人間のホワイトカラー従業員全体を置き換えられるAIです。
そして、ことはそこで終わりません。AIはソフトウェアの一部なので、原則として、インターネットの世界や電話の世界でしか行動できません。でも、そのソフトウェアを物理的な機械の中に入れることもできます。そうすれば、物理的な世界でも行動できるようになります。
これがエージェンシーAIの2つ目の種類になります。物理的AIエージェントです。このエージェンシーAIの2つ目の種類は、具現化されたAI、あるいは日常的な言葉ではロボットやアンドロイドと呼ばれることもあります。
ちなみに、アンドロイドは単に人間の形をしたロボットを意味することは、たぶんご存知ですよね。
アンドロイドには非常に大きな経済的可能性があります。なぜなら、人間の労働者がすでに働いているどこにでも直接使えるからです。作業環境を、大きくて奇妙な形のロボットに合わせて適応させる必要がありません。アンドロイドはすでに標準的な人間の形と動きを持っているからです。
だから、このタイプのロボットAIエージェントが十分に知的になれば、ブルーカラー労働者の置き換えはシームレスに行えるかもしれません。
まとめると、エージェンシーAIの2つの主なカテゴリーは、仮想エージェントとロボットです。
たぶん今、エージェンシーAIがいかに革命的になり得るかが分かったと思います。第一次、第二次、第三次産業革命で始まった仕事の自動化は、これまで人間のオペレーターを必要としていた機械やコンピューターが自分で行動し始めるとき、完全な輪を描くことになるでしょう。
AIエージェントのおかげで、生み出される富は前例のないものになるでしょう。でも、仕事の破壊の規模も膨大になり、現在の経済的・社会的構造を再考せなあかんようになるでしょう。
でも、エージェンシーAIはまだ成熟してへんって言うたやん。なぜそうなんでしょうか?AIを動力とする労働者を持つ前に、何が足りへんのでしょうか?
主に足りへんのは2つの要素です。まず、計画を立てる能力、そして信頼性です。
今日、私らが作り出すことに成功した最も知的なAIの形は、LLMタイプのディープラーニングニューラルネットワークです。LLMは単に下手な詩を作ったり、テキストを要約したりするだけやあらへん。これらのニューラルネットワークはとても大きくて、膨大な情報にさらされているので、多くのことについて考えることを学び、ある程度の常識を発達させ、人間のニーズや人間の文化を詳細に理解しています。
だから原則として、これらのAIエージェントの頭脳になるには素晴らしい候補やと思えます。でも、この高度な認知能力にもかかわらず、LLMにはまだ計画を立てることと信頼性が欠けています。
LLMは行動計画を立てて、それに従ったり、途中で障害に遭遇したら計画を調整したりするのがあんまり上手くありません。また、思考プロセスに関しては、まだ平均的な人間ほど信頼できません。時々、論理的推論が破綻したり、実在しないものを作り出したりすることがあります。しかも、自分が作り話をしているという自覚もありません。これをLLMの幻覚と呼んでいます。
だから今のところ、有用で安全なAIエージェントがいつ利用できるようになるか、誰も分かりません。エージェンシーAIは今日、2022年以前の生成AIと似たような状況にあると言えます。たくさんの実験やプロトタイプが常に試されていますが、まだ革命的になるほどの質には達してへんのです。
AIエージェントの図での位置づけはどうなるんでしょうか?まさにこのタイプのAIがまだそんなに成熟してへんからこそ、十分に成熟したときにどのように構築されるか、誰も正確には分かりません。でも、今のところ、アプローチはしばしばハイブリッドで、ディープラーニングニューラルネットワークを使うだけでなく、他の種類の機械学習や、一部の形の記号的AIも使っています。
一例は、完全自律型自動運転車と呼ばれるタイプのロボットエージェントです。はい、自動運転車もロボットのサブタイプです。最先端の自動運転車、例えばすでにアメリカの数都市で運行しているWaymoタクシーは、これら3つのタイプのAIを全て混ぜて使っています。
このハイブリッドアプローチが続くのか、誰も分かりません。一部の人々は、将来のGPT-5やGPT-6、あるいはその競合他社の大規模言語モデルの次のバージョンが非常に知的になって、エージェンシーAIがそれらだけで達成できるようになることを期待しています。
これらの人々は、LLMの将来の世代が、以前のバージョンで多くの他のスキルを学んだのと同じように、自分で計画を立てたり幻覚を避けたりすることを学ぶかもしれないと期待しています。
実際、LLMが大きくなるにつれて自然に新しいスキルを学ぶこの現象は、独自のバズワード、創発的特性(emergent properties)を持っています。創発的特性は設計されるんじゃなくて、LLMが大量のデータを消化してそこから学習するプロセスから単に現れるものなので、予測不可能です。
誰も、次の大きな世代のLLMがどんな新しいスキルを学ぶかを知りません。なぜなら、機械学習は、最初に言うたように、設計された知能ではなく、成長した知能やからです。私らは単に学習するものを作っているだけで、新しいより大きなニューラルネットワークに、さらに多くのデータを与えて、どれだけ学習できるかを完全に確信することはできへんのです。
めっちゃワクワクしますが、かなり怖いとも言えます。
めっちゃ賢いAIの話が出たところで、最後の2つのAIタイプは、まさにそれに関するものです。AGIとASIです。
ここまで、AIを使用し構築するための異なるアプローチを見てきましたが、実際のところ、私ら人間がこれまで構築してきたのは、ナローAIと呼ばれる特定のタイプのAIです。
実際、AI全体は、このナローの現在の段階を超えて、AGIとASIという他の2つのタイプにも及びます。これらはまだ推測の段階ですが、AIの将来についての会話でいつも出てくるので、知っておくことが重要です。
AIは全体的な用語です。単に、生き物によって示されるのとは対照的に、人工的に、合成的に作られた任意のタイプの知能を指します。どれだけ賢いかは関係ありません。
ナローAIは、AIの開発の現在の段階です。人間の知能とは違って、柔軟性に欠け、多くの異なるタスクに適応することが得意ではないので、ナロー(狭い)と呼ばれます。能力が狭いんです。これらのナローAIシステムの一部は話すのが得意で、他は車を運転するのが得意、また他は音楽を作曲するのが得意、といった具合です。
次に、AGIは人間と同じくらい知的で柔軟になる段階です。
最後に、ASIは平均的な人間の能力をはるかに超えたAIです。
ほな、この2つの新しいタイプをもう少し詳しく見ていきましょう。
AGIは人工汎用知能(Artificial General Intelligence)の略です。なぜなら、いつかそれが達成されたら、AIは人間ができる全てのことが得意になり、私らの能力の狭い部分だけじゃなくなるからです。だから「汎用」って付いているんです。
1950年代の分野の始まりから、AGIはAI研究者の究極の目標でした。人間と同じくらい賢い機械を作ることは、常に夢のようなものでした。
AGIの2つの非常に有名な定義があります。1つ目は、「人間ができる全てのことにおいて、少なくとも人間と同じくらい優れた人工知能」です。2つ目は、OpenAIの定義で、驚くほど率直です。ここにOpenAIの最も有名な従業員の1人が、彼らが作ろうとしているものを説明しています:
「AGIとは何ですか?そうですね、AGIは人工汎用知能です。OpenAIのAGIの定義は、これらの人工知能システムが人間が行える全ての経済的に実行可能な仕事を行えるようになったときです。」
基本的に、この定義によると、AGIは完璧な人間労働者の代替品です。でも、よく考えてみると、両方の定義は違う言葉で同じことを言っています。もし何かが全てのことで人間と同じくらい賢いなら、その結果として、その何かが全ての人間の仕事もできるようになるのは論理的な帰結です。
OpenAI、Anthropic、Google DeepMindのようなトップAIラボは全て、現在の目標がAGIを構築することだと公然と認めています。これらのラボはまた、AGIの達成まであと数年しかかからないかもしれないと公然と認めています。
これで、企業や投資家がAIに参入することにこんなに夢中になっている理由の全体像が分かってもらえたと思います。AIの可能性について話すとき、彼らはしばしば現在のタイプのAIだけでなく、最終目標であるAGIのことを考えています。
もしトップAIラボが正しければ、事実上全ての人間労働者を置き換えられる技術が、あと数年で手に入るかもしれません。そして、その技術の所有者は、途方もない金額のお金を稼ぐことができるでしょう。
AGIは私らの図のどこに位置するんでしょうか?まだどこにもありません。なぜなら、AGIが達成されたとき、どのタイプのAIアーキテクチャがそれにつながるのか、誰も分からへんからです。
イリヤ・サツキエフィッチのような一流のAI科学者は、現在のトランスフォーマータイプのニューラルネットワーク、つまりLLMを作るのに使うものが、AGIにつながる可能性があると考えています。ただ、それらをより大きくし続け、さらに多くのデータを与え続ける必要があり、先ほど言及した創発的スキルが、人間レベルの認知スキルに到達させるだろうと。
でも、デミス・ハサビスのような同じく評判の高いAI研究者は、よりハイブリッドなアプローチが必要かもしれないと言っています。おそらく、トランスフォーマーだけでなく、他のタイプのニューラルネットワークを使うか、あるいはニューラルネットワークと他のタイプの機械学習の組み合わせ、あるいは記号的AIとニューラルネットワークの混合(ニューロシンボリックAIと呼ばれる)が必要かもしれません。
最後に、全ての用語の中で最もSFっぽいものを見ていきましょう。これは今のところメインストリームメディアではあまり聞かれませんが、シリコンバレーのディナーパーティーでは、どこかの時点で必ずこの用語が出てきます。テックランドの中心部では、みんなAGIとASIに夢中です。
ASIは人工超知能(Artificial Super Intelligence)の略です。私らホモ・サピエンスを超える超人的な知的能力を表しています。AGIよりも推測的なので、ASIの定義はさらに曖昧です。
一部の人々は、ASIを、単に平均的な人間と同じくらい賢いAGIではなく、最も賢い人間の天才よりも賢いレベルのAIを指すのに使います。でも、他の人々はさらに高いレベルに閾値を設定し、人類全体を合わせたよりも賢い人工知能を指すのにASIを使います。
いずれにせよ、AI界では、AGIが達成されたらすぐにASIが達成されるだろうという見方が一般的です。なぜでしょうか?
AGIを動力とするエージェントに最初に与えられるタスクの1つが、AI研究になるのは分かっていますよね。AGIを達成した瞬間、AI自体について研究をするAGI駆動の科学者をたくさん作り出せます。これらのAI駆動の科学者は人間と同じくらい賢いですが、コンピューターなのでコンピューターの速度を持っているため、はるかに速いです。
だから、AGIが達成された後、AI開発の速度が加速するんです。これは時々、知能爆発と呼ばれます。AIがより優れたAIを作り出す自己強化ループです。
だから、私らが気づく前に、AIはASIを発見し、今度はASIが自分自身をさらに改善するのがめっちゃ得意になり、もっと速くなって、ついには知能において人類全体を圧倒することになるでしょう。
だからこそ、一部の人々は、大手AIラボがAIの神を作ろうとしていると言うんです。なぜなら、本当にそうしようとしているからです。
この動画では、そのようなAIの神が可能かどうかについての推測は取り上げません。ここでは事実と定義に固執します。事実は、これらのラボがAGIを構築しようとしていて、AIがASIを発見すると信じているということです。
この動画では取り上げなかったAIの概念がまだたくさんあります。本当に最もよく使われるものに焦点を当てたかったからです。でも、この動画が気に入ってもらえたら、もう1本作って、教師あり学習や教師なし学習、強化学習などの全てのタイプを、非常に分かりやすい言葉で説明します。
推論、ファインチューニング、パラメーター、重み、GPU、TPU、自然言語処理など、AIのレベル2のニッティグリティに入りたい人にとって知っておくと便利なことをたくさん説明します。
AIの推測的な側面についても動画を作って、特異点、AIの後の知能爆発、技術文明のカルダシェフスケール、さまざまな形のトランスヒューマニズムについてもっと詳しく説明します。人工超知能との関係における同調(alignment)と不調和(misalignment)のシナリオも含めて。
コメント欄で何を取り上げて欲しいか教えてくださいね。
とにかく、この動画を見てくれてありがとうございます。また近いうちにお会いしましょう。
この記事が気に入ったらサポートをしてみませんか?