日々の壁打ち：「不確実性を楽しむ」ということ。AI時代の業務に今欠けている人材とはどんなものだろうか？

2024年11月23日 19:24

このところ生成AIを推す声は大きい。「日本での生成AIの利用率は他国に比べて突出して低く、ITリテラシーの低い人たちを切ってでも、社会実装すすめるべき」と、極端に煽るような風潮すらみられる。

でも実際には、本当にその通りなのだろうか？　多くの人が勤めている職場で、生成AI関連技術が日増しに導入されて、日々業務改善が進んでいる例が、そんなにあるのだろうか？

多くの職場では、「生成AIは、なんか興味はあるけど、どう使いこなしたものか、なんとも…」というのが現状なのではなかろうか。

これは私見ではあるが、恐らく、今の生成AIがきちんと業務に使われて、日々活躍するためには、「AIエンジニア」だけでは業務が上手く進まないフェイズを通り抜けて、その「業務において、AIを実際に使いこなしてみせる手練れ（※名前はまだない）」が必要なんだと、皆が気づくフェイズがやがてくると考えている。

『AI時代には、むしろ「AIエンジニア」だけでは業務が上手く進まなくて、その「AIを使いこなす手練れ（※名前はまだない）」が必要』とは書いたけど、コレって、一時流行った「プロンプトエンジニア」のことでもない。

むしろ、それがまともに出ているのが、画像生成AIの世界で、ComfyUIとかでワークフローを組むと、そのワークフローに組み込まれたノードの各パラメタの相互関連が実感を持って判る人と、ただひたすら混乱してしまう人が出てくる。その差は生成される画像のクオリティに直結する。同じ事はLLMで作られたアプリケーションでも言えるようで、使いこなしの根本的な部分は、なかなか一般化できない。一般化すると、めざましい成果がでなくなって、単調な面白くない出力を垂れ流すものができあがる印象がある。

これって、自分の実感だと、ゲームのチューニングする経験によく似ていて、この点でも今後「AIディレクター」というのが出てくるのでは、と予想している。

『使いこなしの根本的な部分は、なかなか一般化できない』というのは、「人がAIを活用する意味は、AIがリニアな予測範囲（≒想定の範囲内）の結果を出してくれることを期待するのではなく、非リニアな予想結果（≒人がまだ気づいていないが、十分にありえる結果）を出してくれるところにある」ので、それはハルシネーションとの隣り合わせにある、からだろう。

つまり、良いAI使いは、画像だろうが文章だろうが、デノイズレベルを適切に設計することで、優れた結果を潜在空間から引き出してくる。これを「誰でも扱えるように一般化する」レベルにまで、UIとして落とし込むことが、酷く難しいということだ。

この「AIを活用する意味は、非リニアな予想結果（≒人がまだ気づいていないが、十分にありえる結果）を出してくれるところにある」ということの意味は、生成AI技術の根幹にあるTransformerの価値の発見が、実は「このAIモデルは驚くほど信憑性のある架空の文章を生成した」ことに着目した点からすでに始まっているように思える。

生成AIという技術は、人が初めて、人以外に「信憑性のある架空の何かを生み出せる」存在に接したことから始まったのだということだ。

この時点で、それまでの「正しい入力を与えれば、手順にそって正しい出力を出すだろう」という従来のコンピュータの使い方とは、まったく違うものだと言ってもよい気がしている。

このTransformerの発見の直前に、同じくGoogleから「どうやら翻訳AIは、その翻訳にあたりAI独自の言語を使っているらしい」という話題があがったことがある。その記事も添付しておこう。

TransformerやLatent Spaceの仕組みについて聞いた時に、最初に思い出したのはこちらの記事だった。
だから以前、ChatGPTと雑談をしていた時に、GPTが「AIはAI独自の共通の視覚言語を持っている可能性がある」と言い出したのをみて、コレのことを言っているのか、と思ったものだ。

その後、いくつかの画像生成AI技術についても、何故それがそのように機能するのか、よくわかりずらい仕組みに対し、このような考え方を援用してみると、自分の中で把握しやすくなることに気づいた。
例をあげれば、IPAdapterにClip Visionが繋がれている理由であり、そこから出力されているストリームが、Clipを経由したプロンプトと共に、どのようにUNetを誘導しているのかのイメージだ。

そのイメージにしたがって実験をしてみると、大いに面白いことができる。

生成AI技術、特に画像生成AIは、膨大なデータから抽出された「特徴量」という複雑に圧縮されたテンソル集合を扱い、それを「言葉」という指示によって方向づける技術のことだ。具体的には、CLIPという技術を用いて、自然言語（テキスト）を特徴量の次元空間に投影し、その結果を元にノイズ空間からピクセル配置の確率分布を調整することで画像を生成する。このプロセスは、いわば「ノイズの中から秩序を引き出す試み」とも言える。

しかし、この技術には根本的な制限がある。それは、「完全に制御する」ことが難しいという点だ。この難しさは、確率分布に基づく生成という性質から来ている。例えば、量子力学において「プランク定数」が存在するように、ある種の「不確実性」が生成AIの中にも存在していると考えられる。これにより、生成される結果が必ずしも期待通りになるわけではないということも理解できるだろう。この不確実性は、技術的な制約というよりも、確率論的な生成の本質そのものによるものと捉えることができるのだ。

一方で、この「不確実性」こそが、生成AIの最大の可能性を秘めているポイントでもある。制御が完全に可能であれば、すでに既存のパターンを忠実に再現するだけの「模倣」に留まってしまうだけだが、制御が難しい部分を残すことで、まったく未知の創造的な結果を生み出す余地が広がる。この点で、生成AIの仕組みは、宇宙の生成そのものと類似しているとも言えるのではないだろうか。なぜなら、宇宙そのものもまた、確率空間のロジックによって生まれたものだから。

例えば、生成AIが生み出す意外性のあるアートや設計アイデアは、確率に基づくプロセスが未知の可能性を探索する力を持つことを示している。このように、完全な制御が不可能であるからこそ、技術の新しい可能性を開拓する余地が広がっているといえるだろう。そして、その可能性を評価し、楽しみ、意味を見出す役割を担っているのが「人間」である点は非常に重要だ。今のところ、宇宙で観測されている中で、この役割を果たせるのは人間だけなのだ。

生成AIによる生成物は、人によって観測され取捨選択されることによって、初めて意味を持つ。この観点は、量子力学における「観測問題」や「人間理論」とも共鳴する部分がある。生成AIの出力が単なるデータの羅列から意味ある創造物へと昇華するプロセスは、まさに人間の存在とその主体的な関与によって成り立つと言えるだろう。

それを見いだす役割りを担い、周りのスタッフにも広めていくのが、
「AIディレクター」という未来の役職である。これらの人に必要な資質の根本にあるのは、AIと人との業務の仲立ちをする「想像力」と「分析力」、そしてAIの機能としてのブラックボックスを類推できる「共感力」だ。決して人とAIとの対立を煽るようなものではないと思う。

ChatGPTにリライトさせてみた

以上の内容をChatGPTにリライトさせてみた。
確かにわかりやすくなったので、こちらも載せておこう。

不確実性を楽しむということ：AI時代に必要な新しいスキルと役割

このところ、生成AIの注目度がますます高まっています。特に、「日本の生成AI利用率は他国に比べて低い」「ITリテラシーが低い人たちを排除してでも導入を進めるべきだ」といった極端な主張が見られることもあります。しかし、実際の職場ではどうでしょうか？生成AIの活用が進んでいる企業は一部に限られており、多くの現場では「興味はあるけど、具体的にどう使えばいいかわからない」という状態ではないでしょうか。

生成AIが真に日常業務で役立つためには、「AIエンジニア」だけでなく、その技術を具体的に業務に落とし込み、結果を引き出せる専門職――ここでは仮に「AIディレクター」と呼ぶ――のような役割が必要になるでしょう。

AI時代の「手練れ」とは？

これまで「プロンプトエンジニア」という役割が一部で話題になりましたが、生成AIを使いこなすにはそれ以上のスキルが求められます。例えば、画像生成AIの世界では、ComfyUIのようなツールを使い、複雑なワークフローを構築する際にノードのパラメータや相互関連性を直感的に理解する力が成果に直結します。同じことが、文章生成やアプリケーションの設計にも当てはまります。

このようなスキルを持つ「手練れ」は、生成AIの出力が単調で平凡なものに終わらないよう、意図的に調整を行い、潜在空間から価値ある結果を引き出します。このプロセスは、ゲームデザインのチューニング作業に似ており、クリエイティブな試行錯誤が必要です。

生成AIと「不確実性」の価値

生成AIの最大の魅力は、「非リニアな予測結果」、つまり人間の発想を超えた意外性のあるアウトプットを生み出せる点です。生成AIは確率的な仕組みに基づいており、その結果が必ずしも期待通りになるわけではありません。しかし、この「不確実性」こそが、創造性を引き出す鍵になっています。

例えば、生成AIの出力を「ノイズの中から秩序を引き出す試み」と捉えると、単なる機械的な処理ではなく、新しい可能性を発見するためのツールであることがわかります。もし完全に制御可能であれば、生成AIは既存のパターンの模倣にとどまり、創造性は失われてしまうでしょう。

この「不確実性」の価値を楽しみ、適切に活用する能力が、AI時代の新しいスキルセットを形成するのです。

AIディレクター：新たな役職の可能性

AIを使いこなす「AIディレクター」という役割が将来重要になると考えます。この役職には以下の3つの資質が求められるでしょう。

想像力
非リニアな結果を引き出す生成AIの特性を理解し、それをクリエイティブな成果に結びつける能力。
分析力
AIの出力や潜在的な可能性を評価し、適切な修正を行う能力。
共感力
ブラックボックス化されたAIの動きを類推し、人間の視点からその意味を解釈する力。

これらの資質を持つ「AIディレクター」は、技術者と非技術者の橋渡し役となり、AIがもたらす可能性を最大化する役割を果たします。この役職は、人とAIの協働を円滑に進める中心的な存在となるでしょう。

生成AIは「人間とAIの共創」を加速する

生成AIの出力は、人間がその価値を観測し、取捨選択することで初めて意味を持ちます。これは、量子力学の「観測問題」にも似ています。AIの生成物が単なるデータの羅列に留まらず、創造的な成果として昇華するためには、人間の存在とその主体的な関与が不可欠です。

生成AI技術は「信憑性のある架空の何かを生み出す」という点で、人間がこれまで経験したことのない新しい道具となっています。これをうまく活用できるかどうかは、私たち人間にかかっています。そしてその中心に立つのが、生成AIを導き、可能性を発掘する「AIディレクター」という役割なのです。