2024年生成AI振り返り：業務での活用トレンドと課題

2024年12月26日 08:51

こんにちは、古川(@sho_furu)です！
この記事では2024年も終わりに近づいてきたということで、生成AI領域で何が起きたのか、特にビジネスでの活用面から振り返ってみたいと思います。

画像、動画、音声など生成AIの世界は本当に広いのですが、今回はテキストAIの業務活用に焦点を絞って書いていきます。

特に注目してほしいキーワードは、CoT（Chain Of Thought）、プロンプトエンジニアリング、RAG、そしてAIエージェントです。
きっと「なんとなく聞いたことはあるけど、よくわかってないんだよな...」という方の役に立つ内容になっているはずです。

2024年のトレンドを振り返ってみると...

結局のところ、生成AIをビジネスで活用しようとすると、次の2つの課題に直面します。

AIが間違った情報を出してしまう（ハルシネーション）問題
実務で使えるレベルの出力を得られない問題。クオリティー不足、精度不足問題

よく聞く声として

「AIは間違ったこと言うからだめ！」（人間だって間違えるやん...）
「実務で使えるクオリティじゃない！」（業務フローやマニュアルを明文化できていなくて、属人的に気分で評価してるだけやん...）
精度が足りない！（精度の定義は？？？）

というものがあります。（心の声が漏れてしまいました笑）

より良い出力を得るための工夫

2024年は特にRAG（Retrieval-Augmented Generation）の実用化が進んだ年でした。LLMの事前学習だけでは限界があるよね、ということで、AIが答えを出すときに外部の情報も参照できるような仕組みが本格的に導入されはじめました。AIエージェントへの期待も、この推論時のスケーリングへの期待に基づいているものです。

CoT (Chain Of Thought) の使い方

より良い出力を得るための工夫の基本的なものの1つに、CoT(思考の連鎖)があります。

CoTとは、AIに「順番に考えていこう」と言うようなものです。例えば記事を書いてもらう場合に、

x「AIの未来について1000文字で記事書いて！」

○「以下の手順で1000文字で記事を書いて
テーマ：AIの未来について
1. 見出しを作って
2. 本文を書いて
3. 本文に誤字脱字がないか、違和感のある日本語がないかチェックして
」

このように段階を踏んで考えることで、AIの性能が向上します。ただし、CoTプロンプトを書くためには業務知識が必要で、業務フローを明文化する必要があります。そのため、実際の業務知識をプロンプトに落とし込む「プロンプトエンジニアリング」という新たな職種が生まれました。

しかし私はこの「プロンプトエンジニアリング」という役割は不要になると考えています。2024年後半のOpenAIのo1の登場がその証拠です。
つまり、さっきxをつけたプロンプトでも、o1側でステップを作り、それを順番に実行してくれるようになってきているからです。別の言い方をすると、「プロンプトエンジニアリング」がAI側に内製化されたというイメージですね。

AIエージェントって何者？

AIエージェントは「ゴールを達成するために行動計画を立てて、実世界と相互作用しながら自律的に課題を解決する」仕組みです。

？？？となりますよね笑

具体的に考えてみましょう。例えば、「夜ご飯を作る」とシーンを考えてみましょう。

あなたならどのように進めますか？
真面目なAIエージェントくんなら以下のように進めていきます。

1. 目標の明確化
- 「夜ご飯を作る」という目標を明確に
- どんな料理を作るか考える

2. 情報収集
   - パートナーの好みやアレルギーの確認
   - 冷蔵庫の中身チェック
   - レシピの検索

3. 行動計画の立案
- 「まず、冷蔵庫から鶏肉と野菜を取り出す」
- 「次にレシピに従って調理開始」という具合に

4. 実行と調整
   - 実際に料理を作り始める
   - 食材が足りない場合は買い出しに行く
   - 調理方法の微調整

5. 結果の評価
- できあがった料理の確認
- 味をみて次回に活かす

このように、AIエージェントは状況に応じて柔軟に対応し、最適な結果を導き出すことができるんです。
「夜ご飯を作る」から具体的な行動計画を立てて、自分の行動を振り返りながらゴールを達成する、これがAIエージェントの基本的な考え方です。

ここで重要なことは「手順を与えていない」という点です。手順を与えてしまうとそれは単なる連続した作業であり、そこに思考する余地がなくなります。

あくまでもゴールと手段を与えて、あとは好きにしていいからゴールを達成してー！というものです。

人間の活動はもっと複雑です。
近くにほっともっとあるから買いに行こう、クリスマスの翌日はスーパーで惣菜が安売りされているかもしれないから見に行こう、など現実世界の情報をもとに行動を決めていくわけです。それもほぼ無意識のうちに。

別の例で言うと「1年後までにXXX円の売り上げがある事業を立ち上げて！予算はXXX円でこの情報は使っていいから！あとはよろしく！」と言われるようなものです。
このようなケースで"自律的"に仕事ができる人間はどのぐらいいるでしょう？

厳密な人には怒られそうですが、わかりやすくするために単純に言うならば、AIエージェント的な仕事は権限移譲であり、手順を与えたワークフロー的な仕事はマイクロマネジメントです。

AIエージェントも魔法ではなく、現実の情報をどこまでどのように与えると能力を発揮してくれるのかというのは引き続き課題です。

2025年はこの「AIエージェントでなんでもできます！」という人でSNSが賑わうことでしょう。

余談ですが、個人的にはさっきの「1年後までにXXX円の売り上げがある事業を立ち上げて！予算はXXX円でこの情報は使っていいから！あとはよろしく！」ができるような未来は十分あると思っていて、それを実際にやりたくくて、ビットランドという会社を興しました。
https://www.bit-land.co.jp/

ハルシネーション対策としてのRAG

GPTのようなLLMは事前の大量データ学習で「知識」と「自然な言語生成」の能力を得ています。ハルシネーションは出力の誤りを意味しますが、この誤りには以下のようなパターンがあります。

そもそも事前に学習したデータが間違っていた
そもそも事前に学習したデータに含まれていなかった
学習データでは正しいもののあったが、正しく導けなかった

RAGは、これらの問題に対する解決策として注目されているものです。簡単に言うと、LLMに「カンニングペーパー」を渡すようなもので、外部の情報源を活用して知識を補完する手法です。

例えば、日本の総理大臣は？とChatGPTに聞くと、事前学習データの制限で古い情報を答えてしまうかもしれません。でも、Web検索の情報を加えることで最新の正しい情報を提供できます。

また、「PM」という言葉一つとっても、IT業界では「Project Management」「Product Management」、不動産業界では「Property Management」を指すように、文脈によって意味が変わります。RAGを使えば、「今は不動産業界の話をしているよ」という文脈を提供できるんです。

RAGで活用できる情報源には以下のようなものがあります。

Web検索
特定のサイトの検索
社内の資料
TeamsやSlackなどのチャットツール
Google Driveなどのストレージ

実際のプロンプトでは、以下のように書くイメージです。

以下の情報のみに基づいて回答しなさい。
わからない場合は「わかりません」と回答しなさい。

## 情報
〜〜〜

2025年に向けての課題：RAGの運用

RAGは便利な技術なのですが、2025年に向けていくつかの課題が見えてきています。

情報の更新がうまくできない
情報を更新したが、古い情報と新しい情報が混ざってしまい、性能が落ちてしまう

例えば、カスタマーサポートのQ&Aデータを登録している場合、内容が新しくなったときに正しく更新しないと、機械学習における「Garbage In, Garbage Out」（ゴミを入れたら、ゴミが出てくる）という問題が発生してしまいます。

このように、RAGを運用まで考えてきちんと実装できるところとそうでないところが、はっきりと分かれてくるはずです。

まとめ

RAGは2025年も引き続き重要な技術です。ただし、運用が適切でないと性能が低下する問題が顕在化するでしょう。

また、「AIエージェント」という言葉はバズワードになりつつありますが、単なるCoTや業務システムではなく、「自律的か？」という点で評価しましょう！

結局、今までできなかったことが「AIエージェント」によって実現できるようになったのか、という点を忘れずにいたいものです。

それでは、皆さんも良いお年をお迎えください！