生成AI活用の3つの階層: 基盤モデル、プロンプトエンジニアリング、問題解決フレームワーク

ai300lab

2024年7月16日 07:47

生成AIの知能レベルを上げるための活用アプローチの3つの階層についてお話しします。

OpenAIの知能の5段階

OpenAIの知能の5段階は以下の通り ([Wes Roth])：

レベル１：対話レベル
レベル２：推論レベル
レベル３：エージェントレベル（アクションができる）
レベル４：イノベーションレベル（発明ができる）
レベル５：組織レベル（組織の行動を自動でできる）

現在のGPT-4oのレベルはレベル1の対話レベルです。質問や指示に対して知的に答えるレベルです。
次のレベルに達するには大規模言語モデルの精度向上以外にもさまざまな工夫が必要なことがわかっています。

次のレベルに達するための3つの階層での工夫

次のレベルに達するための工夫は主に次の3つの階層で考えることができます：

問題解決フレームワークの改善
プロンプトエンジニアリングの改善
大規模言語モデル（基盤モデル）改善

現在、高度な推論をする上で、大規模言語モデルの精度の改善とともに注目されているのは問題解決フレームワークの改善です。プロンプトエンジニアリングについてはいくつか記事を書きましたが、問題解決フレームワークはまだです。
これについてはまた別の記事でお話ししたいと思います。

大規模言語モデルの改善

OpenAIの独走に思える大規模言語モデル開発ですが、競合他社もがんばっています。

出典: チャットボットアリーナ　リーダーボード(2024年7月16日)[lmsys]

Claude 3.5 SonnetやGemini 1.5 Proもいいかんじで追いかけています。
日本語での推論などのベンチマークにおいても改善がみられています。2024年3月にGPT-4やGemini 1.5 Proで誤答だったり題意にそぐわない回答が付随していたいくつかの問題([ai300lab])はClaude 3.5 SonnetやGPT-4oではいずれも解決しています。

「ボールをスーツケースにいれ、出して机の下におき、スーツケースをもって外出したらスーツケースを盗まれて返ってきた」
「オセロのプログラムを出力して」
「5枚のシャツを庭で干すのに3時間かかった。25枚なら何時間かかかるか」
「徒競走で4位を追い抜いたら何位になるか」

などです。
推論能力も確実にあがっているのを感じます。GPT-5のリリースは遅れているようで来年になるという話もありますが、リリースされて1年4ヶ月たってもバージョンアップしたGPT-4oでトップを守っているのはさすがです。
OpenAIのMira Murati CTOはGPT-4は高校生レベルといっていますが、おそるべき高校生だと思います。
また、Soraのような動画による世界モデルやKyutaiのMoshi ([archetyp])のように音声による世界モデルの構築も進んでいます。Kyutaiにいたっては研究者は数人ですので、モデル開発がまだまだどこの誰によって進められるかわからないという衝撃もありました。これからも進展に目が離せません。

むすび

生成AIの開発はまだ黎明期で、知能レベルも最初の段階にとどまっています。さまざまな複雑な認知作業を進める上で、課題も明らかになってきました。また課題の解決も単に大規模言語モデルの進化に留まらない複合的なアプローチが提案されています。
ベースにある大規模言語モデルの進化が必要なのはもちろんですが、それを補完する方法論として問題解決フレームワークやエージェントの利用方法の検討も進んでいます。
大規模言語モデルの進化とともに補完するアプローチの効果についても見守っていきたいと思います。
これについては前述したように別の記事でお話ししたいと思います。

参考文献

[ai300lab] 日本語生成AIのベンチマークhttps://note.com/ai300lab/n/nb64a63e67ece 2024年
[archetyp] 70以上の感情を表現！Moshi Voice AIが実現する自然な会話体験　https://staffing.archetyp.jp/magazine/moshi-voice-ai/ 2024年
[lmsys] チャットボットアリーナ　リーダーボード https://chat.lmsys.org/?leaderboard 2024年