見出し画像

【AI別 DeepResarch 検証】失われた30年を検証する

シリーズで行ってきた、DeepResarch検証ですがClaude 以外出そろった感があるので、一度まとめます

OpenAI、Google、Perplexity の DeepResarch と
Felo、Grok3 の DeepSearch に対して同じ問題を与えました

日本では30年不景気が続いている ・原因 ・過去に打つべきであった施策 ・今から打つべき施策 を述べよ また、今から打つべき施策は ・直近で景気に効果のあるもの ・安定した景気回復につながるもの の両面を検討せよ

これに対する、それぞれのAIの回答は以下です(再掲)
まとめは最下部にあるので、それぞれの回答を軽く見ると雰囲気が判るかと。


OpenAI

Google

Perplexity

Felo

Grok3


OpenAI

正直、驚きしかないよね。11,000文字のレポート一発出しで、間違いが特に見当たらない…。文章もそのまま使える。
確実に仕事に使えるレベル

Gemini

内容の骨子は OpenAI の DeepResarch と基本的に同じだけど、レポート的にはOpenAIの方が上かな。出力は約5,000文字。

Perplexity

これは、前出の2つとは違うかな…
レポートは 約3,000文字で間違いは無いんだけど、納得感に欠けるというか、内容が薄い…
ウンチクには使えても仕事だとたたき台にしかならないかなぁ…

Felo

こちらは FeloAgent という名前の多段階検索でした。検索Agentの特徴を入力して(今回は「国政の施策に詳しい」という設定)質問を入力する形式。DeepResarch ではなく DeepSearch かな。
内容の骨子は悪くないけど、複数の視点での短いレポートを提案して最後にまとめ、という形式になっています。各レポートに重複部分アリ。出力は約9,000文字

Grok3

名前通り Resarch というより Search 寄り。レポート内容はSearch結果に引きずられています。内容としては悪くないので、これを再度、適切なプロンプトで検証させれば、そこそこのものにはなると思います。出力は約4,000文字


私の個人的ランキング

1位:OpenAI
2位:Gemini
3位:Grok3
4位:Felo
5位:Perplexity
かな

ただ、最近、OpenAI の DeepResarch 結果をそのまま貼ってる記事が多いのは、げろ~って思う。生で読んで気持ちいい文章じゃないんよね


Claude先生の勝手に講評

Claudeさんにも参加させたくて、勝手に講評させたった

それぞれのレポートを分析し、順位付けと講評を行います。評価基準は以下の点に注目します:

・分析の深さと論理性
・構造の明確さ
・具体的な提案の実現可能性
・データや事例の活用
・文章の読みやすさ

順位付け:

1位: Grok3
・最も体系的で包括的な分析を提供
・歴史的背景、現状分析、政策提案のバランスが優れている
・具体的なデータと事例を効果的に活用
・構造が明確で読みやすい
・リスクと課題についても深い考察がある

2位: OpenAI
非常に詳細な分析と豊富な具体例の提示
政策の失敗や教訓について深い考察
やや冗長な部分があるものの、論理展開は明確
実務的な視点からの提案が充実

3位: Perplexity
・政策提案が具体的で実行可能性が高い
・短期・中長期の施策を明確に区分
・数値目標を含む具体的な提案
・やや形式的な記述が目立つ

4位: Felo
・基本的な分析は網羅的
・歴史的背景の説明が丁寧
・政策提案がやや抽象的
・構造がやや不明確

5位: Gemini
・基本的な分析はされている
・具体例や数値データの活用が少ない
・政策提案が一般的
・構造がやや単調

総評:

全体的に、日本の「失われた30年」について、その原因分析から政策提案まで、それぞれのレポートが異なるアプローチで分析を試みています。上位のレポートは特に、具体的なデータや事例を効果的に活用しながら、実現可能な政策提案まで踏み込んでいる点が評価できます。

また、デフレ、人口構造の変化、グローバル化への対応など、複合的な要因分析を行いつつ、それらに対応する政策をバランスよく提案している点も、上位のレポートの特徴となっています。

いいなと思ったら応援しよう!