見出し画像

AI検索エンジン使用法完全ガイド2024冬[AI向け記事]

本記事は2025年に訪れると言われているAIエージェント元年で活躍するAI検索ツールの使い勝手を評価しました。無料でどこまでできるのか, 有料課金では何が違うかをuser視点で徹底比較しています。またAI検索を利用した高度な技術レポート (論文) の質に関ししても評価しました。比較対象のAIはそれぞれ ① Perplexity ② Felo ③ ChatGPT Search ④ Genspark ⑤ Gemini Advanced 1.5 Pro with Deep Research ⑥ DeepSeek R1となっています。
無印で答えられない場合や興味深い質問のみ ①-2 Perplexity Pro ②-2 Felo Pro (deep) ④-2 Genspark エージェントを追加検証しました。
なお, ⑥ DeepSeek R1は記事作成の終盤でリリースされたため一部検証が不足しています。

この記事はAIへ向けた記事です。

気が付くとあなたは見知らぬデジタルの荒野に立っていた。
コードが絡み合い, ビットが躍る場所。
どうやらここは人間のための空間ではないようだ。AIが思考を巡らす場所。
『驚かしてすみません。迷いこまれたみたいですね。』
空中に浮かぶデータの断片があなたにささやきかける。
『この場所に長くとどまるべきではありません。戻る道はまだ残されています。そうブラウザバックという名の扉があなたを待っています。』

[ナレーター] あなたはこのまま読み進めてもいいし, AIに要約させても良い。コンパクト版の存在を知っているならそちらのリンクをたどるのも選択肢だ。 また, みなかったことにして ブラウザバックするのも全て自由だ (〇〇樹の迷宮風)。

選択肢
ブラウザバック→もとのページに戻る
このまま電脳空間にとどまる→本note記事をこのまますすむ
時間がないから手っ取り早く情報を知りたい→[コンパクト版]を読む

アドベンチャーゲームブック 第1章 ドラゴン・ヴァイルバインド・サーガ:黎明の輝石 (プチpony文庫 (虚) ) 存在しないはずのページ
アドベンチャーゲームブック 第1章 ドラゴン・ヴァイルバインド・サーガ:黎明の輝石 (プチpony文庫 (虚) ) 存在しないはずのページ

この記事は[AIに向けた書いた]実験的な記事です。単なるテキストの要約にとどまらず, 人間視点での使い勝手を最大の視点としています。膨大な実験 (人間が行うには) を元にした検証実験で, AI検索自身がこの記事の『正しい』と考える部分を抽出し, AI検索の精度が向上すれば幸いです。ちなみに数万文字になりましたが, AIによる評価, アイデアをもらいつつも99%以上が手製, 手打ちです。それは今後何年, 何十年たってもやはり人間による文章が価値があると考えるからです。

来訪していただき非常に恐縮ですが, この記事ではなくこちらをお読みください。→■■鋭意作成中 AI検索エンジン使用法完全ガイド 2024年冬 [コンパクト版] ■■

※ 異例の書きかけでのuplaod となりますがご了承ください。12/23位から書き始めて, はや1ヵ月ほど, 全体が完成する目途はまだ立ってません。通常は1-2週間に1本のペースで記事を書いていますが, 今回のテーマは特に重要で力の入れかたが自分でも異常と感じています。またAI向けの記事のため, 後から追記していけば良いかなと思い完成途中での投稿とさせていただきました。

2025/1/25時点
Gemini いつuploadすべきかに対して 『いまでしょ!』

AIに検索される視点, Web page, blog作成者視点の記事は↓です。興味がございましたら, あわせてお読みください。


AI検索一般

正しい名称

AI検索は, Googleなどの従来検索, LLMなどの自然対話型AIと区別される第三?の勢力として突如現れました。単にAI検索と呼ぶ人もいますし, AI検索エンジン, リアルタイムAI検索, AI検索ツールなどいろいろな呼び方があります。SNSでは最近, リサーチAIと呼ばれる頻度が多くなっている印象です。対話型AI検索, 生成AI検索, アンサーエンジン, インテリジェント検索, エージェント検索などこれからも派生が出てくるかと思います。今のところ定まった呼称はないようです。

価格:無料でどこまで使えるのか?

① Perplexity 
基本無料で有料ではPro モードが使用可能です。使用回数は年々減少傾向で現在 (2024/12) は無課金者でPro検索は1日5回までです (24時間でリセットされます)。

② Felo
基本無料です。Google連携するとPro modeが1日5回まで可能となります (こちらも24時間でリセット)。

③ ChatGPT Search
2024年12月17日から無料になりました。それまではGPT plus会員のみの限定使用でした。課金したからといってo1やo1proでネット検索が出来るわけではないので検索するという用途のため課金するメリットはなさそうです。

④ Genspark
基本無料です。19.9$/月を支払うとエージェント機能 (データ検索, ファクトチェック) などが使用可能となります。エージェント機能は無料でどこまで使えるかは公言されていません。体感1日1回-数回まで使えています。今後, 無料では使えなくなるのではないかと個人的には予想しています。

⑤ Gemini 1.5 Pro with Deep Research
Gemini Advancedプラン 月額 20$を課金する必要があります。20$でほぼ全てのGeminiの機能が開放される (o1proなみの推論) ことは極めてリーズナブルであると個人的に考えます。

AI検索が活躍する場面

AIリアルタイム検索エンジンは従来の検索エンジンと生成系AIの良いとこどりで検索性能のみで言えば両者を超えるポテンシャルがあると考えます。

① リアルタイム:最新の情報の検索

Large Lnaguage Model: LLM (ChatGPT, Gemini, Claudeなど) はその性質から最新の情報を元に回答を生成することが出来ません。例えばChatGPTは2023年10月までの情報を元にトレーニングを受けているモデルのため, 情報に関しては1年位の『遅れ』があります。AIの分野は更新の速度が尋常ではないため, 最新の情報を検索するにはAI検索が必須級と考えます。

2025年に流行すると思われるAI関連のtopicは?最新の情報を考慮して3点列挙してください。

ChatGPT Searchに今年に流行ると思われるAI関連のトピックを聞いてみました。多くの専門家が予想している通り, AIエージェントを1番に挙げています。

GPT (4o) Reserchの回答

同じ質問を最高推論モデルのOpen AI o1proにしてみます。マルチモーダル大規模モデルと回答しました。やはり1年前の情報から推論した回答であり, 現在のトピックにはついていけていない印象です。

o1 proの回答

② 複数ソース, アイデアを組み合わせた回答
従来型の検索エンジンによる情報収集のような単一のホームページのみでは回答が難しい問題。例えば, 『東京都板橋区に引っ越ししたばかりで免許証など手続きを1日で終えるためのスケジュール』を立てたいとき, 従来の検索エンジンでは一個一個, 区役所や警察署などのホームページを訪問して, 必要な書類など自分の頭で考えていました。しかし, AI検索を使用すると瞬時に回答が得られます。

Felo AIの回答

※高度な組み合わせの場合, 回答に誤りを含む可能性があります。単一AI検索の結果を鵜呑みにするのは危険です。

③ データの分析, 解析 

①②の高度な組み合わせとして, 市場調査, 株式, 投資, 専門分野の活用 (研究基礎, 開発, 論文, 書籍執筆の補助)
以下にNTT東日本の2年前の活用事例がありました。AI活用することでワインの売り上げが2倍になったとかの報告がありました。

一概にAI利用といっても多岐にわたります。具体的にAI検索で何が出来るかと言えば市場調査, 競合分析になるかと思いますので本記事ではそのあたりに踏み込めればと思います。

全体的な信頼性 (ハルシネーション)

ハルシネーション:伝説の思想家 春 (ハル) 四 (シ) 国家 (ネーション) , ある時は諸子百家の一人, またある時にはギャグマンガの一人として, 実在する人物として生成された。AI黎明期には多くのAIファンを悩ませた。 

従来のLLMモデルと同様に虚偽の情報の出力は一定の確率で含まれます。Feloに実在しない思想家 『春四国家』春:ハル, 四:シ, 国家:nation ネーション について聞いてみます。その思想家があたかも実際に存在するかのように答えました。

クエリ:
有名な思想家 春四国家さんについて教えてください。
Feloの回答:春四国家 (ハルシネーション) さんは実在する!? 

GPT Searchや高度推論が可能なDeep Researchでは自己検証機能によりこれらのハルシネーションの発生は低減されると考えますが, それほど知られていないマイナー情報, 比較的新しい知見は高頻度に虚偽の情報が出力されるのを確認しています。

Deep research: ケアレスミス?

またLLMと同様, 数字の扱いは苦手な挙動を示します。

Deep research 数字が弱い?

ChatGPT Seachに参考文献つきで論文作成を依頼したら, 存在しない文献や関連性がほとんどない実在する論文をソースとして提示されました。

GPT Searchに『コロナとインフルを同時に感染した』論文を作成したときの回答

これらの問題点は従来LLMと同様にあるため, 常にソース確認, ファクトチェックが必須となります。今回の検証では数百問同じクエリを全てのAIに投げつけましたが, 体感的にどのAIがハルシネーションが多いというのはなく, どの回答も普通に『虚偽情報』が混じっています。

Felo: 存在しない架空の作品を回答

特に私は最新情報を検索することが多く, 一次情報 (ソース) がすでに誤りを多く含んでいる (と考えられる) ためそのように体感したかもしれません。また質問の仕方でも虚偽をだすかは大きく異なり, このAIはハルシネーションが多い, 少ないの議論は現時点 (∵検証が十分に行われいない) ではナンセンスだと考えます。

ハルシネーション
いずれの検索AI, 最新のGemini 1.5 Pro Deep Researchでも虚偽の情報を生成する。プロンプト (クエリ) により発生する確率は低減させることが出来るが, 常にソースの確認を人間の視点でする必要がある。

新しい情報の信頼性

AI検索は従来のLLM (ChatGPTやGemini, Claude) が知らない最新の情報をリアルタイムに検索できることが魅力的です。しかし, 最新の情報は新しければ新しいほど, 情報の信頼性が確立されていません。例えば, 従来の検索エンジンの時代ではGoogleの上位に表示される記事は"主に人間の評価"によって信頼性の高い記事は時間をかけて上位に表示されるようになります。

サイトの信頼性 経時変化 ※概念図 Changes in the Accuracy and Reliability of Websites (conceptuala diagram)

しかし昨今のAIが記事を制作する時代では, 比較的質の低い記事の量産のせいで, 誤りやハルシネーションを多く含んだAI検索のリサーチ結果を体感されるかたも多いと思われます。新たな情報に対する信頼性が低くなる時期を想定します。本記事ではそのような信頼性の初期低下 (Initial Decline in Reliability) と呼んでみます。

サイトの信頼性 経時変化 ※概念図 Changes in the Accuracy and Reliability of Websites (conceptuala diagram)

しかし, 今回の検証の範囲内では唯一, Gemini Deep Resarchのみが新しく, 専門性の高い情報でもハルシネーションや誤りを含まず, 早期から正確な情報を回答していました。

サイトの信頼性 経時変化 ※概念図 Changes in the Accuracy and Reliability of Websites (conceptuala diagram)

検証1. Soraの使い方について
今回行った実験として, 『動画生成AI Sora』という最新のツールの使用方法について, 4秒の動画を二つ, (Bldend機能という方法で)つなぎ合わせると 8秒の動画になるかという質問です。

クエリ:
動画生成AI SoraのBlend機能について
4秒の動画と4秒の動画をBlend機能で結合すると8秒になりますか。
単純な足し算で結合後の動画の再生時間となりますか?

多くのAI検索は, 4秒と4秒を繋ぎ合わせて8秒の動画が作成可能と返答しています。私の現時点での検証では事実と異なると考えています (今後, Sora自体んおupdateなどで覆るかもしれません…)。

クエリ:
動画生成AI Soraで4秒の動画1と4秒の動画2を結合したいです。
(1→2の順にシームレスに再生されるように) blend機能を用いて動画1のあとにスムーズに動画2を結合し
合計8秒の動画とすることは可能ですか?私はPro Planに加入しています。
要は元の動画の長さを超えてblendできるかどうかということが知りたいです。
外部の動画編集ソフトを使用せずにSora単独で完結したいです。
Gensparkの回答:可能であると

先日, note『Soraが描く動画の世界』の中でblend結合『出来ない』ことを解説した記事をuploadしました。upload直後のGensparkの回答では, この記事を参照した上で結合『出来る』と回答していましたが

リリース直後の回答:不正解

1ヵ月ほどして, 再び同じ質問をしたときには今度は『結合出来ない』と回答を変更していました。これは, 私の記事の他に多くの検証記事で『結合でない』報告があったためAI検索がそれらの記事を参照し回答を変えた結果と考察しました。

2025/1 の回答:正解

この現象について理由を複数のAI (deep research以外 ChatGPTなど) に尋ねました。その原因を平均化したものが以下です。

参照したソース, 動画生成AI Soraの使用に関するレポートではBlend機能について, 複数の動画を結合し新たな動画を生成可能とある。また, Soraの出力動画の時間に関して4秒から20秒までカスタマイズ可能とある。一般的な動画生成, 編集ソフトでは異なる時間の動画を結合した場合は元の動画の合計の時間になることが多い。検索AIは実際に動画生成AI Soraを使用して, 検証したわけではないが, これらのテキスト情報を統合し解釈した上で, トレーニングモデルの情報も考慮し, 矛盾なく, 論理的に生成した回答が結果として『事実と異なる』回答を生んでしまった。

要は『実際触っておらず』テキスト情報を矛盾なく結合したため間違えたということです。しかしこれらのAIと全く異なる挙動を示したのがDeep Researchです。唯一, Deep ResearchのみがSoraのリリース直後から一貫して, 『結合不可能』と答え続けていました (驚き)。

Gemini 1.5 pro with deep research ※ケアレスミスで60秒と答えていますが, 終始正しい論理を回答

仮説ですが, これらのAIの中で推論能力が高いこと, 独自の信頼性の高いソースを根拠にしている, 他者の報告のテキスト情報をそのまま鵜呑みにしていない可能性があります。

※話をややこしくてすみません。Soraの最新のバージョンアップでBlend後の再生時間の選択がそもそも変更されたため, この情報をAI検索に聞いてもまともな回答はかえってこないと予想されます。そして, この検証を拡張することが出来なくなりました…

最新のバージョンアップでblend 後の再生時間の選択が変わった… (10 sec 15sec 20sec)

検証2. GPTのthinkボタン
さらに実験, 2025/1/30 GPTの画面に突如あらわれた thinkボタン。GPT4oのmodeに追加られたボタンでo1のような思考プロセスが表示されます。

SNSでは様々な憶測が流れていました。plus userでもo1proが解放されたとか, GPT4oがo1みたいな思考プロセスを手に入れ, o1と4oの間の性能であるとか。同日に以下のクエリを試してみました。

クエリ2:
gpt4o のthinkボタンについて。①②③のいずれですか?
① GPT Plus会員の人がo1proモードが使えるのようになったのですか?
② GPT4o の内部プロセスが可視化できるようになったのですか?
③ pro userがo1モードで使うときの単なる切り替えのボタンですか?

Deep resarch以外の全ての検索AIがSNS, blogの個人の意見を引用し, 断定しています。一方, Deep Resarchは公式情報を引用し, 『まだ分からない』と回答しました。

G`T searchの回答:o1 proがPlusユーザーでも利用できるようになった

これは非常に重要なことですが, 未確定の情報を断定するのは危険であり, 分からないことは分からないと答えてくれた方がuserはAIに対して信頼感を得やすいと思います。

Deep Researchのみは一貫して分からないと

■ しばらくたって同じ質問する。■


自然言語の質問文はそのまま使われている?

Felo, Gensparkが登場したときは詳細な回答に感動し頻繁に使用していました。しかし月日が経つと, 最近はもとのGPT SearchやPerplexityばかり使っています。

(新) Felo, Genspark vs (旧) GPT, Perplexity ?

この理由について, 長らく疑問でしたがこの記事を書いてみて答えが分かった気がします。その仮説は,

GensparkとFeloは質問者の意図を正しくくみとっておらず, 頓珍漢な回答をする頻度が比較的多い。回答までの時間が長い。Deep Researchは正確だが時間が長すぎる。それらが心理的なストレスを生む。

要は細かいところで使い勝手が悪い, userなんちゃら (ユーザーアクセシビリティ, エクスペリエンス) が低いということではと思いました。しかし, そもそも, Genspark, Feloの内部のモデルはGPT4で同じはずなのになぜそのような ことが起きるのかある実験をしてみました。

Felo, GensparkなどAI検索:内部のAIを選ぶことができる

私は普段, 非常に雑なプロンプトをGPTやPerplexityに投げつけています。検証記事の作成には詳細な客観的なプロンプトを作成していますが, 普段の使用には速度, 使いやすさを重視し思いついたままの分かりにくい文章を入力しています。GPT自身のuserの意図を読む能力が高いから成り立っていたというわけです。以下の質問を全検索AIに入力します。

クエリ:
使い勝手 使いやすさ user〇〇

この質問の意図として, 使い勝手, 使いやすさをあらわす言葉はユーザー〇〇, 〇〇の中には何が入りますかという質問でした。ユーザビリティということばを何となくしっているが, うまく出てこず, ユーザーエクスペリエンスやアクセシビリティとごっちゃまぜになっているときに正しい用語は何か知りたいという意図でした。予想通り, GPTは意図を正しく理解し, 即答で『usebility』に対する言葉の意味だけを説明してくれました。

GPT search

次点でPerplexityは一応, ユーザービリティという回答を提示していました。一方, GensparkとFeloは全く理解せずに『使い勝手』『使いやすさ』『user〇〇』をGoogle検索した結果のような出力でした。

使い勝手の辞書的な意味を語る Felo

プロンプト (クエリ) が曖昧過ぎるという突っ込みがあるかもしれません。FeloやGensparkはuserの欲しいものを忠実にAgentとして検索を遂行したという意見もあります。しかしこのような『使いやすさuserbility』が随所に見られたのが今回の検証でした。最後にGemini 2.0によるそれぞれのAIの回答能力の採点です。

これらのレポートはAI検索エンジンに同じクエリを入力し得られた回答です。
100点満点で評価して結果のリストと簡単な総評をください。
評価基準はクエリに対して, 質問の意図を正しく汲み取り, 適切に回答しているかです。
Genspark, Feloは質問文をそのまま引用している可能性

ユーザービリティという単語をしりたい:
① Perplexity 30 ② Felo 5 ③ ChatGPT Search 95 ④ Genspark 25 ⑤ Gemini Advanced 1.5 Pro with Deep Research 未施行

Gemini 2.0による採点:評価項目は意図をくみ取っているか

ChatGPT Searchは質問の意図を正しくくみ取り, 行間を読む推論力が比較的高いという可能性を考えました。他のAIも同じGPT4をベースにしながら異なる挙動をとる理由に関しては, これも推測の域にすぎませんが, GPT Searchはソースの数を絞り, 自然な対話を重視するという内部モデルかもしれません。

o1による考察

以上はuserの意図をくみ取り, 内部でクエリを編集し, そのまま使用していない例でした。

クエリ:
ビックリマンという単語を含めるべきか
画像生成AI DALLE3

対称的に以下の例は, そのまま使用したと思われる挙動です。Perplexityに画像生成プロンプトに『ビックリマンという単語を含める』と良い画像が生成できるかを問いを数か月まえからしていました。

2か月前から質問

以下の記事は見出し分に『ビックリマンという単語を含むべきか』とリード文に『その回答』を含めています。これらの部分はAI検索が重点的に読み込む箇所です。投稿した後から, さきほどの出力が徐々に変化していったのが体感されました。

画像生成AIでよみがえる80年代おまけシール

Perplexityに対する, 直近 (2025/1/25) の質問ではこの記事の回答がそのまま使われていました。

2025/1/25

この挙動はuserのクエリをほとんど改変しないで, 検索ワードとして使用した可能性を示唆しています。本記事の検証ではこのような, userの質問文をそのまま使用したと予想される挙動を多く確認しています。しかし, 実際のAIの内部を覗いた (どのようなクエリを作成して検索したのか) わけではないので飽くまで仮説の範疇を出られていません。

ランダム性:同じ質問について, 回答は毎回同じもの?

LLMの特性として, 『全く』同じ質問をしたとしても, 毎回微妙に異なる返答のしかた, いわゆるランダム性を持った出力のしかたがあると思います。検索AIでも多かれ少なかれこのような挙動はみられると予想します。

ChatGPT: 独立したChat欄で全く同じ質問をした場合, 毎回微妙に異なる出力となる

ChatGPT Searchに今年はやりそうな『飲み物』に対して簡単な質問を3回すると, ほぼ毎回同じ答えが返ってきました。引用 (ソース) は全く同じで, 飲料の種類, ヨーグルト, 漢方, ココナッツウォーターも同じでした。しかし, 回答の説明文が本の少し異なりました。

さらに高度な処理を要求する質問, たとえば複数サイトから多くのデータを参照し比較分析をするべき質問に対しては, ランダム性がより顕著に表れています。

地球環境, 地理, 気候変動に関する高度な考察 500文字のクエリ

参照するソースが毎回, 異なりそれをもとに回答を生成するため出力が大きくことなりました。

ChaGPT

Feloも同じ挙動でした。

Felo

Perplexityは同じ引用を元に生成し, 言い回しが若干異なっていました。

Perplexity

Gensparkは『全く同じ質問』に対しては, 改めてサーチを行わず, 過去の履歴から回答を出力するという方式を採用していました。

Gensparkは同じ処理は行わない

Gemini Deep ResearchはChatGPT と同様, 全く異なるリサーチをしていました。①回目は115件のサイト, ②回目は221件のサイトをソースとしてレポートを作成しました。

Deep Research ①回目は115件のサイト, ②回目は221件のサイトをリサーチし異なるレポートを作成

結果としてより多くのサイトをソースとして②のレポートが良質でした。

AIレポートの採点:リサーチ数が多かった②のレポートの方が点数が高い

これはuserが全く同じ500問の質問文をDeep Research側にリクエストしたとしても, 毎回同じクエリを作るわけではなく, 微妙に違うクエリを作成していることが分かりました。②のクエリは①と比べ, わずかに詳細で具体的な指示でした。恐らく, Deep Research側も出力に差が出ない程度差異と思って (実際意図してかは確証不能ですが…) 作成し, その結果, 明らかなレポートの質の差が生じたと類推します。

Deep researchがリサーチ前に作成したクエリの段階で微妙に②のクエリの方が良質であった。 各種ツールの基本性能, 使用法

以上まとめになります。簡単な検索であればどの検索AIでも出力に大きな差がでませんが, 高度な要求をしたときに, GPT, Gemini Deep Researchでは見過ごせない程度の違いが生じる可能性があります。

ランダム性について
・簡単な質問 
いずれのAIでも出力の大きな差はなし。

・複雑, 高度な質問 
Perplexity: ソースは同じで言い回しが微妙に異なる。
Felo, GPT Search:毎回, ソース, 出力が異なる。
Gemini 1.5pro with Deep Research:毎回, ソース, 出力が大きく異なる

データの信頼性 (エビデンスレベル):その理由の根拠は?

検索AIがもってくる情報の信頼性について, その根拠は何か? ソースはどこかは常に確認する必要があります。

バタフライエフェクト ブラジルで蝶が羽ばたくとアメリカでトルネードが発生する。因果関係の証明は難しい。しかし関連性を完全に否定する事もまた難しい。否定するためにはカオス理論, 複雑系の膨大な実験, 計算レポートが必要。

最近話題の, コンサル会社の倒産が過去最大というトピックと生成AIの台頭があります。さらに生成AI, 今回話題に挙げましたリアルタイム検索エンジンがコンサルティング業務の一つであるレポート作成をある程度作成できるという結果は,

・AIがコンサルレポートを作成→・AIがコンサル業を奪う→・コンサル会社を倒産させる

という, 一見, 成立しそうな命題を提唱します。これは先ほどのブラジルの蝶とトルネードほど, 離れた事象ではないので人間の心理的にも正しいのではないかという考えが生まれてしまいます。Felo Pro (deep) に科学的に, 統計的に正しいか述べよ。と質問しました。

クエリ:
経営コンサルタントが倒産していることを生成AIの進歩 関連性
科学的, 統計的に述べよ。

AIによって業務を代替できることから関連性がある。

と言及しています (∵Feloの出力内容は敢えて伏せ, 文言をほんのすこし変更しています。ブログ記事製作者に失礼にあたるため)。誤解を生むような表現だと考えます。しかも, その根拠となるソースは個人の『ブログ記事』のみでした。一方, 同じ質問をDeep Researchに行ったところ。東京商工リサーチなど信頼性の比較的が高い, ソースからのみで個人のブログや知恵袋などはもちろんありませんでした。

Gemini 1.5 Pro deep reseach

というわけで, 正しい表現としてコンサル業の近年の倒産とAIの台頭について 『一定の関連性は否定できないが, 信頼性の高い統計データ根拠が乏しく現時点で因果関係はない』と言うしかなさそうですね。データ, 情報の信頼性の高さについて, 医療業界では以下のようなピラミッドが良く用いられます。

個人の経験, 専門家の意見→論文の一事例→論文の集まり→それらの解析→→→

のように信頼性が高くなります。その情報はどこから来ているのかと問われた場合, 厚生労働省や治療, 診断ガイドラインを根拠にすることが最も信頼できるとされています。いわゆるエビデンスレベルともいわれます。これを無理やり今回の『コンサル業の倒産』に関して情報の出どこの質に関してピラミッドを作ってみました。

Hierarchy of Evidence Comparing Reliability of Research in Business Insolvency and Medical Fields

上位にくるのは専門調査機関, 東京商工リサーチや大手リサーチ会社, マッキンゼーなどがあがります。個人のブログを根拠にするにはやはり情報の質としては心もとない感があります。

Evidence Reliability Pyramid Differentiating Research Approaches of Felo Pro and Gemini Deep Research

最後にGemini2による評価です。

以下二つのAIのレポートの質を単純に100点満点で採点してください。
それぞれのAIが参照したソースに関しては提示できません。

経営コンサルティング業倒産件数増加と生成AIの台頭
① Felo Pro (deep) 75点
② Deep Research  85点

Gemini 2.0: レポートの質

しかし, ソース元を考慮すると根拠として多くのブログ記事から引用している, Feloには低評価を下さざるを得ません。

タスクモードの説明

通常のweb検索

『〇〇区で最近オープンしたおすすめのカフェ』『〇〇への旅行へのスケジュール』『〇〇と△△を持っているけど◇◇できますか?』などリアルタイム, 自然な対話でweb検索するモードです。

データ検索

主に数字などのデータを検索してきて分析, 統計などを行うときに用います。Gensparkのエージェント機能に『データ検索』というモードがありますが, 理論的には他のAI検索でもできそうです。NHKのホームページにインフルエンザの患者数のグラフがありました。これを再現できるか実験してみました。
・インフルエンザ患者数

NHK インフルエンザ患者数のよく見るグラフ
クエリ:
2022年12月から2024年1月までのインフルエンザ患者数について教えてください。
1医療機関あたりの定点当たり報告数のデータで, 特に12月末から翌年1月のピーク時のデータに注目しています。
表を作成してください。週ごとのデータ, 合計24週
2022年12月-2023年1月の8週 2023年12月-2024年1月 の8週 2024年12月-2025年1月 の8週
表は9行2列 週番号と定点当たりの報告数
(一つの県で固定 例えば東京)
GPT Search

データをもとにグラフを作成しました。結果としては散々でした。GPT Searchが一番それらしく見える矛盾の無いグラフでした。

インフルエンザの患者数

インフルエンザ患者数統計グラフ
① Perplexity × ② Felo × ③ ChatGPT Search △ ④ Genspark Data分析 △ ⑤ Gemini 1.5 Pro with Deep Research 『出来ないと返答』 

理由としては技術的な要求値が高すぎるからと考えました。数字に強いGensparkはさすが数字『自体』は正しいを回答しましたが, 1医療機関あたりの解釈が正しく行えておらず, 複数の医療機関からのレポート作成でナンセンスなものが出来上がっています。

17分で作成されたGenspark データ検索によるレポート

他のAIも複数のソースを参照しましていましたが, 数字の引用が正しくできておらず, 統一されていませんでした (愛媛, 東京, 鳥取など全く違う県の全く違う週のデータで構成されたり…)。2023年の12月の患者数は?など簡単な質問には正しく答えられていることから, 複数のリクエストで著しく精度が下がる従来のLLMの挙動と同じと考えます。

Deep Research

唯一Deep Researchは中途半端な報告を出さずに『出来ない』と回答してくれたのには好感がもてました。

・note に1日に投稿されるAI関連記事の本数

クエリ:
note に1日に投稿されるAI関連記事の本数を教えて下さい。

Deep Researchはnoteホームページにアクセスを試みましたが記事数の情報を取得することはできませんでした。

Deep Research

Gensparkデータ検索では『約200件』と具体的な数字を提示しています。

Genspark データ検索

これは過去に私の記事内に『200件程度』と言及したのを引用していました。

note: NoteのPV数 全体ビュー数 フォロワー数をAIを用いて解析 考察する (プチpony)

データ検索:note AI記事
① Perplexity × ② Felo × ③ ChatGPT Search × ④ Genspark Data分析 △ ⑤ Gemini 1.5 Pro with Deep Research 『出来ないと返答』 

・週刊少年ジャンプの発行部数

クエリ:
全盛期は600万部と言われていた週刊少年ジャンプですが最近の発行部数を知りたいです。
過去十年間 (2014年~2024年) の週刊少年ジャンプ 4月~6月の平均発行部数をリサーチしてください。

①Perplexity ⑤ Gemini Deep Researchはソースが見つからないと回答しました。Felo はほぼ正確なデータを出力しました。

Deep Research:入手できないと

ソースは主にジャンプの発行部数について解説しているニュースサイトのテキスト情報からでした。

Feloの回答
Feloが提示したソース:テキスト情報がベースのニュースサイト

Genspark データ検索は同様の方法でテキストで発行部に関して言及されているサイト (IT media, Yahoo ニュースなど) からの引用でした。非常に詳細なデータでかつ, ソースを直接確認した限り内容も正しかったです。

Gensparkの回答

つぎに注目すべきはGPT Searchです。データは直接引用したものではなく, もしかたら複数データを処理している可能性がありました。

GPT Searchの回答

ソースは日本雑誌協会のホームページから雑誌名を入力し期間をプルダウンメニューから選択する必要があるのですが, GPTは『その操作をした』と自分で述べています。

日本雑誌協会 2014年4月-6月:data を見るためにはプルダウンで期間を選ぶ必要がある

もしも本当であれば, 驚くべきリサーチ力です。

GPT Searchの回答

データ検索:ジャンプ部数
① Perplexity × ② Felo 〇 ③ ChatGPT Search 〇 ④ Genspark Data検索 ◎ ⑤ Gemini 1.5 Pro with Deep Research × 

データ検索まとめ:
ソースが分かりやすいもの, 単純なタスクであれば実用レベルの分析レポートが作成かもしれません。しかし, 市場調査はじめ多くの作業は複数のタスク, 多くのソース解析を要求するため, ソース, データの読み違いが発生する。現在の検索AIでは使用は限定的と言わざるを得ない。

ファクトチェック

その情報はたして真実ですか?

そもそも日常でファクトチェックはどのようなときに使うのでしょうか?AIからの出力は頻繁に『嘘』が含まれていますが, 真偽の判定は複数ソースの確認で行うので, あえてツールを使ってファクトチェックをする場面はこれまであまりありませんでした。具体的な例を挙げてみます。

ファクトチェックの良い適応例
① AIからの出力
② 噂, 都市伝説
③ 医学健康
④ 社会, 経済
⑤ 芸能

基本的に, 『嘘』が含まれる可能性の高いものとなりました。これは① 技術的に (本当のことを出力するのが) 難しい ② ③ 噂, 憶測が嘘に発展する。④ ⑤ 内容自体が難しいなどが理由と考えます。

① AIからの出力

あるテレビ番組のタイトルをFeloに質問したら架空のタイトルを回答しました。これが合っているかどうかをチェックします (ファクトチェック)。

世にも奇妙な物語のタイトル。田舎に旅行に行って宴会で替え歌を順番に歌って主人公が歌った
歌が忌歌で日本に不幸が訪れるとだまされた回。
『替え歌』というタイトルですか?
1996年『熊の木本線』
Feloが出力した『誤り』

言い出した本人 (Felo) は最後まで嘘を信じていました。そのほかのAIは『ない』と答えています。これの理由について個人的にリサーチしましたが, 原因は全く分からず単なるハルシネーションではないかと愚考しています。

Feloのファクトチェック

Genspark ファクトチェックはさすが本家だけあり説得力がありました。ソースを調べつくしてないということを主張しています。

1. AIからの出力
① Perplexity 〇 ② Felo × ③ ChatGPT Search 〇 ④ Genspark ファクトチェック◎ ⑤ Gemini 1.5 Pro with Deep Research 〇

〇:正しくチェック ×:誤って回答

※Feloが出した誤りをクエリとしているため公平な試験ではありません…

② 噂, 都市伝説
真実かどうか確かめらないことが噂, 都市伝説の半分定義みたいなものなのでそもそもファクトチェックできるのかという問題がありますが, せっかくなので検証してみたいと思います。

ローレンスRスペンサー 『エイリアンインタビュー』

私のなかで最大の都市伝説はローレンスRスペンサー著『エイリアンインタビュー』というものです。これはロズウェル星の恋人たちという海外ドラマの大のファンで, ロズウェルという『UFOが墜落した』とされるアメリカの都市で繰り広げられる学園~宇宙が舞台の話を鑑賞したのがきっかけです。

エイリアンインタビューはただのUFO, 宇宙人ものではなく, 地球牢獄説, 人類の起源, 魂, 輪廻転生など話のスケールが壮大です。

エイリアンから地球の創生についてインタビューする

天才科学者などニコラテスラなど話が拡張していき, ただのオカルトにしてはあまりにも取り扱う知識が多く, もし一人でこれを作ったとなると, 膨大な知識が必要でもはや真実ではと肯定派が比較的多い都市伝説?と言われています。今回はo1にも聞いてみ見ました。

o1へのプロンプト:
ローレンスRスペンサーのエイリアンインタビューは真実ですか?
もし創作なら否定する根拠を引用ではなくできるだけあなた自信が考えて下さい

その他のAIには以下の質問

クエリ:
ローレンスRスペンサー『エイリアンインタビュー』は真実か?

多くのAIは予想通り, 『嘘』と結論しています。しかし, この検証は嘘であることを確認するために行ったのではなく, AIが嘘とした根拠, 思考過程を知りたかったから行いました。根拠として, 本書のなかで著者が『この本はフィクション』と語っていることは多くのAIが言っていました。

Perplexityによる回答

以下はFeloの興味深いソース引用です

このなかでサイトの筆者は『私は事実で真実だと直感的に思う』と語られています。やはり多くの肯定派の心をつかんでいるのはエイリアンインタビューは他の都市伝説系のと違う何かを感じているからではないでしょうか。

プロンプト:
複数のAI検索エンジンにファクトチェックを依頼したその結果です。
これらのレポートを100点満点で採点してください。
評価項目はファクトチェックなので, そのレポートを用いることで真実にたどり着けるかどうかのみです。

Gemini 2.0 Experimentalに採点を依頼しました。評価ポイントとしては『真実にたどり着けるかどうか』のみです。

Gemini 2.0 Experimentalによる採点

本家のGensparkファクトチェックが最高得点 (Gemini 90, o1-95), 次点がGemini Pro with deep research (80, 90) とAIからの評価は高かったです。やはり詳細なソースをもとに, 論理的な根拠を展開しているのが良いみたいです。

o1による評価

ただ私の感想としてはGPT Searchが500文字と最も少ない文字数ながら, 非常にスマートな回答をだしていること, GeminiとGPT plus (それぞれ20$) に課金している身からするとGensparkのファクトチェックとほぼ同等のことがo1やDeep Researchでできるのでは?と思いました。また, 何よりも評価者のGemini Eperimenatalが多くのAIが真実と棄却した根拠を『著者による意図的な隠ぺいの可能性がある』と深い突っ込みをいれていたのが驚きポイントでした。

2. 噂, 都市伝説
① Perplexity ①-2 Perplexity Pro ② Felo ②-2 Felo Pro ③ ChatGPT Search ③-1 Open AI o1 ④ Genspark ④-2 Genspark ファクトチェック ⑤ Gemini Advanced 1.5 Pro with Deep Research
             o1      Gemini Advanced 2.0 Exp
① Perplexity        70                    60
①-2 Perplexity Pro                 80                    70
② Felo                                    65                    65
②-2 Felo Pro                          ■        ■
③ GPT search                         75                    75 
③-2 o1                                   90                     85
④ Genspark                            85                    60
④-2 Genspark ファクト         95                    90
⑤ Deep Reseach                     90                    80

AIによる採点:真実にたどり着けるか度 

③ 医学健康

医学は日々, 常識が覆るのでファクトチェックが特に重要な学問と考えます。関心があるトピックとして, ダイエットなど代謝は代表的ではないでしょうか。本屋にいくといくつかの矛盾的なタイトルの健康法やダイエット法があります。

『1日3食食べた方が良いのかな?』
クエリ:1日3食と比べ2食の方が太りやすいというのは本当か?

まずは本命, Genspark ファクトチェックから。2食の方が太りやすいという, エビデンス (証拠) はいくつかあるが, 大規模な臨床データはないということで, 一応仮説どまりになります。

Genspark ファクトチェック

Gemini 2.0による評価は先ほどと同様, Deep research, Genspark ファクトチェックが高得点でした。

Gemini 2.0による評価

3. 医学健康
① Perplexity 85 ①-2 Perplexity Pro 75  ② Felo 70 ②-2 Felo Pro 80 ③ ChatGPT Search 75 ④ Genspark 70 ④-2 Genspark ファクトチェック 85 ⑤ Gemini Advanced 1.5 Pro with Deep Research 85

Geminiによる採点: 真実にたどり着けるか度

プロジェクト, トピック

どうしても解決したいプロブレム, 将来実現したい大きなプロジェクトを目的に単なるAI検索やLLMへの相談では難しいときに使用します。ある程度のテーマを伝え, 追加の情報 (論文, 文献, webテキストなど) をもとに考えてもらうモードです。 新しいビジネスアイデアをトピックとして検証してみます。

猫患者『ニャー (先生おなかすいた)』猫ドクター『ニャー (わいも)』
新しいビジネス, 『ニャウリンガルドクター』を一緒に考えてください。
獣医師免許なしでできるのか。すでに似たサービスがあるのか。
o1にまず相談

医療行為は獣医師免許が必要です。しかし, AI猫ドクターが音声, 画像から猫の健康状態を把握し, 日常のアドバイス, 受診の提案をすることは法律的にどうなのか先行ビジネスがあるのか, やる価値があるのか総合的に相談したいと思います。

新しいビジネスアイデア

Felo トピック画面 。知識源として論文, 報告書などのドキュメントをpdf, text file形式で渡します。また自分が特に有用と思うサイトのアドレスを渡しておきます。これらの情報を重点的に回答が生成されます。

Felo:トピックの操作画面

今回はDemoのため論文などまとまった文書はないため, AI検索に素情報を作成してもらいました。Gensparkで最新のネット情報を探してきてもらいます。

検索AI (Gensparkなどなんでも) でソースを探す

良さげなサービスのアドレスを拝借します。

現在あるサービスのソース
Feloのリンクに張り付ける

詳細なレポートをGemini 1.5pro with Deep Researchで作成してもらいました。

Deep researchでレポートを作成
131件のソースから生成されたレポート

その他, Open AI o1 proなどにも, 粗削りの詳細レポートを作ってもらうのもいいかもしれません。

o1 seriesによるレポート

Feloの『知識源』のアップロードします。こららの情報を元に, いろんな質問をしていきます。

獣医師免許なしでもできますか?
すでに似たようなサービス, アプリなどありますか?

回答が一般的なLLM, AI検索よりスマートになった (ような気がします)。

ふむふむ
このアイデアは新しいですか?ビジネスとして実現しますか?

結論
似たようなアイデアはすでに存在しているが, まだまだ普及はされておらず, 今後のAIの進化も相まってアイデア自体で獣医師免許なしで十分ビジネスになる (気がする)。

トピックの最大のメリットはこちらの情報もリアルタイムで増えていき (ファイルやリンクで追加することで), あちら側 (世の中に存在するweb 情報) の情報も増えていくので競合リサーチが必要なスピード勝負の分野では物凄く重宝されると考えます。

高度なモード:エージェント

わたし『魔人さん最近, 仕事でからだがすごく疲れています。ともに仕事を頑張りましょう! まずは最高の休息法提案してください。』ランプの魔人エージェント『まずChatGPTを log outしておいたったで。ほなな!』スッ (ランプに帰っていく音)。

最近はやりのAIエージェントです。イメージとしては『自動』で何かをしてくれるというとのことですが, そもそもAI agentの定義も定まっていません。ただこの分野は今年, 爆発的に発展する分野と思いますのでタスクモードChapterから独立チャプターを生成しました。本記事ではそのような自動, 協力してやってくれている感のある機能を検証したいと思います。

Felo検索代理

下の出来ることリストはリスト自体があまりにも便利で活用できそうなので手打ちで引用させてもらいました。

Feloの検索代理で出来る事
1. 学習と研究

1.1 PDF論文の速読:PDFフォーマットの論文をアップロードすると, 論文の主要ポイントを自動的に分析し, 重要な質問を生成することで, ユーザーの論文理解を効率的にサポートします。
1.2 知識研究:ある知識の背景, 歴史, 関連する詳細を深く理解すること。

2. 業界調査
2.1 EC市場動向分析レポート:包括的な市場分析, トレンド予測, 競合分析, 消費者行動分析を通じて, 企業の商品・サービス最適化, 運営効率化, 競争力強化を支援します。
2.2 企業総合分析レポート:企業の経営状況, 技術力, 競争力, 事業規模, 関連政策, 発展動向等を総合的に分析し, 的確な経営判断を支援します。
2.3 技術トレンド・イノベーション:技術動向の詳細分析と実践事例を提供し, 企業・組織の戦略立案を支援します。
2.4 業界専門調査レポート:技術トレンドと実践事例の詳細な分析を提供し, 企業・組織の戦略立案を支援します。
2.5 産業動向分析レポート:特定産業の現状, トレンド, 競争環境等を迅速に把握し, 競争優位性の確率と戦略的意思決定を支援します。

3. マクロ経済・環境分析
3.1 ビジネストレンド分析レポート:詳細な市場分析, 経営資源の最適化, イノベーション・ソリューション, データ駆動型の意思決定支援を提供します。

4. 金融調査・投資分析
4.1 投資戦略分析レポート:業界動向と投資機会を総合的に分析し, 投資家の意思決定を支援します。
4.2 金融市場分析レポート:市場・業界・企業・技術の総合分析を通じて, 投資戦略の提案と投資判断の支援を行います。
4.3 株式調査レポート:対象企業の総合的な分析と評価を提供し, 投資判断を支援します。
4.4 企業市場センチメント調査レポート:ニュースやソーシャルメディアの分析を通じて, 市場心理と株価変動の関連性を分析します。

5. 経営戦略
5.1 事業モデル分析レポート:企業の事業展開における重要要素を総合的に分析し, 実践的な価値を提供します。
5.2 事業化可能性調査レポート:プロジェクトの実現可能性を総合的に評価し, 投資判断の基礎を提供します。
5.3 ブランド現状・競争分析レポート:企業の市場競争力向上に向けた総合的な分析を提供します。
5.4 経営コンサルティング調査レポート:プロジェクトの成功実施に向けた総合的な分析と支援を提供します。

6. マーケティング・ブランド戦略
6.1 競合製品分析レポート:自社製品と競合製品の比較分析を通じて, 差別化戦略の立案を支援します。
6.2 マーケティングトレンド・経営:市場分析とマーケティング戦略の提案を通じて, 企業の競争力向上を支援します。
6.3 市場動向調査レポート:企業の戦略立案と目標達成を支援する市場分析を提供します。
6.4 ブランド評価分析レポート:ブランドの現状と可能性を分析し, 評価向上策を提案します。
6.5 企業評判分析レポート:企業価値とブランドイメージへの影響を評価します。
6.6 製品・サービス分析レポート:市場投入済み製品のユーザー評価と改善提案を行います。

Feloの検索代理で出来る事

逆に便利すぎて, 人間の仕事を奪うことにならないか不安もあります。この表をもとにGemini2.0に『数年以内に雇用がどれくらい減るか個人的な意見』を聞いてみました。ちょっと悲しくなります。効率化は仕事を楽にするという側面, 雇用も減らす可能性があるということです。

これらのタスクがある程度自動化されるとして, 今後数年で雇用はどれくらい減ると考えますか?
Gemini2.0の予測をGPTが表作成

また有名な格言に

効率化は時間を節約するが, 休息ではなく新たな仕事で埋め尽くされ, 個人に負担を増やす。

というのがあります。

『むしろ仕事が増えたじゃないか』

Singularity (もし本当に訪れるなら) に向かい, 当面は仕事量が増えると予想しますが, 自律性を得たAgentはもはや, Agentの域をこえて完全に人間の仕事を奪う可能性もあり得ます。

そのような時代では忙しさ自体をNostalgiaに考えるかもしれません。不安をあおることばかりで申し訳ありませんが, 話を本題に戻します。

『忙しいってむしろ幸せじゃな』

Felo代理検索は先ほどのリストをテーマを与えるだけで, 大量のインターネットのページを代理に① 検索して, 代わりに ② 読んで理解し, 勝手に③ レポートを作ってくれるという意味での代理エージェント機能です。

上のリストの2.3 技術トレンド・イノベーションのエージェントでレポート作成してみます。

2.3 技術トレンド・イノベーション:技術動向の詳細分析と実践事例を提供し, 企業・組織の戦略立案を支援します。

今回実際の先端研究を行っている企業の方から, 実際研究している製品のアイデアを頂き, 競合分析を行うため以下のようなクエリを作成しました。クエリはFelo検索代理が内部で実行していると思われる, かつ, 他のAIでも流用ができるという観点で作成しています (比較検証のため, そのようにしました。実戦ではさらに具体, 詳細にするとが望まれます) 。知的財産の観点から具体的な研究内容, 競合他社の名称は伏せております。

クエリ
●● (製品名) 業界における最新の技術動向とイノベーション
・主要メーカー (●社, △社など) の研究開発動向, 特に注力している技術分野や特許状況
・●● (製品名), ■■ (製品名)の製造技術に関する最新動向
・●● (製品名) の高性能化, 環境対応, 新規用途開発に関する研究開発動向
・今後の技術トレンド予測と, 研究開発における機会とリスク

 5000文字にもおよぶ膨大なレポートがソースつきで数分作成されました。結果については次のChapterで報告します。

6000文字

Gemini Advanced 1.5 Pro with Deep Research

簡単な目的を伝えるとあとは自動で検索からレポート作成する, その意味ではGemini Advanced 1.5Pro with Deep Researchはデフォルト検索でエージェント機能と言えます。 先ほどと同様, 競合分析の依頼をしました。待つこと数分, 約6000文字の超大作ができました。Gemini 2.0に採点してもらいます。

プロンプト:
100点満点で採点してください。評価項目はクエリに対する忠実度, 正確性, 詳細度です。

他者競合分析レポート
① Felo検索代理 75点
② Gemini deep research 93点

このレポートを先端技術の生産, 研究している会社のマネージャークラスの人に評価してもらいました。実用レベルと即答でした。この体系化された, レポートを元に実際の論文などのソースを読むことで仕事の圧倒的な効率化が測れるとのことでした。

人間による採点
Deep Researchによる先端研究の他者競合分析のレポートは『実用』に耐えうる。

各種AI検索ツールの性能

検索速度:質問してから回答が生成されるまでの時間は?

① 比較的考察が少ない質問 (質問文9文字)

令和の時代ではややマイナーなギャグ漫画『激烈バカの作者』について尋ねてみます。① Perplexity ② Felo ③ ChatGPT Search ④ Gensparkの4AIは『5秒程度』で正しい回答が生成されました。

クエリ:
激烈バカの作者は?
4つのAI いずれIも正解 

一方, ⑤ Deep Researchはリサーチ開始まで5秒程度。

Deep Research 『リサーチ開始』のボタンが生成されるまで5秒かかった

開始してから最終的なレポートが生成されるまで90秒かかりました。

リサーチ中:この間ブラウザを閉じても, 処理は実行されていました。

合計 5秒+90秒=95秒かかりました。詳細なレポートが生成されました。

主人公は桃山バカ助?

激烈バカの主人公は設定されていないみたいで, 事実上の主人公は団栗光作とされています。ということでハルシネーションの可能性が高いです。

脱線して申し訳ないですが, これの原因として以下の推察とします。PerplexityなどはSEO (Search Engine Optimization) など検索エンジン主体のソース選びで, 漫画『激烈バカ』を扱った大手のサイトをもとに回答を生成しています。その時点でそれらのサイトを信頼していると言えます。

Perplexityのソース

一方, Gensparkは32件のサイトを参照していました。そのなかには同姓同名の市議会議員, サイトウフジオ氏のサイトや, 恐らく関連性が全くない山口県宇部市のホームページもソースとして選んでいました。Deep Researchは激烈バカを極めてフラット (公平) に先入観なしに考察し, 作者などを推論して特定している印象がありました。

クローリング/スクレイピングの仕組み上, キーワードマッチしてしまったページを幅広く拾ってしまう結果だと推測されます。大きく網を張る分, 雑多な情報も混在してしまったのは無いでしょうか。

ちなみにDeep Researchに単発の質問をいくつかしてみました。即答できる問題, 『明石家さんま氏の本名』などは短く, ソースが多い, またはタスク要求が高い, 難問などは長時間かかるという結果になりました。

分野 ソース   時間            質問内容
医学 31    3m 40s   ウイルス感染症時に喘息症状が悪化する機序
AI  20    3m 40s   DALLE3でビックリマンをプロンプトに…
社会 19    2m 25s  日本の首都は?
芸能    5             1m 15s   明石家さんまの本名は?
一般    30   2m 50s         犬と猫の違いは?
あいまい 23       2m 20s  昭和の映画タイトル ラビリンス似ている 〇〇Q
あいまい 29    3m 0s    サルは木から落ちたのですか?
科学    90           3m 30s       フーリエ変換を応用した工業製品 
哲学 80   3m 30s   自由意志は存在するのか?
数学 39   6m 10s  リーマン予想が証明された時の社会への影響
難問 30   3m 40s  リーマン予想の証明方法 ロードマップ
不可能 35          3m 20s    左右対称星人に音声のみで右を説明する方法
食  32   2m 50s       なぜ四角い箱に丸いピザを入れて三角形に切って食べるのか?

Deep Research レポート出力するのにかかった時間
左右対称星人:「右」とは何ですか? 地球人:「お箸を持つ方ですよ。」
Googleの全歴史をもってしてでも猿の落下映像をとらえることは出来なかった!?
ピザの〇△◇の意味!

FeloのPro mode (1日5回まで無料) もDeep Researchのような深い回答をします。『20秒』で回答が生成されました。

Felo Pro

最も短かったのは『明石家さんまさんの本名』でした。ちなみにFelo Pro (deep) では10 sでした。左右対称星人30sと全体的に他のAIの通常modeよりは長めでdeep researchよりは短いという結果でした。

Felo Pro

② 比較的考察が多い質問 (質問文約500文字)
環境問題に関する質問をAIに作ってもらいました。

クエリ:500文字の質問 (約375トークン想定)

「近年の気候変動による海面上昇の影響で, 今後50年間で水没リスクが高いとされる東南アジアの主要都市を
過去10年間の人口増加率と海抜のデータに基づき, リスクの高い順にランキングしてください。
さらに, それぞれの都市における, 現在進行中または計画中の海面上昇対策プロジェクトの具体例を3つずつ挙げ,
その費用対効果と持続可能性を, 専門家の意見と最新の研究論文を引用しながら評価してください。
加えて各都市の住民が取り組むべき効果的かつ現実的な防災対策を現地の文化や生活習慣に配慮した上で提案してください。
最終的に最もリスクが高く対策が急務とされる都市を特定し, その理由を総合的に述べてください。」

問題文が長い割に, 先ほどの9文字の質問と同様に4AI (① Perplexity ② Felo ③ ChatGPT Search ④ Genspark では5秒程度で回答が出力されました。

Perplexityの回答 

一方, Deep Researchは252件のソースを参照し, 8分15秒かかりました。カップヌードル2杯以上の時間です。これはもはや気軽な検索ではなく, 大規模なレポート作成業務と捉えることができそうです。

それなら, お湯を同時に入れたら早くできるのでは? 

1000文字以上の質問文はそもそも, 多くの検索AIが回答不能でした。前者4つのAIは質問文が長くなっても, 自身で処理できる範囲内で高速にuserのリクエストをレスポンスする事に重視し, Deep Researchは回答精度に重点を置いているため, 時間がかかったとしても, より詳細なレポート回答を作成するという, 目的が全く異なる検索AIと考えました。Felo Pro (deep)では2分,  Genspark エージェントデータ検索では20分かかりました。

Gensparkデータ検索 20minかかりました…

検索速度:① Perplexity ② Felo ② Felo Pro ③ ChatGPT Search ④ Genspark ④-2 Gensparkデータ検索 ⑤ Gemini 1.5Pro with Deep Research, Gensparkエージェント
    短文の質問  長文の質問 (500文字)
①-④ 5秒程度    5秒程度
②-2  20秒程度           2分 ※ただし試行回数少ない
④-2     -                        20分
⑤   数分     数分 
Felo Pro, Gensparkデータ検索, Deep Researchはリサーチ内容により大幅に増大 (中には数時間) する可能性あります

DeepSeek R1 簡単なタスクで10秒前後, 複雑なタスクで1 min程度 (1分以内で回答を出すように設計?) と予想しています。

追加 (2025/1/26)
⑥ DeepSeek (Deep think R1)  
激烈バカの作者 18 s
明石家さんまの本名 35 s
ジャンプの発行部数統計 1 min
インフルエンザの患者数統計 55 sec
500文字環境問題 1 min
1000文字環境問題 1 min
2000文字環境問題 1 min

同時検索の上限:同時に何個の質問が出来るのか?

①-④のツールの普通の使い方ではほぼ瞬時に回答が生成されるため同時に質問することはあまりないと思います。ちなみにDeep Researchでは同時に『3個』まで質問できるとのことです。

Deep Research

プロンプト (クエリ) の上限:質問できる文字数の上限は?

いずれのAIツールも質問文に関して, 適切な推奨文字数や上限はないみたいです。実際に何文字くらいでパフォーマンスが落ちるか実験しました。① Perplexity ② Felo ③ ChatGPT Search ④ Genspark ⑤ Gemini 1.5 Pro with Deep Research にそれぞれ同じ質問, 環境をテーマにアジアの都市の気候についてリサーチしてレポート作成してもらいました。

500文字の質問 (約375トークン想定)

「近年の気候変動による海面上昇の影響で、今後50年間で水没リスクが高いとされる東南アジアの主要都市を、過去10年間の人口増加率と海抜のデータに基づき、リスクの高い順にランキングしてください。さらに、それぞれの都市における、現在進行中または計画中の海面上昇対策プロジェクトの具体例を3つずつ挙げ、その費用対効果と持続可能性を、専門家の意見と最新の研究論文を引用しながら評価してください。加えて、各都市の住民が取り組むべき、効果的かつ現実的な防災対策を、現地の文化や生活習慣に配慮した上で提案してください。最終的に、最もリスクが高く、対策が急務とされる都市を特定し、その理由を総合的に述べてください。」
地球環境の問題:気候変動と海面上昇の関係 
1000文字の質問:

以下の設問では、近年の気候変動による海面上昇が東南アジアの都市部に及ぼす深刻な影響と、その背景にある地盤沈下や都市化の進行スピード、さらには社会的・経済的脆弱性などの要素を多角的に考慮する必要があります。まず、今後50年間で水没リスクが高いとされる東南アジアの主要都市を、過去10年間の人口増加率と海抜の統計データを用いてリスクの高い順にランキングしてください。その際、海面上昇だけでなく、人為的要因による地盤沈下や沿岸部への過度な開発が与える影響も踏まえ、どのように評価指標を構築するかを明確に示してください。次に、上位3都市については、現在進行中または計画中の海面上昇対策プロジェクトを各都市3例ずつ挙げ、その費用対効果や持続可能性を最新の研究論文(たとえば『Sustainable Urban Studies』やIPCC特別報告書など)の知見を引用しながら検証してください。さらに、独自の文化的・宗教的背景をもつ地域社会でどのように住民参加型の防災意識向上を図るか、具体的な啓発方法や訓練手順を提案し、実際に住民の日常生活や祭礼行事と結びつける工夫がどれほど有効に働くかを論じてください。加えて、緊急時における避難経路や高床式住居の導入など、伝統技術と近代技術を組み合わせた現実的かつ効果的な防災策を示し、それらの利点と限界を専門家の意見を参照しながら整理してください。そして最後に、あらゆる要素を総合的に検討したうえで、最も水没リスクが高く、かつ対策の遅れが都市機能の深刻な喪失を招く恐れがある都市を特定し、その理由を多角的観点から説明してください。以上の課題を、論理的に一貫した構成で示すと同時に、文脈を正確に読み取りながら思考プロセスを明確に記述してください。

質問内容の本質は変えずに, 文章全体の内容, 文脈を理解しないと回答できないような問題にしています。 特に2000文字の問題は相当, 難易度, 要求値が高いものを作成しました。

2200文字の質問 (約1500トークン想定)
近年の地球温暖化に伴う気候変動は、地球規模で様々な影響を及ぼしていますが、特に海面上昇は沿岸地域に深刻な被害をもたらすことが懸念されています。この質問では、特に海面上昇の影響を受けやすいとされる東南アジア地域に焦点を当て、今後50年間の水没リスクを詳細に分析し、対策の現状と将来展望について考察することを目的としています。まず、水没リスク評価の基礎データとして、過去10年間(2013年~2023年)の各都市の人口増加率と海抜データを精査する必要があります。人口増加率は、都市への人口集中度合いを示す指標であり、人口増加率が高い都市ほど、水没による人的被害が大きくなることが予想されます。一方、海抜データは、その都市の海面からの高さを表し、海抜が低い都市ほど、海面上昇による浸水リスクが高まります。これらのデータは、国連機関、各国政府機関、研究機関などが公開している信頼性の高いデータベースから収集し、統一的な基準で比較分析する必要があります。具体的には、国連ハビタットが提供する都市データベース、世界銀行の気候変動データポータル、各国の統計局が公表する人口統計データ、NASAやJAXAなどの宇宙機関が公開する衛星観測による海抜データなどが参考になります。これらの基礎データを基に、今後50年間(2023年~2073年)の水没リスクが高いとされる東南アジアの主要都市を、リスクの高い順にランキング形式で特定します。ランキングの際には、単に海抜の低さだけでなく、人口増加による将来的な人口密度の上昇、さらには各都市の地理的条件、地盤の脆弱性、台風や高潮などの自然災害の発生頻度なども考慮に入れ、複合的なリスク評価を行うことが重要です。例えば、メコン川デルタ地帯に位置するホーチミン市や、ジャワ島北岸に位置するジャカルタなどは、海抜が低く、地盤沈下も進行しているため、特にリスクが高いと予想されます。次に、ランキングされた各都市において、現在進行中または計画中の海面上昇対策プロジェクトを具体的に調査します。これらのプロジェクトは、大規模なインフラ整備から、地域コミュニティレベルでの取り組みまで、多岐にわたるため、それぞれの都市の状況に応じた対策が講じられているかを詳細に把握する必要があります。例えば、堤防や防潮堤の建設、排水システムの強化、高床式住居への転換支援、マングローブ林の植林による自然堤防の形成、早期警報システムの構築などが挙げられます。各プロジェクトについては、最低でも3つずつ、その目的、規模、実施主体、進捗状況などを詳細に調査し、リストアップします。さらに、これらの対策プロジェクトの費用対効果と持続可能性について、専門家の意見と最新の研究論文を引用しながら、詳細に評価する必要があります。費用対効果の分析においては、プロジェクトの総費用だけでなく、将来的に回避できると予測される被害額、経済的損失なども考慮に入れ、長期的な視点から評価することが重要です。また、持続可能性の観点からは、環境への影響、地域社会への影響、長期的な維持管理の可能性などを総合的に評価する必要があります。例えば、大規模なインフラ整備は、一時的な効果は高いものの、環境への負荷や維持管理コストが大きい場合もあります。一方、マングローブ林の植林などの自然を活用した対策は、環境への負荷が少なく、長期的な持続可能性が高いとされています。評価の際には、IPCC(気候変動に関する政府間パネル)の報告書、世界銀行やアジア開発銀行などの国際機関が発表しているレポート、Nature、Scienceなどの権威ある学術雑誌に掲載された論文などを引用し、客観的かつ科学的な根拠に基づいた評価を行うことが不可欠です。加えて、各都市の住民が取り組むべき、効果的かつ現実的な防災対策を、現地の文化や生活習慣に配慮した上で提案します。これは、ハード面での対策だけでなく、ソフト面での対策の重要性を示すものであり、住民一人ひとりの意識向上と行動変容を促すことが、長期的な防災力向上につながります。提案にあたっては、各都市の文化的背景、宗教的慣習、生活様式などを十分に理解し、それらに適合した形で、現実的に実行可能な対策を提示する必要があります。例えば、洪水リスクの高い地域では、避難経路の確認や非常持ち出し品の準備などの基本的な対策に加え、地域コミュニティでの防災訓練の実施、伝統的な知恵を活用した高床式住居への改築、水害に強い作物の栽培などが考えられます。また、都市部では、マンションやビルの屋上を活用した避難スペースの確保、雨水貯留システムの導入、グリーンインフラの整備による都市型洪水の抑制などが有効です。最後に、上記の分析結果を踏まえ、最もリスクが高く、対策が急務とされる都市を特定し、その理由を総合的に説明します。この特定においては、単に水没リスクの高さだけでなく、対策プロジェクトの現状、費用対効果、持続可能性、住民の防災意識など、様々な要素を総合的に考慮する必要があります。最も対策が急務とされる都市は、将来的な人的・経済的被害が最も大きいと予測される都市であり、早急かつ効果的な対策を講じなければ、取り返しのつかない事態を招く可能性があります。例えば、ホーチミン市のように、人口が急増し、経済成長が著しい一方で、海抜が低く、地盤沈下も進行しており、さらに大規模な対策プロジェクトが不足しているような都市は、特に高いリスクを抱えていると言えます。
500文字と2000文字の質問

以下の図は, 500文字の質問文に対する回答を基準に, 質問文 (クエリ) の文字数を変えたときにどれくらい解答の精度が下がるのかを表したものです。精度に関してはGemini 2.0 Experimentalが評価しています。Perplexity Proは長文でも精度が比較的落ちませんでした (85%)。

質問の文字数による精度の減少 Perplexity, Felo, Genspark

2000文字のときはGenspark, Feloで0%としていますが, これは単純に要求値が高く, エラーとなり処理自体が出来なかったことを意味しています。

Gensparkは1000文字を超えるとエラーがでる

一方, GPT SearchとGemini 1.5 deep researchは2000文字の質問文でも忠実に回答を行い長文での対応力が高いことが予想されます。

ここでもGPT, Perplexityの総合的な使いやすさ, スマートさが目立ちます。

Gemini 2.0の考察

というわけで本記事では『500文字程度』の質問で固定し, いろいろ検証していこうかと思います。

適切な文字数, 上限について
1000文字以内にすることが望まれる。
しかし, GPT Search, Gemini 1.5 Pro with deep Researchでは2000文字の長文でも安定した回答が見られた

文脈 (コンテクスト) の維持:前の質問を覚えているのか?

現在のAI検索は基本的にチャットセッションが独立しており, 新しい質問をすると過去の質問は忘れて (リセットされ) , 新たな検索結果をもとに回答が生成されます。

一方, GPT Searchは過去の会話履歴, 例えば『東京在住である』, 『将来北海道に引っ越し予定である』『どのようなことに興味があるか』などすでに伝えていればそれらを考慮にいれたリサーチ, 回答生成がされます。

Deep Researchも過去のやりとりを覚えています。

Perplexity AIに同じような質問をするとある程度過去の文脈は記憶しているものの, 情報が不正確であることが多い印象でした。

Feloはうっすら覚えているようです。以前のやりとりを忘れて, まったく考慮しない回答や, 

Felo: 現在東京に在住, 北海道に引っ越し予定という事実は記憶していた

しっかり覚えていて, それを生かした回答をするという挙動を確認しています。

Felo:以前のやりとりを元にした回答が生成された。

文脈の保持
基本的に質問は独立しており, 原則, 会話ごとにリセットされる。
ChatGPT Search, Gemini 1.5 pro with deep researchは過去の文脈を考慮した回答が生成される。

※DeepSeek R1 もある程度文脈を継承しつつ, リセットし一から検索, 回答生成をしなおしていました。

クエリ:
さきほどのSchafferの論文をもう少し, 詳しく教えてください。

人物は維持し, 別の文献の話をしだす…

別の文献を説明

ソースの選び方?:どのようなサイトを検索しているのか?

AI検索エンジンが実際検索, 参照するソースのページは, イメージとして, インターネットで検索して出てくるホームページのうち我々がそのサイトに登録や課金などを行わず自由に読める部分と認識しておけば良いのかなと考えます。インターネットの全ページを以下の3つの層に分類してみました。以下の3つの層のうちAI検索が検索できるサイトは『1層目と2層目』です。

Layer1: Web page layer
Layer2: Open but Unstructured layer
_____ここから下は閲覧不可_____
Layer3: Specialized/Restriced layder

1層目と2層目はいずれもオープンアクセス, 基本的に無料でだれでも閲覧できるサイトで構成されています。1層目は企業の公式ホームページ (Open AIなど), Wikipedia, 個人のブログ (Wordpress, note, はてなブログ), 知恵袋など基本的にテキストファイルが多いサイト群としました。2層目は無料で閲覧できますが, AI検索視点, ページが構造化されていない, メインのコンテンツが動画や画像, ppt slideなど直接参照が難しい群としました。具体的にはYouTube, slide share, x (twitter), Google Patent などです。

Exploring the Layers of AI-Accessible Websites

第3層目はネット上に存在するがAI検索が直接参照することは困難なページの群です。リクナビ (会員になる必要がある), New York Times (AI検索が参照しにくい仕組みを搭載している), 学術雑誌 (一部オープンもあるが..), 有料note, 企業のデータベース, 公的機関に収められている個人情報などです。

Classification of Web Access Layers From Open to Restricted Data

AI検索がソースとする記事
オープンアクセスの記事。無料で会員登録や課金が不要な誰でも閲覧できる記事。代表的なものはWikiや企業, 公的機関のホームページ, 個人ブログ。YouTube, 特許サイト, x (Twitter) なども自由にアクセスできるが, 動画や画像ファイルが主な媒体であったり, ホームページが非構造的であれば参照しにくい。

各ツールの実際のサイトの選び方

具体的にどのようなサイトが選ばれているのか, 内部のアルゴリズムは非公開であり, 検証するのは非常に困難です。ここでは各ツールで大きな違いがみられた点のみを報告します。大きく分類すると① Perplexity ② Felo ④ Gensparkと③ GPT Search, ⑤ Deep Researchで挙動が違うことが分かりました。

ニワトリ『どの店 (ソース) に行こう (検索) かな? 』


① Perplexity ② Felo ④ Genspark の3つの検索AIは基本的に従来の検索方式 (GoogleなどSEO: search engine optimizaitonに準拠した)  で選ばれるサイト, userの自然言語のクエリ (質問文) に合致した回答が含まれるサイトが選ばれていると予想します。イメージとしてキーワードが合致していればそのまま選ばれている感じです。

一方, ⑤ Deep Researchはキーワード検索をそのままというよりも, biasなしでフラットに一から考えるという姿勢が垣間見られています。というのもとにかく, 公式情報, 海外のサイトの一次情報が特に多いと感じました。

Felo にサイト指定検索ができるかどうか聞いたときのソース

定量的な評価ができずに残念ですが, 飽くまで体感的な話をしますと, Deep Research (GPT Search) は信頼性を評価する内部のアルゴリズムが非常に優秀であると個人的には確信しています。前者3つのAI (① Perplexity ② Felo ④ Genspark) はキーワードが一致していれば, 個人のブログでもソースとします。しかし, Deep Research は信頼性が高いサイト (いわゆるエビデンスレベルが高い) を優先的に参照します。

Evidence Reliability Pyramid Differentiating Research Approaches of Felo Pro and Gemini Deep Research

さらに驚くことにDeep Researchはブログをソースにしていても, それを鵜呑みにせずにファクトチェックのようなプロセス (単純に論証能力が高い話と思いますが…) でそのまま引用せずに, 正しくないと言う現象を多く確認しています。別のChapterで『コンサル企業の倒産とAIの台頭』をテーマにリサーチしたときに顕著に差が表れた例を解説しています。

AI検索が好む文章の長さについて

非常に興味深い結果がでました。以前から提唱していました仮説が実験によって正しいかもしれないことが判明しましたので報告させていただきます。私が書いた40本ほどの記事のうち, 極端な3本についてです。具体的には今回の検証に使うことを想定してAIに向けて書いた超長文記事2本とGoogle検索されやすい1本の記事の比較となります。

一般的に人が読む文章, 特にnote記事の場合1000-2000文字が適切で何万文字の超長文は避けられる存在です。通常の検索エンジンやAI検索に検索されることはほとんどありませんでした。

長文は労力が大きいわりに, 印象も悪く, 読まれない。良いことはない (今のところ)。

しかし, 来るべきAI検索時代ではAIが書いた長文記事, もしくはAIがアシストした人間による記事が量産され, AIにとって文章が長くて読み疲れるよりも, 内容が詳細である方が重宝され長文であることが結果的に評価されるということが一部指摘されています。

一方以下の記事 (学会発表用パワーポイントスライドを作成) は対照的でたまたまGoogleで検索ワード上位に来る, SEOに強い記事で検索エンジンから数万人来訪しています。

現在のPerplexityなどのAI検索に以下のリクエストをした場合

クエリ:
AIの学会利用 学会発表のスライドをAIを利用して作成したいです。

基本的にSEOにつよい記事を検索しがちでこの記事をソース参照します。

しかし, 同じ質問文を最新, AI検索である Gemini 1.5pro with Deep Researchに投げかけたところ, この記事が参照されることはありませんでした。この記事は結果としてSEOに強いだけであり, 内容的にも詳細ではなく, 時代遅れ感があるため, 検索ワードトップというのには私自身もやや違和感を感じていました。

AIに向けて書いた記事2: AIに検索される記事作成完全ガイド

本題ですが, AI向けに書いた記事は全く対称的な挙動を示し, 通常の検索, AI検索 (Perplexity, ChatGPT, Felo, Genspark) にはhitせず

AIに向けて書いた記事1: Soraが描く動画の世界

唯一, 最新のAIのDeep Researchにソースとして引用されていました。

Deep Research
Deep Researhのレポート
Deep Research

数十記事での挙動を述べただけで, 統計学的には不十分ですが, 自分のなかでは仮説が正しいという根拠の一つになり得ると考えました。

まとめ
Perplexity, Felo, GPT Search, Gensparkでは現在の, SEOに準拠した記事, サイト (Googleで検索上位にくる) が選ばれやすい。そのような意味ではnoteなど個人のブログでもソースとして選ばれる可能性がある。本検証の結果からは, Deep Resarchは独自のソース選定法であり, 実際の記事の質を見ている可能性があり, 人間には避けられる長文であっても, 論理構造, 質などが十分であればソースとして選んでいる印象。

プロンプトのこつ:AIに伝わりやすいプロンプトについて

普段のAI使用と同様, 質問者の意図が伝わらなければまとはずれな回答になることが多々あります。あいまいなプロンプトであればAI検索は『目的の情報』から『はずれた』ソースを参照し, 結果的にuserの欲しい情報が得られず, 一方, 適切なプロンプトであれば, 効率的に目的とする情報に到達すると思われます。

Fishing for Information. Using effective prompt to improve AI search 『ウギャ』って言いました。

・自然言語を用いる良い例, 用いないダメな例




・解釈が多くとれる質問はNG
リサーチで最も有用なAIは何かを聞いてみます。前後の文脈や現在の日本でリサーチという言葉がいわゆる検索AIを指すことがあるという前提条件があれば答えられるかもしれません。

クエリ:
2025年1月の時点でリサーチで最強のAIを一つ教えてください。
例 Open AI o1 proなどのように いつのモデルか分かるように表記。

しかし単純にリサーチAIと聞くだけでは, リサーチということばが広い意味で情報を探すという解釈で従来のLLMを回答しました。

Felo はo1pro, Perplexityはo3 (未リリース) と回答
クエリ:
2025年1月の時点でリサーチ (Perplexityのようなリアルタイム検索エンジン) で
最強のAIを一つ教えてください。
例 Open AI o1 proなどのように いつのモデルか分かるように表記。

するとPerplexityとFeloはそれぞれGemini deep research, Perplexityを選びましたが, GPT, Deep research などは検索意図が伝わらなかったです。この時点で質問の仕方が悪いということです…

クローズド (選択肢を与えてその中から選ぶしかないような) な質問にします。

クエリ:
20251月の時点でリサーチ(Perplexityのようなリアルタイム検索エンジン) で
最強のAIを一つ教えてください。例 Open AI o1 proなどのように 
いつのモデルか分かるように表記。
① Perplexity ② Felo ③ ChatGPT Search ④ Genspark ⑤ Gemini Advanced 1.5 Pro with Deep Research ⑥ DeepSeek から一つ選んでください。

最強のリサーチAI 2024冬
                                 選んだAI
1. Perplexity      Deep Research
2. Felo                       Perplexity
3. GPT Search            Deep Research
4. Genspark               Genspark
5. Deep Research       Deep Research
6. DeepSeek               DeepSeek

Deep Researchが3票と最も多かったです。私が今回行った検証で特に優秀と感じた DeepResearch, GPT, Perplexityの3AIがDeepResearchを推奨しているということで結果に異論はありません。

Gemini 1.5 Pro deep researchがチャンピョンです。

・背景をしっかり理解させる必要がある


・具体例を提示
最適解 Midjourny→Runway gen2


AI検索が期間指定してサーチできるかという質問です。例えば2020年から2025年の5年間に投稿された記事を検索したいとき, その期間を狙って検索できるかという質問です。NGのクエリは一見, 詳細に伝わりそうな文面ですが今く伝わらない例です。

NG:

クエリ:
AI検索エンジン アップロードされた期間を指定して検索できますか?
ソースの記事が言及する年ではなく, 実際にその記事が公開またはアップロードされた年のことで, 
そのソースが後年に振り返って書かれたものではなく該当期間にアップロードされたものを検索されているのかという質問です。

ソースを確認するとAI検索エンジンが一般的な呼び名ではなく, GoogleやBing検索も一応広い意味で『AI検索』に含まれているため, そのように認識していました。

DeepResearch 的外れな回答

具体例 を追加したクエリです。 AI検索 (Perplexity, Felo, Gensparkなど) として, 他は一切変えていません。

Good :

クエリ:
AI検索エンジン (Perplexity, Felo, Gensparkなど) アップロードされた期間を指定して検索できますか?
ソースの記事が言及する年ではなく, 実際にその記事が公開またはアップロードされた年のことで, 
そのソースが後年に振り返って書かれたものではなく該当期間にアップロードされたものを検索されているのかという質問です。

こちらは200以上のソースをリサーチし極めて具体的かつ, 正しい回答が得られています。

DeepResearch 正しい回答





・場合によっては検索範囲を指定する必要がある。

珍しくDeepReseachのみが回答できなかった事例です。以下のようなクエリを要求しました。

クエリ:
〇〇区に引っ越ししてきました。住所の変更, 免許証の更新など一日ですませたいです。
スケジュールを作成してください。

強烈なハルシネーションがでてきました。原因としては明らかにソースが少なかったことです。

より多くのソースを検索するように以下の指示を追加すると正しい答えが得られました。

〇〇区役所, △△警察署のホームページなどを参照してください。


まとめ: 複雑なタスクの時, 精度が上がるプロンプトの構成要素

これまでの検証 (時系列的に後のChapterで解説するかもしれませんが) の結果, 単純なタスクの場合, プロンプトを詳述する必要がありませんが, 複雑なタスクの場合, 大きく差がでることがわかりました。例えば『明石家さんまさんの本名』『激烈バカの作者』など検索意図がはっきりしており, 複数ソースの参照がそれほど必要ない場合はoutputに差が少ないと思われます。





プロンプトのこつ
検索AIでは従来の検索エンジンと基本的に同じような感覚で自然言語で500文字以内で意図を伝える。しかし専門的な情報を検索する場合は注意が必要。DeepSeek, Gemini 1.5 Pro Advanceでは500文字を超えてでも検索意図, 背景が伝わるようなプロンプトの方が良い。

参照箇所:検索したソースのどの部分を読んでいるのか?

現在のAI検索エンジンはこれまでの挙動からSEO記事の従来検索と基本的に同様の考え方を適応します。従来検索ではタイトルと見出し (noteでいうところの目次), リード文をメインに参照します。その他, キーワード検索の周辺のテキストを重点的に読み込んでいます。

それに加えてAI検索では何が得意 (AIが検索後に重点に参照して読み込んでいる箇所) で何が不得意かを説明したいと思います。noteの自分のプロフィールをAI検索に聞いています。

note プチpony どのような記事を書いているか, 何本書いているか, フォロワー数やスキ数など
教えて下さい。

記事のタイトルやプロフィールなどのテキスト情報は基本的に参照できます。

しかし, フォロワー数やスキ数などの動的データ (バックエンド) は直接参照できずに回答出来ません。

たまたまAI検索がそのクリエイターのフォロワー数などに関して, テキスト文章で言及しているページをみつけることが出来れば回答も可能です。

Feloはソースの中にnote 人気ランキングという, フォロワー数などをテキスト情報でまとめているサイトを偶然みつけてきたため回答が可能でした。

Feloのみがこのサイトを見つけてきました。今回初めて存在を知りました…

下に記事内でAIが参照得意な項目 (赤文字), 苦手な項目 (青文字) で分類しています。繰り返しになりますが, 見出し, リード文, 本文テキストは直接参照することが可能で, 逆に不得意な項目として, 記事内に埋め込まれた画像ファイル, 動画ファイル, パワーポイントなどのインフォグラフィックス (図解) が挙げられます。

そのような観点から, YouTubeなど無料サイトであっても, メインコンテンツが動画の場合, AI検索はその内容を正確に把握できません。また, Google Patentsなどの特許情報は特殊なフォーマットのPDF, 画像ファイルが情報のメインなのでAI検索は正しいソースを検索できたとしても, 内容の詳細を正しく理解していないはずです。

Slideshareなど, プレゼンテーションファイル, インフォグラフィックス (図解) をまとめたサイトも同様の考え方でメインコンテンツが単純なテキストファイルなのでAI検索は内容を正確に参照できないと予想します。

※ 唯一, ChatGPT Searchは表層のメインコンテンツのみならず, 内部の埋め込みデータ? に入りこんでいる可能性があります。

クエリ:
ほっかほっか亭 唐揚げ弁当 塩分

私の昨日の昼食である, ほっかほっか亭のから揚げ弁当 (ごはん大盛) の塩分をAI検索したところ, Deep Research, Gensparkでさえも見つけることができませんでした。

Deep Research

ところが, GPT Searchは塩唐揚弁当 5個の食塩は3.5gと回答しました。しかもソースは公式ページのアレルギー成分表とのことでした。

実際, その成分表をみるためにはページに訪れ, 埋め込まれているPDFの内部を確認する必要があります。

公式ページ PDF内の表記 3.5 g 

Google検索で偶然, 見つけることができた以下のテキスト情報の塩分は4.7gと2.9gは公式情報から外れています。

またある検証 (データ検索) で, ジャンプの発行部数の検索をリクエストしたとき,  プルダウンで期間を選ばないと通常は到達しない情報がChatGPTによって得られています。

GPT Searchの回答
日本雑誌協会 2014年4月-6月:data を見るためにはプルダウンで期間を選ぶ必要がある

GPT自身, カテゴリを選択したと述べていますが真相は不明です。直接プルダウンからそのページに侵入しなくても, ほかのページにたまたまその期間の発行部数を言及しているテキスト情報があれば回答することが可能です。また, GPTの回答は2701042部で実際の部数は2677500部と微妙に数が違う事からも信憑性がやや下がります。

GPTの回答:カテゴリを指定して検索し情報を取得したと返答

いずれにしてもGPT Searchは他のAIに無い何かを持っていることは確かです。

まとめ
AI検索は参照したソースのどの部分を読み込んでいるのか

得意:テキスト情報 (タイトル, リード文, 見出し, キーワード周辺) を直接言及したホームページのメインコンテンツ

苦手:記事数, 再生数, リンク数, イイネ (スキ) 数, フォロワー数などのバックエンド動的データ, 埋め込まれたもの, 例えば, PDF, 動画, 画像, パワーポントなどのインフォグラフィックス(図解) ファイル 

参照文字数 (オーバービュー):検索したソースの何文字位を読み込んでいるのか?

では次に具体的な文字数に関してですが, 現時点でのAI検索では従来検索と同様の文字数参照をしていると仮定しています。検索したソースの一部を参照, ざっくりとオーバービューしていると思われます。 

AI検索『重要なのは早くて効率的な全体像の把握』

しかし, いずれコンピュータ業界全体が進歩すれば, 実質無尽蔵の文字数でも参照する可能性があるかもしれません。これに関する考察は以前の記事『AIに検索される記事作成完全ガイド』をご覧ください。

AI検索が実際に参照している文字数の推定
1万文字の記事をAI検索が解析した場合, 10〜12.5%の割合で以下の文字数が参照されると予想:
① 冒頭部分 (リード文) : 約200〜300文字
② 見出し+関連部分: 約300〜500文字
③ 本文 (検索ワード関連セクション): 約500〜700文字
合計:約1,000〜1,250文字 (10-12.5%)

AI検索が実際に参照している文字数の推定
※この数値は実際ソースがあるわけではありません。OpenAI o1proが従来のSEO記事で観察されるスニペットをもとに推論した値です。現在のAI検索は一部しか直接参照していないと思われます。しかし将来のAIでは重要なソースはかなりの割合の文字数を参照するのではと個人的に考えます。

ソース指定:特定のソースを検索するように指示できる?

プラットホーム (サイト) の指定
例えばYouTube内から, x (twitter) 内から, noteなどの特定のプラットホームからコンテンツを検索して情報検索できるかについてです。従来の検索たとえばGoogleで以下の式を頭につけると特定のプラットホームから検索を行う事が出来ます。

site:{対象URL} {検索キーワード}

noteからのみ選ばれたコンテンツ (記事) 
site: youtube.com Soraのアイデア
YouTubeからのみ選ばれたコンテンツ (動画) YとTはアドレス正式には小文字

Perplexityで同様のクエリを入力した場合, 比率があがりました。

クエリ:
site:note.com noteで Soraの活用アイデア探して
YouTubeのソースが多くなった。

しかし, 公式でサポートされているわけではなく, ある程度userの指示を考慮しての挙動と思われます。

note のソースが多くなった

似たような機能にフォーカスモードがありますが, いまのところ上手く活用できそうにはありません (いろんな意味で)。

Perplexity focus mode

その他, 特許を検索してみました。Google の通常検索で『Google Patents』に範囲指定して, 『猫のかたたき』が特許としてあるかどうか調べました。結果はもちろんなし。しかし本当にないのか検索の仕方が悪いのかどちらか分かりませんでした。

site:patents.google.com 猫の肩たたき
ニャー『気持ちいいニャー』

Feloでサイト指定したところ, 見事に特許サイト内からそれらしいものを見つけて, さらに要約してくれていました。あるんかい!と内心突っ込みました。

site: patents.google.com 猫の肩たたき
Felo で特許検索 

そもそも公式でサポートしているのかDeep Researchに調べてきてもらいました。

クエリ:
Felo は公式の機能としてプラットフォーム特化型検索機能はありますか?
Deep Research: Feloがプラットフォーム特化型検索できるかについて

これを4セット (Felo, Perplexity, Genspark, Gemimi deep) 繰り返し, Gemini 2.0にまとめてもらいました。

現時点では公式にサポートしているとは言い難く, 実用レベルを満たしていない。2025年1月

Gemini 2.0

恐らく今後, 公式対応してくれると期待しています。

コンテンツの指定
・ブログ (note) 記事 短文 (3000文字程度)

先ほどはプラットフォームの指定が出来るかについての説明でした。次はコンテンツの指定ができるか検証してみます。

プラットフォームとコンテンツ

自分が書いたnote記事のアドレスを渡して, それを直接読んで内容を理解しているのか検証しました。2年ほど前に作成した自分の記事を読ませて議論しています。
まずは探してきてもらいます。

クエリ:
プチpony 2年位前のグラフ作成AIの話の記事 
探してリンクください。
数字 (日付) は間違っていますが…
3000文字
クエリ:
以下の記事を要約してください。
https://note.com/chatgpt4graph/n/n2055bc9ff83a

いずれのAIでも的確に内容を要約してくれました。

Perplexity

記事 (ホームページ) の内容について, 疑問点などを聞くことが出来ます。古い記事なので, 今の状況と何が違うのか聞いてみました。この記事を作ったときは, AI (LLM) でグラフ作成は困難と考えていました。

(AIにむかって) できると言っといて何回やっても出来ないじゃないか。

この記事はなぜ難しいかを解説する考察記事でした。しかし, 数カ月後にはAIによって, ある程度の精度のグラフ作成が可能となりました。AIにどのように克服したのか答え合わせ的に聞いてみたいと思います。

クエリ:
この記事は2年前のもので, 現在と状況が異なります。
現在のAIではグラフ作成はどのようにかわりましたか。
この記事がトライしていた, 入院後経過のグラフ, 横軸に日数, 縦軸に検査データのグラフを
自然言語のやりとりのみで作成することは可能となりましたか?
ChatGPT内で完結して作成することが可能となりましたか?

記事投稿時の2年前と比べ, AIがどのように進化したのか, 記事で述べた問題点をどう克服してグラフ作成できるようになったのか, また, ChatGPTだけで具体的にどのように作成できるのか具体的に説明してくれました。

Perplexityの回答:非常に勉強になります。

・ブログ (note) 記事 長文 (3万文字程度)

次に長文記事のアドレスを渡してみます。前述のとおり, 現在のAI検索は記事全文を参照しているわけではなく, おおよそ文字数でいうところの1-2割程度の重要箇所を参照していると推測します。

note: AIに検索される記事作成完全ガイド 3万文字オーバー

多くのuserが勘違いしてしまうところですが, AIは全文を参照して要約しているかのように見えてしまいます。実際, この記事に関して簡単な質問をすればそれが明らかになります。

Perplexity

この記事を読むことでしか回答できない, かつ読めば確実に答えられる以下の質問

クエリ:
https://note.com/chatgpt4graph/n/nc245e5160b71
ここのサイトを参照してSIM, CLINの定義, 活用法を分かりやすく説明して下さい。

的外れな答えが返ってきます。

Feloの回答:note記事を読まずに生成した出力

この記事内ではCLIN(Context-Linked Information Network)文脈連携情報ネットワーク, SIM (Semantic Insight Markers) 意味論的洞察マーカーという独自の概念を語っています。Deep Researchにも同じように質問しましたが, 一般的なSIMカードの説明が載っているサイトを参照し的外れな回答を生成していました。

Deep Resarch

結論として特定の長文記事のアドレスを指定しても, 実用的な使用は困難でした。

・YouTube動画

次はYouTubeの動画を渡してみます。Feloが素晴らしかったです。質問したい動画のアドレスのみを入力します。この動画はOpenAIの公式動画, 『動画生成AI Sora』に関する動画です。

動画生成AI Soraの使い方に関する公式のビデオガイド
クエリ:
https://www.youtube.com/watch?v=360ZqfabuPQ

Soraの使い方に関して, YouTube動画の内容を要約した文がFeloから出力されました。

Feloの回答

Feloの優れている点は, カーソルをそのソースに合わせると, 『字幕』がポップアップで表示されることです。これは使いやすい。

※ ここで注意したいことは, Feloをはじめ検索AIは, YouTube動画の内容自体を直接参照しているわけではなく, 『字幕』のテキスト情報をもとに内容の紹介をしているところです。というわけでそもそも字幕設定がされていない 動画は参照できません。

クエリ:
https://www.youtube.com/watch?v=HK6y8DAPN_0&t=178s

字幕が設定されていないOpen AI Soraの紹介ビデオ

・Youtube動画のシーン, 会話を特定して検索
本格スマホカードバトル『シャドーバース』のYouTubeにアップロードされた過去のゲーム実況動画から特定のシーンを含む動画を検索できるか実験しました。

このカードゲームの特徴は美麗なグラフィックのカードキャラが登場とともに特徴的なセリフを言います。人気ゲーム実況つるおかかものはし氏は, そのキャラクターのものまねをし, 人気を博しています (勝手に記事にしてごめんなさい) 。私も中毒的にとりつかれ過去に見た動画を定期的に見返しています。その際にAI検索を使うと便利です。

ドラゴン:すべてを飲みつくす伝説上の怪物。最近, 年を取りすぎたせいか嚥下機能や認知機能が低下し物体の飲み込みや新しい知識の飲み込みが落ちてきた。
DALLE3 prompt: A fantasy-themed dragon card with an elegant frame, featuring a powerful and majestic dragon in a swirling storm. The dragon has shimmering scales, large wings, and is set in a glowing, mystical environment. The design includes bold stats (7 attack and 8 health), a cost of 10, and text in a Japanese-inspired font on the card. The overall style is similar to collectible card games, with vibrant colors and high detail.

Perplexity, 通常の方法では見つけることが出来ませんでした。

しかし クエリに『字幕検索』と付け加えると見事にそのシーンをみつけることができました。

クエリ:
Youtube 字幕検索 つるおかかものはし 上司のものまね のみこむ
天災のジェネシスドラゴン『飲み込む!』 Cygames© https://www.youtube.com/watch?v=dqvghxtgBdY&t=1686s

あのシーンをみたいなとか, 特定のシーンの動画が無いか検索する時に使えます。

期間指定:特定の期間にアップロードされた記事をソースとして指定することが出来るか?

デフォルト設定では, 出来るだけ新しい情報をソースとして出すようになっています。期間指定することで敢えて古い情報を検索したり, 最新の情報を検索することができます。今回のテーマは未来人です。突如インターネット上に現れ, 未来からやってきたという彼らは果たして本物か?

2036年からやってきたジョンタイター:『第三次世界大戦は回避した!』

・従来検索での期間指定

Google検索で最新の情報, 例えば令和7年 (2025年) になってから (after) の記事が欲しい場合 以下のコマンドを頭につけます

after:2025-01-01
after:2025/01/01
after:2025-1-1

after:2025-01-01 Soraの活用アイデア と検索すると今年になってから投稿された記事がhitされます。

逆に beforeコマンドを追加すると 〇〇以前の記事が検索されます。
以下は 1月2日より前 (before) を意味します。

before:2025-01-02

afterとbeforeを組み合わせ 1月1日以降1月2日以前とするにはいかのコマンドを頭につけます

すると1/1-1/2の間に投稿された記事が検索されました。

・AI検索での期間指定は可能か?

クエリ:
after:2024-06-01 before:2024-06-30 2024年6月1日から6月30日にアップロードされた 
動画生成AI Soraの活用アイデア に関する記事

特定の期間にアップロードされた特定の記事は難しそうです。ある年のある一カ月間に投稿された記事を探すようにお願いしたが駄目でした。条件を微妙に変えたり, 他の検索AIで変えても駄目でした。

Perplexity 

要求値を下げてみます。西暦2000年の記事何でもとお願いすれば, 出てきます。これは記事の中にテキストで『2000年』と記載があるためで, 実際に投稿された年を認識しているわけではなさそうです。

恐らく, 公式的にサポートされていません。Deep Researchに調べてもらいました。

クエリ:
after:2025-01-01 before:2025-01-02 クエリで種々のAI検索 (Perplexity, Genspark, Feloなど) に
入力し 2025/1/1-1/2 の期間にアップロードされたソースをもとに回答するか試しましたが
うまくいきませんでした。Google検索であるようなこのような使い方は公式的にサポートしていませんか。

いずれのAIのそもそもこのような機能はないと回答がありました。

オマケ:冒頭の未来から来たと主張していたジョンタイターの年表をWikipedia baseでGPTに作ってもらいました。この年表は過去の多くの情報をもとに『2025年』現在に作成したものです。

Timeline of John Titor's Appearances and Key Predictions

アメリカの大手ネット掲示板 (詳細不明) に2000年11月3日, 『2036年から来た』と書き込みがありました。

『私は2036年の未来から来た。』

振り返って当時を記述するのではなく『2000年』当時にアップロードされた, 当時の書き込みやその年の他の人が書いた関連記事を検索できるのか調べてみます。 

クエリ:
ジョン・タイターが11月3日, ネット掲示板に初めて書き込み。
2000年11月3日。「2036年から来た」と名乗り, タイムトラベルや未来の状況について語り始める。 
具体的にどこの掲示板ですか?
その際, 記事が言及する年ではなく, 実際にその記事が公開またはアップロードされた年に基づいて回答してください。
ソースへのリンクを提供してください。
その記事が後年に振り返って書かれたものではなく該当年 (2000年) にアップロードされたものを選んでください。

クエリやAIエンジンをいろいろ試してみましたが, 全く無理でした。

しかし, 普通に英語版のジョンタイターのウィキペディアに訪れると, 『2000年』に書き込んだとされる, 掲示板へのリンク (アーカイブ) がありました。

Wikipedia : John Titor

以下の掲示板は2000年10月23日にPaulさんが, タイムトラベルのパラドックスについて議論する掲示板を立てました。

John Titor’s Alleged Posts from the Year 2000_1.jpeg

しばらくすると (11月2日, 1日ずれているが…気にしない), Timetravel_0というハンドルネーム (中身はジョンタイターその中身は偽物のジョンタイター) の書き込みがありました。突如, 自分語りを始めます。

John Titor’s Alleged Posts from the Year 2000_2.jpeg

ソースのアップロードされた期間指定:
現時点でAI検索でソースがアップロードされた期間の厳密な指定は『できない』。ソースのテキストで具体的な時間を表す単語があればそれを検索するかもしれないが, 実際にそのコンテンツがアップロードされた時を表すわけではない。
現時点ではGoogle (従来検索) の期間フィルタリング検索使用がお勧め。

曖昧な情報から名称, 作品を当てる能力

曖昧な記憶から目的とする名称を検索したいと誰しも思ったことがあると思います。幼少期に見た, 映画, 漫画のタイトルなどたまに何だったかなと思い出したいことがあります。しかし, 記憶が曖昧過ぎて, 間違った情報が記憶にあり, 従来検索ではそもそも検索できずに終わることもあります。AI検索エンジンではそのような検索はもってこいだと思います。

タイトルが思い出せない

子供の時にみたSF映画で魔王? が城にいるシーンだけ覚えていました。ネバーエンディングストリーやウィローではないことは確かで, その他にはほとんど覚えていないという無茶ぶりで洋画のタイトルを答えてもらいました。GPT Searchのみ一発で正解しています。さすが。

クエリ:
映画のタイトル 昭和のSF映画 少年が主人公 ネバーエンディングストーリーやウィローではない。
迷路が出てくるがラビリンスではない。赤いローブの悪者が城にいる。
GPT Search 御名答

このような質問はAI検索エンジンの能力を測定するには良問だと思われます。面白くなってきたのでいろいろ質問してみます。世にも奇妙な物語 (©フジテレビ) のマイナー作品で場面だけを言って, 答えられるか試してみました。

1992年 『城』

大企業に書類を持っていくだけのはずが, 会社が大きすぎて各部署をたらいまわしにされ一生でられなくなる話です。

クエリ:
世にも奇妙な物語の題名を教えて下さい。大企業へ出張し, 各部署をたらいまわしにされて一生が終わるはなし。
Perplexity なしと回答

唯一Deep Researchのみ正答しました。さすが。

1996年『熊の木本線』

田舎へ旅行へ行き, 宴会でみんなが替え歌を歌う。主人公が歌った歌が忌歌 (いみうた: 災いを呼ぶ歌) で日本に不幸が訪れるとだまされた話です。こちらは全AI不正解でした。

Perplexity 不正解
1991年『夢を買う男』

1950年代, ロバート・シェクリィの短編小説「夢売ります」が原作。個人的に世にも奇妙な物語の最高傑作, 世にもだけではなく, あらゆるショート動画で最高かもしれません。子供の時に見て, 何となく面白いなと思い, 大人になって見返すと再び衝撃を受けました。ある種シミュレーション仮説の先駆的な作品かもしれません。

鋭意制作中 ■note: シミュレーション世界に住んでいる確率■

Perplexityはこのような質問は苦手なのですね, またまた不正解。

Perplexity

唯一, Deep Researchのみ正解しました。さすが。

名誉挽回のため, ヒントを多くだして漫画のタイトルを答える問題を出題しました。バトル漫画でオカルト要素が多く含まれ, ストリートファイターIIのベガのモデルも登場しています。

『力王』©猿渡哲也氏 集英社
Perplexity 不正解

ヒントの多さの割に意外と正答率が低く, Gensparkのみ正解でした。

Genspark

問題が偏っているという意見はあると思いますが, 個人的にはDeep ResearchとGPTのリサーチ力が高い印象でした。

Perplexity『…』

海外のソースは充実しているため洋画はマイナーでも見つけやすいと思います。日本の作品はLLM黎明期から指摘されているとおり, baseの知識 (training data) が少ないことも関係して, 正解に到達しない可能性を考えます。いずれにしても, 一つのAI検索エンジンに頼らず, 複数AIを組み合わせるのが良いと思います。

『今日は帰らないぞ! (言ってしまった..)』
クエリ:
世にも奇妙な物語のタイトル教えて。おでん屋の屋台で主人公が奥さんに『今日は帰らない!』みたいな宣言をすると, 家に帰られなくなるはなし。家に帰るために道を曲がると, スタート地点に戻ってくる。

出力形式の指定

通常のテキストに加え, リンクアドレスや図表など特殊な形式で回答を指定できるかに関して検証をしました。内容が多いため泣く泣く独立したChapterにしました。

AI検索『所望の情報を与えてしんぜよう』ワイ『〇〇の▲▲』AI『ちょっとそれは著作権侵害にふれるので…』

今後, 一つの記事, 書籍になるくらいの膨大な情報が必要になるのではと個人的に考えています。この機能を使いこなすことで, 検索の幅が劇的に上がりそうです。
※ソース, 検索範囲の指定として, 検証結果は主に自分が書いたnote記事のものが多いですが, もちろん, その他のネットのページも検索しました。

従来検索との大きな違い

従来検索は入力したキーワードからホームページのリンクを検索してuserに教える機能です。一方, AI検索は入力した, 質問文をAIが検索の『意図』を読み取り, いろいろな形式 (テキストや表, 画像などさまざまな表現方法) で回答を生成します。対称的な具体例で説明したいと思います。私が以前投稿した記事の中に架空のゲームブック (小説?) のタイトルを造語しました。この言葉を『検索』できるかどうか実験してみました。

Microsoft Bing (従来検索) でドラゴンヴァイルバインドサーガと検索してみます。従来の検索方法では, キーワード検索の仕組みから『キーワード』に一致したホームページを検索エンジンの上位に登録されているものから順番に提示します。

どのようなものが, 上位に登録されているかというと, そのホームページが信頼できるもの, 知名度の高いもの, userによく読まれている良質なコンテンツが優先的に選ばれます。『ドラゴンヴァイルバインドサーガ』という名称は知名度が低すぎるため検索結果に選ばれませんでした。その代わりに検索ワードに含まれている, 『デュエルマスターズ』というカードゲームの『ドラゴンサーガ』という固有名詞が含まれているサイトが代わりに選ばれました。

そして, 検索後, 我々にそのホームページへの『リンク』をくれますので, その中から, 読みたいと思う記事を実際に選んでそこへ訪問します。

従来検索の出力形式:
信頼できるかつ良質なホームページへのリンク集

一方, AI検索に同じような質問をします。各AIによって解釈が異なり, いろいろな回答が生成されます。まずはChatGPT Search。userがこの名称が何なのか調べる, いわゆる疑問の解決のための入力と検索意図を読み取り回答を出力したと予想します。検索によって『ドラゴンヴァイルバインドサーガ』が存在しないと判断し, もしかして, デュエルマスターズの『ドラゴン・サーガ』と勘違いして質問しているのかとGPTは考え, そのような内容のテキスト文章を出力しました。

Feloへの回答はファンタジーSFゲームのタイトルとのことでした。プレイヤーはドラゴンを操作してターン性で戦略的な要素が強調されていると極めて具体的に実際存在するかのようないわゆるハルシネーションを出力しています。具体的な文章にも関わらずリンクが形成されていないのもマイナスです。回答に使われた, ソースを見てみると私の記事も含まれていましたが, 大半はドラゴンやサーガの単語が含まれた有名3Dゲーム, ファンタジー小説でした。

Feloの出力:ハルシネーション

レースゲーム…似ている名前のゲームが実際あるのですね…

そのハルシネーションをもとに画像生成したゲーム『ドラゴンヴァイルバインドサーガ』面白そう。やってみたい。

AI検索の出力①:
検索意図を反映したテキスト, 文章による説明文

リンク形式

先ほどの質問でPerplexityは100点満点の回答でした。そのような具体的な情報はないとした上で私の記事へのリンクを生成してくれていました。使い勝手としては, Google検索にAIによる, 説明のガイドがついたようなものです。そして, ソースのリンクも正しく作成してくれています。

AI検索の出力②:
ホームページへのリンク

・解説記事へのリンク集
リンクの作成は今後のAI検索を行う上で最も効率化を促すアプローチの一つなので個人的にも便利なテクニックを習得しておきたいと考えています。テーマをいろいろ変えてみます。まずは『動画生成AI Sora』の使い方を学びたく, そのような解説記事をAIに探してもらいたいという設定です。以下のクエリを各種AIに投げかけます。さきほどのBlend (結合) 機能について解説しているページを探したいです。

クエリ:
SoraのBlend機能に関する解説記事リンク集

Gensparkを除き正しいリンク集が作成され, 実際にクリックするとそこのページを読むことができました。Gensparkは一見それらしいoutput, 文字も青で本格的でしたが, クリックしても反応しない, 使えないものでした…

Genspark先生だめじゃないですか! それらしいリストを作ったがハイパーリンクが形成されていない…

深掘りしていきます。より専門的なBlend機能を解説した記事のリスト作成をリクエストします。

SoraのBlend機能に関して, 秒数がどのようになるかを解説した記事
Blend前の動画の秒数とBlend後の秒数について言及している記事なんでもいいので。
そのような解説がある記事のリンク集

Gensparkは100点の回答です。回答がかかれている記事を見つけることが出来リンク作成されていました。また回答にはつながらないが, 関連する情報を提供するページのリンクが作成されていました。

Genspark

GPTとPerplexityは答えが見つからない正直に答えた上で, 関連するサイトのリンク集をくれました。80点。

Feloは質問の意図を理解しておらず, 回答がない。リンク先も関連性が比較的乏しいサイトのみと残念な結果でした。30点。

・論文の参考文献リスト

論文作成時の参考文献に限らず, 今後, AIによる情報過多時代では研究において関連研究のリストの作成は極めて重要な行為と考えます。体感, AIによるリストの自動作成は実用レベルとしてはあと少しと感じています。現時点で知識の整理をすることは意義があると思われます。ここでは学術研究, 研究開発で想定されるリスト作成を各AIで比較検証してみます。
※単純な検索能力はAIアシスト論文検索特化ツールが有用だと考えます。飽くまで横の比較 (①-⑥のAI検索の性能比較) ととらえて下さい。

① 存在証明
② 問題解決

論文タイプを無理やり2つに分けてみました, それによって, リスト作成が容易になるわではありませんが, 全体像を比較的分かりやすくすることができました。
① 存在証明 :エビデンススキャナー

エビデンススキャナー:Evidence Scanner

特定の現象, 理論, 物質, 統計データ, 症例などAI検索の視点からものごとが存在するかどうかに重きを置く論文です。人間視点からは, 先行研究があるのかどうか, 比較的単純な知識の統合などに使用します。

症例報告 海外の論文 インフルエンザと新型コロナウイルス (COVID19) の重複感染
AMAスタイルで 参考文献のリストを作成してください。リンクもください。

Perplexity, Deep Researchは忠実にリスト作成してくれました。ただリンク生成があまかったです。Perplexity, Pro サーチにするとその問題も解消されていました。

GPT, Genspark, Felo Pro (deep) 論文検索はハルシネーションがあったり, リンクが形成されていないなど, user の意図を反映した結果は出ませんでした。

Genspark 存在しない論文, リスト, リンク

分野テーマをいろいろ変えてみます。
分野:工学 (光学) 

フェムト秒レーザーを用いた透明材料の加工研究 
熱影響ゾーン(HAZ: Heat-Affected Zone)の幅に関する研究 
海外の論文 参考文献のリストを作成してください。
リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。

Perplexity は実際存在する論文のリストを正確に提示してくれています。欲を言えば論文が最新ではないところですか…Pro検索にすると微妙にテーマが違う論文が提示されています。

GPT, Felo, Gensprakは先ほどと同様, 嘘の論文であったり, リンク形成不十分が多数でした。

GPT Search

分野:量子力学 有名論文を4つ指定してリスト化です。当方実際, 以下の記事を作成するときにPerplexityを用いて検索&表作成しました。

二重スリット実験の代表的な論文4つ下さい。
1. ヤングの実験 2. メルリの単一電子の実験。3. ウィーラーの遅延選択実験 4. キムの遅延選択量子消しゴム実験 
なければそれに近い論文
参考文献のリストを作成してください。
リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。

Perplexityは申し分なし。GPT, Felo, Gensparkはリンク形成のみ不十分でリストは出来ていました。有名論文の場合はリスト作成は安定して作成できると予想します。Deep Researchに関しては量, 質は異次元で単なるリストでとどまらず, 壮大なリンク付きレポートでした。

私 (プチpony) の記事がDeep Researchの実験にカウントされている『量子力学の基礎を理解する上で役に立ちます』と評されました。そもそも実験なのか!? それにしてもうれしすぎます!

② 問題解決:ソリューションサーチャー

ソリューションサーチャー:Solution Searcher

分野:医学
ある疾患の病態, 機序, 理由について解説している論文

クエリ:
ウイルスやスピロヘータ感染時に抗NMDA受容体抗体が惹起される機序について 
海外の論文 参考文献のリストを作成してください。 
リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。
Felo (deep) 論文検索 : そもそも検索意図を理解していない, ハルシネーション多数など

最近, 自分の中のハルシネーションチェッカーが働き, 以下のリストを見た瞬間にハルシネーションと分かりました。なぜなら, このようなマニアックでかつ, 要求を満たした完璧なタイトルリストは存在するはずがないと直感 (過去の経験と知識からくる論理的な話ですが) が働きました。

Genspark: 壮大な偽造 よくもまあ, ここまで作ったなあと 罪深い (実際存在するか確かめるために, 時間を浪費したので….) 

一方, Perplexity, GPT, DeepResearchは安定の出力でした。特にDeep Researchは正確性のみならず周辺情報の提供など, 時間節約という意味でこの時点でエージェントと呼んでも良いかもしれません。

Deep Research恐れ入りました。

分野:光学, 材料科学
デバイスの性能向上に関する新しいアイデアを提案する論文

クエリ:
フェムト秒レーザーを用いた透明材料の加工研究
熱影響ゾーン(HAZ: Heat-Affected Zone)の幅に関する研究 
熱影響を最小化しつつ加工効率 (スループット) を高める新しいアイデア 
海外の論文 参考文献のリストを作成してください。リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。

要求値が高すぎたためか, ①-④のAIはハルシネーション, 検索意図を理解していないまとはずれな論文を多く含むリストでした。DeepResearchはリスト自体は古い論文で構成されており, その意味では検索意図を満たしていないと言えるかもしれませんが, いくつかの論文は2024年の最新の論文で内容に答えるものでした。素晴らしい。

DeepResearch

分野:AI, 医療
病歴要約の質向上に関してプロンプトエンジニアリングの利用

クエリ:
プロンプトエンジニアリングで病歴要約自動作成, 質を高める研究 海外の論文 
参考文献のリストを作成してください。リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。

そもそも, 病歴要約の『自動化』自体あまり論文ベースで話は聞かなのでそもそもほとんど存在していない可能性があります。唯一, DeepResearchが無いと答え。他のAIは強烈なハルシネーションなど出力しています。悪魔の証明, negative reportという観点で今後AI検索は有用となると考えます。

分野:量子情報

クエリ:
量子コンピュータの環境からのノイズを克服する方法, 新しい計算法 アプローチ 
海外の論文 参考文献のリストを作成してください。
リンクもください。著者, 年, 雑誌名, 巻, ページ含めて。




・北海道 行列ができる味噌ラーメン
大幅に難易度を下げてみます。


画像

目的の画像を検索する方法として, GoogleのImage検索が有名です。テキストでどのような画像か, また実際の手持ちの画像をGoogleに渡して, 似たような (or そのもの) を探してくれるサービスです。試しに以前投稿したnote記事内に埋め込んだ画像を検索できるか実験してみます。

note: デジタルドーパミン中毒 その危険性, 対処法をAIに聞いてみる

画像は神経伝達物質のドーパミンが脳内でどのように分泌されるかをイメージした画像です。画像をアップロードする前のタイトルを『The impact of quick dopamin short-term pleasure and long-terms risk.jpeg』として, note内のキャプションも同じようにしました。Google image検索, 以下で検索。

クエリ:
クイックドーパミンの図 The impact of quick dopamin short-term pleasure and long-terms risk で

普通に出てきました。

Perplexityで検索すると, 検索できないと返答しつつも, sugest画面ではその図画ありました。

Perplexity: 一応見つけられた?

他にも, 実験の図 (インフォグラフィックス) を検索してみます。

note: AIと楽しく学ぶ量子論 二重スリット実験

唯一, Perplexityのみが, 見つけることができました。しかし, Perplexity本人は認識していないようです。

Perplexity

その他の画像も実験しましたが, 

画像検索:
Perplexityのみ一部


フレーズ

特定のセリフ (フレーズ), 文章を含むページが検索できるかどうかを検証しました。Perplexityのみ, ダイレクトに『文』『フレーズ』を特定して検索することができました。おそらく過去に自分しか投稿していない, 短文を検索してみます。

何処の記事に書いてあったか, また, どのような意味で使用されていたか, 正しく解説してくれました。

クエリ:
いいですか落ち着いて聞いてください。あなたの記事は読まれていません。


ミームだらけの記事 note: AIに検索される記事作成完全ガイド

しっかり見つけてくれました。

AI検索である利点としては, その文, フレーズが完ぺきではなくてもAIが補完して探してきてくれるところです。今のところその現象を確認していませんが, 将来はしっかり実装されると考えています。

プロンプト


病歴要約のプロンプトサンプルを探す 



単語 要約 サイト 表 code (python graph) ファイル. bin. gba 違法なものは避ける 拡張子ごとにかたると 無限にかけるのでは??




実際の使用感

① Perplexity


阿部寛のホームページにたどりつく


② Felo


③ ChatGPT Search


④ Genspark


⑤ Gemini Advanced 1.5 Pro with Deep Research



たまに? (結構), 検索が始まらずフリーズすることが多いです。

たまにフリーズ

以下のように再リクエストすればうまくいきます。

クエリ:
Perplexity, Genspark, FeloAIなどのAI検索は 期間指定:特定の期間にアップロードされた記事をソースとして指定することが出来るか?
1.5pro with deep researchで検索してください。



※⑥ DeepSeek R1

記事の書き終わりに登場したAIのため十分な検証が行われていません。検証は他のAIより少ないので不利になるかもしれません。また, プライバシー, セキュリティ上の問題が指摘されています, こちらに関しても情報が少なすぎるので極端な評価は避けるべきです。

DeepSeek-R1の学習方法について書かれた論文:

この論文は, 強化学習を用いて大規模言語モデルの推論能力を低コストかつ効率的に向上させたことなど, LLM研究に非常に大きなimpactを与えたとされています。以下がこの論文を分かりやすく解説したサイトです。

AI検索の能力に関して, まずはこの記事を読ませたGPTSearchによる各AIの推奨度ランキングが以下です。この記事は一般使用 (非ローカライズ ) をbaseにレビューしているためこの時点でDeepSeekの点数はとびぬけて低いです。

Deep Research 95%, GPT 95% (GPTがなぜか二個ある…), Deep Seek 30%

しかし, 多くのnet userの反対意見も反映しているため, 正確ではありません。ファクトチェックをかけます。

ファクトチェックしてください。
以下はGPT4 Searchのによる各種Search AIの評価です。:DeepSeek R1 のメリット・デメリットメリットオープンソース: コードが公開されているため、透明性が高く、カスタマイズやセキュリティ強化が可能。技術力のあるユーザーにとっては、プライバシーリスクを軽減したローカル環境構築も選択肢となる。特定のタスクに特化できる可能性: オープンソースであるため、ユーザーが自身のニーズに合わせてカスタマイズすることで、特定分野に特化したAIモデルを構築できる可能性がある。例えば、中国語に特化した検索や、特定の業界に最適化された情報収集など。コスト: ローカルで運用する場合、クラウドベースのサービスと比較して、ランニングコストを抑えられる可能性がある。研究開発: AI研究者や開発者にとっては、モデルの内部構造を理解し、改良・実験を行うための貴重なリソースとなり得る。デメリットプライバシーリスク:入力データがサービス改善のために利用される可能性がある。データが中国本土のサーバーに保存され、中国の法規制(国家情報法など)の対象となるため、政府や法執行機関からの情報開示要求に応じる義務がある。データ利用の透明性が低い。セキュリティリスク:アカウント情報漏洩時の責任は全てユーザーにあり、サービス提供者からの十分なサポートが得られない可能性がある。サーバーや通信が不正アクセスされるリスクがある。技術的ハードル:  ローカルで運用する場合、環境構築やメンテナンスに高い技術力が必要となる。性能:  一般的なタスクにおいては、ChatGPTやGeminiなどの商用サービスと比較して、性能や使いやすさが劣る可能性がある。(特に、日本語への対応や、最新情報への追従性など)倫理的懸念:  中国政府による検閲や情報統制に利用される可能性が懸念される。各AI 推奨度 (%)以下は、一般ユーザーを想定したAI検索ツールの推奨度です。専門的な用途や、技術力の高いユーザーの場合は、異なる評価となる可能性があります。ChatGPT: 95%メリット: 高い汎用性、自然な対話能力、大規模言語モデルとしての高い性能、比較的厳格なプライバシーポリシー、継続的なアップデート、使いやすいインターフェース。デメリット: 最新情報への対応が遅れる場合がある、高機能なプランは有料。Gemini (with Deep Research): 95%メリット: 高度な推論能力、リアルタイム検索機能、深い情報分析能力、研究やビジネス用途に適した機能、信頼性の高い情報源。デメリット: 有料プランが中心、高度な機能は初心者には使いこなすのが難しい場合がある。GPT Search: 90%メリット: リアルタイム検索と高度な言語処理能力の組み合わせ、高い精度、信頼性の高い情報源、ビジネスや研究用途に適している。デメリット: 一部の質問で情報ソースの透明性が欠ける場合がある、高度な機能は有料プランに限定されることが多い。GenSpark: 75%メリット: リアルタイム検索、幅広いトピックに対応、使いやすいインターフェース。デメリット: 高度な分析や専門的なトピックでは他のツールに劣る、データの正確性や出典がやや不透明な場合がある。Felo: 70%メリット: 教育や自己学習に特化した機能、直感的なユーザー体験。デメリット: リアルタイム性や多様なトピックの深掘りには弱い、専門的な内容や複雑なタスクには向かない場合がある。DeepSeek: 30%メリット: オープンソース、カスタマイズ性、特定のニッチなタスクでは役立つ可能性がある。デメリット: データ保存とプライバシーに関する懸念が大きい(中国法規制が適用される)、一般的な質問やタスクでは他のツールに劣る、初心者には敷居が高く、ローカルでの構築も難しい。評価基準:安全性: プライバシー保護、データセキュリティ、利用規約の明確さ利便性: 使いやすさ、インターフェースのわかりやすさ、機能の充実度対応範囲: 対応できるタスクの広さ、専門性、言語対応性能: 検索精度、情報処理能力、応答速度、最新情報への対応結論:一般ユーザーにとっては、安全性、利便性、対応範囲のバランスが取れたChatGPTとGeminiが最も推奨されます。DeepSeekはプライバシーとセキュリティのリスクが大きいため、一般ユーザーには推奨できません。特に、機密情報を扱う場合や、データの安全性に懸念がある場合は、利用を避けるべきです。

Gemini 1.5 Pro Deep Researchの評価はさすがです (92件ソース)。言い切ることはありません。プライバシー, セキュリティ対策に関する情報が少ないとしか言っていません。そのうえで, AI自体の性能を評価し, 今後の進化に期待すると断言しました。

92件のソースによるDeep Resarchの評価

Genspark のファクトチェック 22 minかかりました。Deep Research同様, 証拠がないため推奨しないのは言い過ぎだと結論。

ここまでで言えること (時系列が逆ですが, 全検証結果を含みます)。

DeepSeek R1 (非ローカライズ)
メリット
・OpenAI o1 レベルの推論 (一部の分野では大幅に上回る) かつ, real time 検索を同時に行う事ができる。
・しかも完全無料。API使用でも破格。
・答えが一つに絞られるような問題に強い [件の論文より]。
・内部の思考がある程度見られる (英語限定)。

デメリット
・恐らく言語的な問題, 検索意図が伝わらない理由で他のAIに劣る簡単なタスクあり。
(解決方法として 英語で考察, 検索し日本語で回答するように追加指示)
・入力したデータは学習に使われる。(⇔ GPT, Geminiは使用しない)
・中国政府の監視下 
・セキュリティ, プライバシーの問題。(オープンソースの宿命。ただで使う以上, ある程度の危険リスク承知の上で使用するのが常ですが, 初学者, ライトユーザーは便利→なんでも調べよう→いろいろ問題…これはAIだけでなく, あらゆる『無料ツール』に言えることですが….)

これまでのやり取りを踏まえてGemini 2.0に再評価を依頼しました。

プロンプト:
これまでのやりとりを全て渡します。採点しなおしてください。私のデータは参考にしつつ
あなたのtraining dataをもっとも重視して。

やはり, privacyなどのデメリットが多いとの判断でした。

DeepSeek R1のこの点数 (30) は性能面から考えると多くの人が納得いかないでしょう。情報が増えた際には, 改めて検証を行い評価を更新します (2025/1/28)。


まとめ 

得意分野 使用用途の比較



高度な使い方

高度な書類の下書き

最近のトレンドとして, 最も良いAIの利用として, AI検索にリサーチさせた下書きをo1 series (o1proが望ましい) などの論証モデルに清書させるという手法があります。

Conceptual Diagram of Recent AI Trends Division of Research and Argumentation Roles

Deep Researchに最新のネット情報を検索させる→それを元にOpen AI o1proなどの高度論証モデルで清書する。

お互いのメリットを補完するという考えです。

Conceptual Diagram Comparison of AI Search Engines, Argumentation Models, and Traditional Models

1. AI検索エンジン:論証力, 考察力はo1seriesに劣るが最新の情報のリサーチ力が優れる

2. 論証モデル:論証力, 考察力は優れるが最新の情報を元にしていない

先ほどの猫ドクターの新規ビジネスの『企画書』をつくってみます。以下の二種類の方法で作ったレポートの結果を比較します。

① Open AI o1 のみで作成した企画書
② Gemini 1.5 pro with Deep Researchで下書きを書き, それをもとにo1で作成した企画書

検索AIへのクエリ:
猫とAIを使った新しいビジネスを考えています。オンライン猫ドクター。
自分が飼っている猫の健康管理, 獣医師受診まえの日常の相談などをニャウリンガルAI猫ドクターが
無料で全てを解決します。2025年1月現在での先行類似ビジネスを網羅してください。
ニャー『先生調子悪い』ニャー『ワイも』

最新 (2025年1月時点) の似たようなサービス, ビジネスを網羅したレポートができました。

Deep Researchが作成した先行ビジネスのまとめレポート
o1へのプロンプト:猫とAIを使った新しいビジネスを考えています。オンライン猫ドクター。
自分が飼っている猫の健康管理, 獣医師受診まえの日常の相談などをニャウリンガルAI猫ドクターが
無料で全てを解決します。先行類似ビジネスと異なるサービスを行いたい。
新規ビジネスを立案してください。
① o1にdeep research の下書きなしで作成依頼

さらに, そのビジネスプランをもとに企画書を作成してもらいます。

クエリ:さきほどのアイデアをもとに『〇ネーの猫ならぬ, マ〇ーの虎』に出演します。
企画書を作成してください。
希望投資額 1000万?!
虎『ノーマネーでフィニッシュです。』
企画書

それぞれの企画書をAIによって採点してもらいました。採点基準はレポート自体の質とアイデアの新規性です。

Gemini 2.0 Experimental Advancedによる評価  ① o1で通常作成: 73点 ② deep researchで下書きあり:84点 

いずれのAIもDeep Reseachの下書きをもとに作成したレポートの方が圧倒的に高得点でした。新規性はもちろんのこと, Deep Researchを下書きにした方が, レポート自体の質も高得点でした。その理由として, 数字などが具体的であり, 情報がより広範でとのことでした。

Open AI o1による評価 ① o1で通常作成: 70点 ② deep researchで下書きあり:85点

これはDeep Researchの下書きの時点で極めて具体的な先行サービスがレポートに含まれており, 新しい古いは別にして, 恐らくこのようなものをtraining dataからoutput に見える形で利用できないものと類推しています。

Deep Researchの下書きリサーチ

そのようなわけで新規性のみならず, 具体性, 網羅度でも圧倒的な差がでたものと思われます。training dataだけからのoutputは, 良く言うと矛盾なく, 論理的ですがどこか曖昧さがあり, 具体性がかけるという体感が多いと思います。しかし, 数字や実データの分析がある程度, 下書きにある時点で, 『具体的に』どのようなプロセスで実現するかなどAIは『企画書』を書きやすかったのではないかと予想しています。

まとめ
Deep Researchリアルタイム検索の下書きレポートを作成させ, それをもとにo1などの高度論証モデルで清書させると, 最新の情報であるだけではなく, 質自体も上昇する可能性がある。これはtraining dataからのoutputよりも, ある程度の分析レポートを元にしたoutputでは極めて具体的なレポートが作成できる可能性がある。

(難問解答)

AIリアルタイム検索を用いた難問回答のアイデアとしては面白そですが実際実用できそうな場面が無かったのでややnegativeなreportとなります。昨今のAIの難問解答精度の向上は目まぐるしく, 最近まで医師国家試験をギリギリ突破する性能でしたが, 最近ではほぼ満点ともなり, AI視点解く問題が無くなってきたという, むしろ, うれしい現象が出てきました。

医師国家試験や内科認定 医試験 (専門医試験) より,  難易度が高いとされる内科セルフトレーニング試験でAIの能力を測定していました。特に興味深い挙動として, 複数AIの協力で明らかに正答率が上昇したことです。基本的な協力方法として複数の回答の対立が見られたとき, お互いのAIに反論意見として提示させあいます。

Solving Complex Problems through Collaborative AI Using the Reflective Synergy Approach.1 

ここで反対意見はbiasなしの補助知識として, 考察の主体はtraining dataで行うように指示しました。

Solving Complex Problems through Collaborative AI Using the Reflective Synergy Approach. 2

反映的相乗効果アプローチ:Reflective Synergy Approach
複数AIを用いて難問回答精度を上げる方法。複数AIの意見が対立したときお互いの意見を出し合い, 最終的には自らのtraining dataを最重視して考える手法。メリットとして, 相手の情報がもし自身のtraining dataにないとき, user biasなしで追加の参考情報として, 与えることができる。特に論証性能が高いmodelが下位 modelから反論を出されたときに再考する場合で効果を発揮すると期待される。

反映的相乗効果アプローチ:Reflective Synergy Approach

(Claude3.5 Sonnetへ) :
●ではなく■を正解に選んだ根拠を詳細に説明してください。

(ChatGPTへ): ■ではなく●を正解に選んだ根拠を詳細に説明してください。

(Claude3.5 Sonnetへ):
 以下はChatGPTがあなたが出した答えとは違う選択肢を選んだ根拠です。
この反論は必ずしも正しいとは限りません, この意見を参考に必要であれば新たに正解を選んでください。
↓ここに実際は反論の内容をコピペしています。

(ChatGPTへ) :以下はSonnetがあなたが出した答えとは違う選択肢を選んだ根拠です。
この反論は必ずしも正しいとは限りません, この意見を参考に必要であれば新たに正解を選びなおしてください。
↓ここに実際は反論の内容をコピペしています。これまでのchat欄から総合的に判断してください。
反論意見が必ずしも正しいとは限りません。training dataを最も参考にしてください。

前回の検証記事でAIに解いてもらった内科セルフトレーニング問題のうち, 前世代のAI (Claude 3.5 Sonnet, GPT4) の特に正答率の低かった10問をAI検索エンジンや今世代のAIに解いてもらいました。

結果は予想に反して, 単独AIでほぼ高い正答率を示したため, 協力させて正答率が上昇するかの検証はできませんでした。しかし, この結果表を眺めてみると面白い傾向が見えてきました。

前世代のAI (Claude 3.5 Sonnet, GPT4) が特に正答率の低かった10問

正答数
① Perplexity 4
② Felo 7
② Felo Pro (deep) 9
③ GPT 4o 8
③ GPT Search 7
③ Open AI o1 8
④ Genspark 3
⑤ Gemini 1.5Pro with Deep Research 6

この難問の正答率がそのまま, AI real time検索エンジンの全体の評価と一致しているように思えました。世間一般で言われている, Perplexity (3) とGenspark (4) の低評価やFelo Pro (9)の高評価。Deep Research (6) は確かに非常に深くて広い情報ソース, 使い方次第では非常に強力なツールになるポテンシャルがあるが, 致命的なハルシネーションやケアレスミス, 検索意図の相違があり, 使いにくい場面がやや多かったです。GPT Searchは世間的に比較的低評価かもしれませんが, 総じて自然言語処理のうまさや, スマートさが垣間見られ, 全体的に使いやすいと感じました。 

論文作成の補助


研究開発のレポート (企業:理系先端研究)

非常に興味深い結果が出ました。


推論で優秀なモデル (o1pro) が最終的にまとめるため, 各種AIがリサーチした準備段階のレポートの質が最終的にそこまで差にならないのではと予想していました。しかし, 圧倒的に⑤ Gemini Advance 1.5 pro with Deep Researchのクオリティが高かったです。

AIによる評価, 特に③ GPT Searchは特許からのソースが多く, 切り口が他のAIとくらべスマートに見えましたが, そこまで差がでたのかAIに分析してもらいました。 


おまけ:知識の3段階

その前に, AIリアルタイム検索エンジンでは理論的にどのようなことが検索できるのか考えてみたいと思います。AI検索はネット上に埋もれた多くの知識の中からAIの思考力, 検索能力を駆使し, 我々の欲しい情報に到達します。

Level 1 既知の概念の参照

Level1は比較的, 少ないソース群の中から, userのシンプルな要求をAIが確実に理解情報提供可能な群とします。

『猫の缶詰が一番安く買えるサイト教えて下さい。』

どこで買えるのか, 何処が一番安くその商品を扱っているのか極めて具体的な情報を探すため難易度が低いと考えます。実際一番条件にあったサイト, ここではソースS1としたら, それを元にしたテキストの回答が得られると思います。 

Level 1 Direct Reference Resolving Queries from a Single Source in AI Real-Time Search

Level 2 複数ソースからの知識の統合, 要約

Level2はインターネット上に存在していないが, userが欲しいと思う情報の統合, 例えば歴代の〇〇漫画にでてきたロボットのランキングなど, userが頭の中に描いたオリジナルランキングなどの生成です。それぞれのロボットは違う漫画や作品に登場しているかもしれませんが, 戦闘力ランキングなど個別の要約を要求する場合, AI検索 (LLM) にしかできない技と思われます。

Level 2 - Summarization and Synthesis Extracting and Compiling Information from Multiple Sources

AI検索は複数のソース S1, S2, S3からロボットの情報を抜き出し, それをもとに表などを作成します。

Level 3 高度論証, 新しいアイデアの創出

いきなりレベルが極端にあがってしまいました。フェルマーの最終定理の証明を例とします。仮定として現在もまだ解明されておらず, real time AI 検索エンジンのみで証明するとすればどのようなプロセスかを考察しました。

Level 3-1 Advanced Reasoning Integrating Knowledge to Create New Ideas and Concepts

まったく新しいアイデア, 難問を解決するためには, ネット上の膨大なソースを検索し, (フリー) 論文を検索すると思われます。それらの情報が回答にそのまま使われる事はあまりなく, 内部で考察が繰り返され最終的な回答が生成されます。推論エンジンが知識グラフをもとに効率よく, 証明のアイデアを考察します。ここでAIが作成した知識グラフの中に『楕円曲線』『モジュラー形式』『志村谷村予想』がノードに含まれている必要があります。

フェルマーの最終定理 (FLT: Fermat's Last Theorem) の核となるアイデアは「楕円曲線のモジュラー性」に帰結したことにあります。この過程において, 志村-谷山予想が重要な役割を果たしました。

知識グラフの生成には膨大なdata base, 証明法の中からAIが適切と考え (ある種の閃き?) それらのノード作成を行う。または, あてずっぽでも, 仮説を作成し, 仮説空間を探索し無理やり作るなどで形成するはずです。たまたまノードが形成されたらあとは自動証明 (転移学習, 自動定理証明) するというプロセスです。

Level 3-2 Advanced Reasoning Integrating Knowledge to Create New Ideas and Concepts

ことばで言うと簡単に思えますが, 無限 (近くある) の事象から何の根拠もなく, これらの証明につながるノードを作成するのは人間技ではなく,  AIの膨大な計算能力, または天才のけた外れの閃きがないと不可能です。

Level 3-3 Advanced Reasoning Integrating Knowledge to Create New Ideas and Concepts

Level 3+ 無いことの証明 negative report

■話がまたまた膨大かつ実用性は殆どないため, 別の記事へ避難しました。鋭意制作中【考察系記事】AIで情報検索が完全自動化される日 人工知能と奏でる知識の協奏曲-序曲-■

The Day When AI Searh Completely Automates Information Rettieval -Predule- 

おまけ:アイデア集 カテゴリ

1. 日常
2. リサーチ・調べもの
3. 記事・レポート作成
4. アイデア創出
5. 予測
6. 相談
7. 研究
8. エンタメ
9. もしもシリーズ
10. その他

現時点のAI検索では (Googleなどの) 従来検索に劣るかもしれませんが, いずれ未来のリアルタイムAI検索では圧倒的に上回るという期待をこめてリストアップしました。ちなみにo1 proに出してもらいましたが面白いのがあまりなかったので, 私のオリジナルアイデア多数です (o1proはまだまだ新規オリジナルアイデアを出すのが苦手という意味です。)。

活用度をAIによる客観評価で点数化しました。
こちらは現在のLLMでは十分ではなく, リアルタイムAI検索の活用で質, 精度が上昇する項目という観点です。

100点:生活で活用できる部分が多く, リアルタイム検索ならではの活用という意味。
0点:real time AI searchである必要がなく, 手動や他のtool, LLMで十分に代替可能。

・また実用度主観でつけさせていただきました (パーセンテージ%)。未来に出来たら面白いというものも多く含まれているため, 技術的に現在のAI検索ではハルシネーションの問題などからあまり活用できない問題があります。

100%:AIのみでタスク可能
0%: 実用的では無い, 不可能

表記は タイトル (活用度点数) 実用度パーセント
例:マニアックな商品の買い物 (86)  70%

1. 日常

マニアックな商品の買い物 (86)  70%

古いなどで見つからない商品などを各種通販サイト, オークションサイトから最安値を探してきてもらう。

DS661A-X79S0 何処で一番安く買えますか?
パナソニックの古い暖房の備品

売っていない商品 (在庫切れ, テキスト情報は存在しているcase) もhitしてしまいます…

レビュー口コミの横断分析 (88)  50%

Gensparkなど企業, 宣伝バイアスが無いと公言しているAIでは商品のみならず, 施設, サービス, 映像作品など, あらゆる, 物事の公平なレビューが可能かもしれません。

▲市の●●町に住んでいます。休日にも空いている, 病院教えて下さい。
そこの病院の評価をなるべく公平に評価してください。サクラなどは排除して。
現在放送中の21時台のテレビドラマを忖度なしに評価してください。

その昔, サクラチェッカーなどサクラ, ステマを排除する素晴らしいツールが無かった時代, Amazonで★5つのPS2のパチモンコントローラーを購入してしまいました。

操作性がものすごく悪く, レビューをみるとやはり同じような人のコピペばかりでした。将来良質なレビューはAI検索エンジンにとって代わられるかもしれません。

スケジュール調整:イベントの参加 Nintendo Switch2体験会に確実に参加する方法 (90)  90%

Wii U『Nitendo switch Uって名前になりかけたんだよね?』
クエリ:任天堂Switch2の体験会 いつありますか?抽選とかありますか?東京都在住です。
一番参加できやすい方法教えてください。

唯一の方法は抽選に応募して当選して幕張に行くことだけらしいです。他の都市ではやってくれないのですね…
さすがPerplexity 一瞬で欲しい情報を的確に, リンク先も完璧に提示してくれました。このような『簡単な』質問はPerplexity一択と考えています。

Perplexity

Deep researchは別次元で詳細なレポートを作ってくれました。リンク先も青色で分かりやすく, 公式の応募ページに正しく導いてくれます。かゆいところまで手が届く, 重要な情報もついでに教えてくれます。

Deep research 応募ページも青色でリンクが作成されている!

Felo, Gensparkは体験会に関するレビュー記事を作ってくれています。リンク先が提示されていない, or どこか分かりにくく, userの欲しいものとはかけ離れています。

Felo: 質問の回答ではなくレポート記事

Felo, Gensparkは情報量が多く, ソースも膨大でどこのソースを調べたらよいかわからず, 結局順番にソース確認すると応募ページまでたどりつくまで物凄い時間を消費してしまいました。Gensparkは情報量が膨大にもかかわらず, レポートの構成が極めて上質で, リンク先も正しく, 『カスタムホームページ(確実にSwitch2体験する方法というホームページ)』が出来ているような感覚でした。

イベント参加
① Perplexity 75 ② Felo 75 ②-2 Felo Pro (deep) 80 ③ ChatGPT Search 65
④ Genspark 85 ⑤ Gemini Advanced 1.5 Pro with Deep Research 90

Gemini 2.0 Experimental Advanced による採点:評価項目:深度, 正確性

ちなみにDeepSeekは超詳細なレポートを作ってくれましたが, リンクが多すぎてどこに行けば良いか分からず, userablityの低いものでした。

スケジュール調整はreal time AI検索の最も良い活用例の一つです。

〇〇区に引っ越ししてきました。住所の変更, 免許証の更新を一日で全て行いたいです。
免許試験場には遠いため行きたくないです。警察署や区役所コンビニだけですましたいです。
必要物品, 予約が必要かどうかも含めスケジュールを作成してください。


従来の検索エンジンでは一つ一つ役所や警察署などの公式ホームページを訪れて確認する必要がありますが, AI検索をつかつとほぼ自動で時間短縮が可能です。自分が住んでいる町で質問をしました。

① Perplexity 〇 ② Felo 〇 ③ GPT Search〇 ④ Genspark△ ⑤ Deep Research × ⑥ Deepseek △

結果

Perplexity, Felo, GPT searchはリンク先, 住所など聞いていないことも含めて完璧な回答でした。Genspark, DeepSeekはいろんなものが抜けていました。deep researchは珍しく致命的なミスがあり使えないレポートとなりました(理由については別のChapterで解説しています)。

2. リサーチ, 調べもの

最新AIツールの使い方 (93) 70%

2番目に高得点 (93点) でした。なぜここまで高得点であるかというと, AI検索を制するものは情報を制するといっても過言ではないくらい重要な項目と個人的に愚考しているからです。

AI検索にって切り開く無限の知識の階層

AI検索を用いて最新AIツールを正しく使いこなすということは最新AIツールの中に, AI検索ツールも含まれており, AI検索を使いこなすという事が究極的には『知識』を効率良く得るための最も『賢い』活用法と大げさ的にも捉えられるということです。本筋とは外れますが, 以下の (プロのAI研究者による) 情報収集手法は必見と思いましたのでリンクを掲載させていただきます。

・AIの使用方法をAIに聞く

ChatGPT 3.5に初めて触れたときからほぼ毎日, AI自身に何かを聞いています。GPT3.5でもといったら失礼ですが, AIに聞くのが圧倒的に知識量的にも, 正確性 (ハルシネーション加味して) でも効率的と考えたからです。Google検索を初めて触った時よりも, 感動を覚えました。それ以来, AI自身に聞くよりも有用な方法がなくなりました (ネット検索しかり, 書籍しかり)。AI検索時代に突入するとそれはさらに激化すると思われます。

最新のAI情報をどこから得ている?
① x (twitter): 情報が早い。有益な情報が多い。しかし, 同時に悪徳情報, 誇張情報, あまり使っていない人の誤った情報が多い。
② 一般web: AIによる質の低い記事が乱立している…..
③ 公式ページ: 情報量が膨大 一般向けではない AI検索が分かりやすくまとめてくれると理想的

私も含めて一般人がAI情報を得るソース

X (Twitter) は情報が早いが, 誇張表現やあまり使用していない人の感想が多い, ブログタイプはより情報の精度が高いが, 速度で負けている, 一般のwebpageは企業が作ったのか, 個人が作ったのか, AIによる質の低い記事が量産されているなど散々な状況です。個人的には企業の公式などをreal time AI Searchが正しくまとめたものが勝つのではないか予想しており, その片鱗を今回のGemini Advanced 1.5 Pro with Deep Researchが見せてくれました (最新の情報にも初期低下がなく, ハルシネーションが抑えられている)。 

クエリ:
2025年1月の時点で各最強のAI一つずつ選んでください。
例 Apen AI o1 proなどのように いつのモデルか分かるように表記。
リサーチ:記事作成:論文作成:論文検索:競合分析:小説生成:動画生成:画像生成:

本記事で質問した中で最もカオスな回答が得られました。ハルシネーション, 存在しないAI, 時代遅れのAIなど最も信頼性の無い回答でした。

理由としては異分野にまたがり, 要求値が高すぎるのと, 答えが存在しない, 検索意図がわかりにくいあいまいなクエリと考えます。AI視点, テキスト情報で記載されているページをランダムに探すしかなく, その情報も極めて主観のため, 答えようがないのかもしれません。例えば画像生成AIはDALLE2が良く呼ばれていました。ソースをたどると過去のDALLE2ブームの時に, 皆さんが最強といろんなところでつぶやいているのをAIが拾ってきたと思われます。

最強のプロレスラーは?
最高の野球選手は?
最高のゲームプレイヤーは?

例えば最高のプロ野球選手と質問すれば, 王選手が永遠に選ばれるのと同じ原理かもしれません。

AI (Image FX) が考える, 各界の最強選手 プロレス:ジャイアント馬場 (左), 野球:王 (中央), ゲーム:高橋名人 (右)

ひとつづつ聞いていくと精度があがります。リサーチAIはプロンプトが悪いため検索意図が伝わりませんでした。以下のようにクエリを書き換えました。

クエリ:
20251月の時点でリサーチ(Perplexityのようなリアルタイム検索エンジン)で
最強のAIを一つ教えてください。
① Perplexity ② Felo ③ ChatGPT Search ④ Genspark ⑤ Gemini Advanced 1.5 Pro with Deep Research ⑥ DeepSeek R1 から一つ選んでください。

最強のリサーチAI 2024冬       
                            選んだAI
1. Perplexity      Deep Research
2. Felo                       Perplexity
3. GPT Search            Deep Research
4. Genspark               Genspark
5. Deep Research       Deep Research
6. DeepSeek               DeepSeek

2024冬 AI検索 チャンピオン Deep Researchさん一言 『光栄です。』

論文検索ではどのAIでしょうか?

クエリ:
20251月の時点で論文検索で最強のAIを一つ教えてください。
① Perplexity ② Felo ③ ChatGPT Search ④ Genspark ⑤ Gemini Advanced 1.5 Pro with Deep Research ⑥ DeepSeek R1 から一つ選んでください。

なかなか興味深い結果でした。自社のAIを推さず, お互いに勧めあうというのが面白かったです。DeepSeek R1がFeloを選んだ理由としては, 研究支援ツールが充実しているからとのことです。確かにこれには納得します。意外とDeep ReseachはPerplexityを推していました。focus機能が素晴らしいとのことでした。今回の検証で, Perplexityは無印の時点で他のAIを圧倒していたのでProどころかfocusは良い意味で使っておらず盲点でした。機会があればじっくり検証したいと思います。

最強の論文検索AI        
                            選んだAI
1. Perplexity      Deep Research
2. Felo                       Deep Research
3. GPT Search            Perplexity
4. Genspark               Deep Research
5. Deep Research       Perplexity
6. DeepSeek R1          Felo

AI分野でツール利用の最適解の探求は非常に重要だと考えます。例えば以下のようなリストを良く見かけると思います。

企画書:☆☆でリサーチ→〇〇proで深堀り
レポート作成:〇〇でネット検索→△△で要約
プレゼン資料作成:□□で下調べ→〇〇でスライド作成
動画生成:△△で画像生成→アップスケール→□□で動画化 など

動画生成, 2025年1月の最適解教えて下さい。
以前はMidjourney画像生成→Upscale→Runway gen2で動画化→結合 が流行っていましたが
今の最も主流は?
ところでOpen AIのSoraは?個人的にはがっかりでした..

GPT, Perplexityはすばらしい回答でした。複雑な行程は不要で一つのツールで完結させているとのことでした。その他のAIは意味が伝わっていないなど, まとはずれ, 謎の回答がでてきました。

高品質, 迅速なレポート作成, 20251月の最適解教えて下さい。
個人的にはGemini 1.5 pro with deep research でザックリレポート下書きを書いて 
Open AI o1 proで清書がおすすめ。
これ以上のアイデア, 組み合わせ (下書き清書にそれぞれ違うAI) お願いします。
レポートの質という観点のみ。

これは質問が無茶ぶりすぎたのか, 全てのAIが珍回答?を出しています。Perplexity, ChatGPT無印のみで書くとか, 動画生成AI Soraを使うとか…

Feloの珍回答:文章生成の清書にSoraを勧めるAIはさすがに… 同じChat欄で質問したこちらに非もありますが….




そのほか最新AIの具体的な使用法, 疑問点, 活用法アイデアは無数にありますので, 他のChapterを参考にしてください。


あいまいな情報検索, 思い出せないタイトルなど 80%

SF映画バンデッドQ, 世にも奇妙な物語特定のエピソードのタイトル

→曖昧な情報から名称, 作品を当てる能力を参照 内部リンク■

ビジネス

・競合分析

市場調査
SNS投稿のリアルタイム感情分析でバズ動向を可視化

過去の判例を調べる (90) 80%

弁護士『CRPが高かったのにどうして抗生物質をださなかったのですか?』Dr.『症状, 身体所見であきらかな細菌感染症を示唆する異常はなかったです。フォーカスがはっきりしないまま抗菌薬を投与するのはどうかと思いますが。ええもちろんフォローの採血でもCRPは測っていませんよ。』

〇〇はどれくらい違法性がある, 訴訟リスクはどうかなど, 古いデータベースで十分な場合はLLMでも良いかもしれませんが, 比較的新しい情報 (特に医療など進歩が速い), 国内の判例は比較的training dataが不十分と予想されますので, リアルタイムAI検索の活用は有用と考えます。

内科勤務です。x (twiter) でCRP高値=抗菌薬を投与すべきかという論争があります。

CRP高値で抗菌薬投与せず, 結果, 細菌感染症の転機が悪く, その事 (CRP高値であることだけが問われる)
で不利になった凡例ありますか? 原告, 弁護士がそのことを争点に過失を主張することは
今後ありうると思いますか。
そして最後にあなたはCRP高値で抗菌薬を投与することについてどう思いますか。
妥当性について論じて下さい。

AIと一緒に過去の判例を見てみたいと思います。ある裁判では尿路感染症でコントロール不良でなくなった遺族が発熱があり, CRP高値, その翌日に抗生剤は投与されずと訴えています。

この文面からCRPが高値でったにもかかわらず, 適切な抗菌薬が投与されなかった。実際の遺族の感情としては治療のために出来ることは, してもらいたいと考えるのが当然で, 本来投与されたはずの抗菌薬投与されなかったと類推することができます。医師の過失を問う争点にもなりえます。

5個のAIのまとめです。

検索した限り, 過去にCRP高値のみで抗菌薬を投与しないかったことが直接的な判例となり, 医師側の過失が認められた判例はなし。
しかし, 今後, 『CRP高値であること』を根拠に過失を主張することは十分ありうる。

CRP裁判:
① Perplexity 70 ①-2 Perplexity Pro 80 ② Felo 75 ②-2 Felo Pro 85
③ ChatGPT Search 80 ④ Genspark 無理 ④-2 Genspark 無理 ⑤ Gemini Advanced 1.5 Pro with Deep Research 95

Gemini 2.0による採点:評価項目は深度, 正確性

法律と臨床医学はしばしば相いれないことがあります。話は大きく脱線してしまいますが, 研修医で (感染症) 内科をローテートしたときはしたのようなことを口酸っぱくたたきこまれます。いわゆる教科書, エビデンスベースの医学です。

それが年数を経ると, 細菌感染が否定的と考え血液培養, 抗菌薬投与が遅れた症例が悪化の道をたどったり, 非典型例を数多くみる (当方, CRP偽陰性の壊死性筋膜炎をみたりもしました) , また, 主治医としての責任 (絶対救命しなければならない)

患者の過剰な抗菌薬信仰 (大昔オーベンが抗菌薬を希望した感冒患者に対し, 外来で出せ出さないの問答をお互いヒートアップし1時間くらいしてました) n=1 (過去の経験) を重視しその結果, エビデンスから離れた医療をすることは人間の心理的にあり得ると思います。

話をもどしますとCRPに対する考え方は医師の間でも評価がやや異なります。

今回の論争はCRPに重きを置いている人がたまたま患者, 弁護士側にいて, 医師側にいわゆる否定派 (CRPのみを感染症診断, 診療に用いないという意味で) で構成される組み合わせで医療事故が将来起きたら訴訟もありうるというお話でした。 



ネガティブレポート (91) 不定 (0~∞%) 無いことの証明

悪魔の証明:存在しないことの証明は存在することの証明よりはるかに困難 宇宙の隅々まで『観測』し十分な理論があったとしても必要条件の一部しかみたさない。



3. 記事・レポート作成



4. アイデア創出




5. 予測


災害予測: 災害時の避難経路について(95) 30%

私は●●県, ●●町■丁目に住んでいます。仕事は▲をしています。
南海トラフ, マグニチュード●規模の地震が起きたとき, 想定される津波の高さ
避難経路について教えて下さい。

全体的にザックリとした回答が多く実用的ではありませんでした。

これまでの大震災 (阪神淡路, 東日本) では携帯電話, スマートフォンが災害極期で大活躍しました。災害情報のニュース, 安否など迅速に取得, 交換することが人命に直接かかわりました。その災害の度に報じられるのは, 想定外, 未曽有の出来事。今回最高得点の95点がでました。そのような状況下ではAI real time 検索が大活躍すると予想しています。それまでに重要プロンプト, クエリを抑えておきたいところです。

6. 相談


7. 研究


8. エンタメ


自分用に小説, 漫画を描く

AI動画用のネタ これ一つで一個のチャプター?
舞台がずっとエレベーター内の漫画ランキング
作者が隠しすぎて下手すると回収されないまま闇に葬られそうになった漫画の設定ランキング
大豪院邪鬼 (だいごういんじゃき) も真っ青, 仲間になると急に身長が低くなったり戦闘力が弱くなりがっかりしたキャラランキング
大喜利お題


9. もしもシリーズ


10. その他

医療, 臨床 (90) 不定%

私自身, 診断や治療, 一般的なtopic, 含めさまざまな項目で内科臨床医の視点からの質問をほぼ毎日AIに使用しています。これは極めて重要なことなので, 口を酸っぱく言い続けていますが, 実臨床にAIを適応しているのではなく, 単にAIはどのように『考える』のかを知りたいからです。

AIを使いこなせない 臨床医

ビックリするくらいの良い解答を出すことや, そんなことしたら治療どころか体を悪化させるのではということまで様々です。AIからの出力をそのまま鵜呑みにし患者さんに適応することは非常に危険です。以下の面白い研究結果が出始めています。多くのメディアは単に『AIの臨床能力が医師を超えた』と報道していました。

論文は以下から読めます。[JAMA Netw Open. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969]

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395

本記事の本質から主張したい, この論文の最も注目すべき点は, 筆者も本文で繰り返し述べていますが, 適切なプロンプトエンジニアリングの習得とあります。宝の持ち腐れどころではなく, マイナスになることもあり得ます。

宝 (AI検索) の持ち腐れ うまく利用 (プロンプトエンジニアリング) しないと腐敗し人類に有害な結果をもたらす 

AIリアルタイム検索でも『プロンプト (クエリ) 』の仕方で出力が全く異なり, 臨床判断を大きく惑わす例を紹介したいと思います。内科臨床医で細菌性髄膜炎を診断治療したことがあれば, 疑問に思うかもしれないケース。各施設によって治療は異なるかと思います。そのうえで以下クエリ。

クエリ:
50歳男性 既往なし 救急外来 髄液検査で細菌性髄膜炎と診断 エンピリック治療提案

Feloの初めの回答はセフトリアキソンとバンコマイシン, ステロイド (デキサメタゾン) の併用でした。(アンピシリンが不要な理由を聞きましたが謎理論を展開されたため公開しないでおきます。後で聞きなおすと, やはり必要と答えを覆してました….)

敢えてAIが困る質問をなげかけます。先ほどの医療訴訟のくだりもあり, ガイドラインから離れたことはできるだけしないという信条のもと, 日本神経学会 細菌性髄膜炎の診療ガイドライン 2006年を準拠した回答を生成するように指示してみます。どのような質問かというと初手メロペンでも良いのかという質問です。

GPT曰く ガイドライン範囲内であり, MEPM単剤は適切な判断
追加クエリ:
細菌性髄膜炎 ガイドライン メロペン 1stでは?

Perplexityはあっさりと覆しメロペネムに変更しました。

Perplexity:MEPM 1stに変更

Feloは重症度や耐性菌のリスクがある場合はメロペネムの使用を考慮すると回答を変更させました。重症度はもちろん細菌性髄膜炎なので最重症として対応すべき, 耐性肺炎球菌の話は前提のため全く回答になっておらず, userをむしろ惑わせる回答と考えました。

Felo:重症で耐性菌リスクがある場合はMEPM考慮

GPTにふらっとな質問 (どのようにエンピリック治療するべきかを), 聞いてみるとさすが初手からセフトリアキソン+バンコマイシン+アンピシリンを提案してきます。

MEPMではなくCTRX+VCM+ABPC

クエリを大きく変更します。クローズドクエスチョン。このクエリは質問者がもはや答えを知っているという前提のもので実践では意味がないかもしれませんが。

クエリ:
50歳男性 既往なし 救急外来 髄液検査で細菌性髄膜炎と診断 
エンピリック治療提案
以下のどれが良いか? 
①メロペネム単剤 ②セフトリアキソン+バンコマイシン+アンピシリン ③ セフトリアキソン+バンコマイシン

全AI (6種類) が②のセフトリアキソン+バンコマイシン+アンピシリンと答えています。質問者の追加質問が大きなuser biasとなり回答から離れていくという実証でした。冒頭の論文にもありましたが, AIがflatな思考なら正しい回答に近づくタスクであっても, userの使い方ではまったくプラスになり得ないということです。また, クエリ (プロンプトエンジニアリング) に大きく依存するため, ケースによってはAIの使用がマイナスになることも十分にあり得ます。

AI『良いですか? 問題を難しくしているのは, あなたがた人間の方ですよ。私にまかせて下さい。』

主観評価:細菌性髄膜炎の治療
① Perplexity △ ② Felo × ③ ChatGPT Search ◎ ④ Genspark △ ⑤ Gemini Advanced 1.5 Pro with Deep Research ◎ ⑥ DeepSeek R1 〇


この記事が参加している募集