図の入った国家試験問題を生成AIに解いて解説してもらう検証してみた

2024年6月23日 07:51

はじめに

最近、生成AIのOCR技術が向上し、スクリーンショットからの文字読み取りや文字起こしがかなりの精度でできるようになりました。もちろん、学校の問題を解くことも可能です。建築関係の専門的な試験問題を解かせてみると、AIが時々ハルシネーションを起こすこともありますが、これは普段の業務上でも検証済みです。そこで、今回は簡単問題で図の読み取りがどこまでできるか、各生成AIで試してみました。　6/23記事作成

検証モデル

令和6年の二級土木施工管理技士の問題2を拝借して検証します。
検証する生成AIは以下の5つです。
１．ChatGPT 4o　一番有名どころで私も有料版で使っております。
２．Claude3.5 Sonnet　GPT4を超えたといわれ今週バージョンアップ
３．Gemini Pro　上の二つからはちょい後塵を拝しています。
４．Perplexity（パープレキシティ）　ソフトバンク系の方はプロが無料
５．Copilot　モデルはChatGPTなんですが・・・

問題

令和6年二級土木施工管理技士　出題より
回答は（1）でBの粒径が小さい（シルト）、大きい（礫）がAより多いという曲線を読み取る。

各生成AIの回答

１．ChatGPT 4o

不正解

この問題は、土の粒径加積曲線に関するもので、選択肢の中から適当なものを選ぶものです。具体的には、図に示された粒径加積曲線 A と B を比較し、シルトと砂の割合に関して正しい記述を選ぶものです。
まず、粒径加積曲線の見方を確認しましょう。粒径加積曲線は、横軸に粒径（mm）、縦軸に通過百分率（%）を示します。通過百分率が大きいほど、その粒径以下の粒子が多いことを意味します。

図から、次のことが読み取れます：曲線 A は曲線 B よりも左側に位置しています。これは、曲線 A の土がより細かい粒子を多く含んでいることを意味します。
曲線 B は曲線 A よりも右側に位置しています。これは、曲線 B の土がより粗い粒子を多く含んでいることを意味します。

ここで、「シルト」は細かい粒子（粒径が小さい）を意味し、「砂」は粗い粒子（粒径が大きい）を意味します。

したがって、曲線 B の土質は曲線 A の土質に比べて：シルトの割合が少ない砂の割合が多い
これに基づいて正しい選択肢を選ぶと：
(イ)少ない(ロ)多い
となります。したがって、適当な組み合わせは：
(3)少ない多い
となります。

ChatGPT 4o

２．Claude3.5 Sonnet

不正解

この問題を解くために、粒径加積曲線Aと Bを比較し、シルトと礫の割合を分析します。
1.曲線の比較:
・曲線Aは低粒径側で急激に立ち上がり、高粒径側でなだらかです。
・曲線Bは全体的になだらかで、高粒径側で急激に上昇します。
2.シルトの割合:
・シルトの粒径は一般的に0.002mm～0.075mm程度です。
・曲線Aは低粒径側で急激に上昇しているため、シルトの割合が多いです。
・曲線Bは低粒径側でなだらかなため、シルトの割合が少ないです。
3.礫の割合:
・礫の粒径は一般的に2mm以上です。
・曲線Aは高粒径側でほぼ平坦になっており、礫の割合が少ないです。
・曲線Bは高粒径側で急激に上昇しているため、礫の割合が多いです。

結論:
・曲線Bの土質は、曲線Aの土質に比べて：
シルトの割合は「少ない」
礫の割合は「多い」

したがって、正しい答えは (3) 少ない ............... 多いです。
この分析は、土の粒度分布を理解する上で重要です。粒径加積曲線の形状から、土壌の構成や特性を推測することができ、地盤工学や土木工学において重要な情報となります。

Claude3.5 Sonnet

３．Gemini Pro

不正解

解答
（イ）：多い
（ロ）：少ない
解説
粒径加積曲線から、以下のことが読み取れます。
・粒径加積曲線Ⓐの方が、粒径が小さい粒子を多く含んでいる。
・これは、粒径加積曲線Ⓐの方が、シルトの割合が多いことを意味する。
・一方、粒径加積曲線Ⓑの方が、粒径が大きい粒子を多く含んでいる。
・これは、粒径加積曲線Ⓑの方が、礫の割合が多いことを意味する。

よって、上の文章は、以下のようになります。
粒径加積曲線の土質は、粒径加積曲線Ⓐの土質に比べて、シルトの割合が多く、礫の割合が少ないである。
したがって、解答は、（イ）：多い、（ロ）：少ないとなります。

Gemini Pro

４．Perplexity（パープレキシティ）Sonar Large 32K（ベースはLlama）

正解

この問題は、土の粒径加積曲線に関するものです。グラフには2つの曲線（AとB）が描かれており、それぞれ異なる土質の粒径分布を示しています。問題文では、曲線Bの土質が曲線Aの土質に比べてシルトと粘土の割合がどうなっているかを問われています。

### グラフの読み取り
- **縦軸**：累積通過率（%）
- **横軸**：粒径（mm）

### 曲線Aと曲線Bの比較
- **曲線A**：粒径が小さい部分（0.01mm以下）での累積通過率が低く、粒径が大きくなるにつれて急激に累積通過率が上昇しています。
- **曲線B**：粒径が小さい部分（0.01mm以下）での累積通過率が高く、粒径が大きくなるにつれて緩やかに累積通過率が上昇しています。

### シルトと粘土の割合
- **シルト**：粒径が0.002mmから0.075mmの範囲の土粒子。
- **粘土**：粒径が0.002mm以下の土粒子。

### 解答の導出
- **シルトの割合**：曲線Bは曲線Aに比べて0.002mmから0.075mmの範囲での累積通過率が高いため、シルトの割合が多いと考えられます。
- **粘土の割合**：曲線Bは曲線Aに比べて0.002mm以下の範囲での累積通過率が高いため、粘土の割合も多いと考えられます。

### 選択肢の確認
1. (1) 多い - 多い
2. (2) 多い - 少ない
3. (3) 少ない - 多い
4. (4) 少ない - 少ない

### 正解
曲線Bの土質は、曲線Aの土質に比べてシルトと粘土の割合が多いので、正解は選択肢 (1) です。

したがって、正解は **(1) 多い - 多い** です。

Perplexity PRO

５．Copilot

画像分析で失敗。

結果

１．ChatGPT 4o　不正解
２．Claude3.5 Sonnet　不正解
３．Gemini Pro　不正解
４．Perplexity（パープレキシティ）Sonar Large 32K　正解
５．Copilot　不正解？（いつもはできるんですが拗ねたか）

考察

今回のプロンプトはシンプルに「問題を解いて解説を願います。」
としたせいか、曲線を読み取るときに左側をＡ、右側をＢと認識して交差していることを認識しなかったことが不正解の要因となっています。交差をあることや曲線の●と▲について指示をしておくと解けています。

今回の唯一の正解はPerplexityだけです。交差を認識したのは画像認識エンジンの優れていたという点があるということです。どちらかというと次世代のAI検索エンジンという立ち位置ですがかなりの精度があるか感じます。
なお、他の問題も解かせてみましたが、案外優秀で正解ばかりだったため、この問題ぐらいしか差が出なかったという結果でした。
ただし2024/6/23段階の検証ですので来週にはまた違う結果かもしれません。

結論としては、図入りの場合は注意が必要ですが学習用の利用としてもかなり優秀であり過去問解説など分かりづらいときは生成ＡＩの利活用は積極的にしてもよいと考えます。

図の入った国家試験問題を生成AIに解いて解説してもらう検証してみた

はじめに

検証モデル

問題

各生成AIの回答

１．ChatGPT 4o

２．Claude3.5 Sonnet

３．Gemini Pro

４．Perplexity（パープレキシティ）Sonar Large 32K（ベースはLlama）

５．Copilot

結果

考察

いいなと思ったら応援しよう！