見出し画像

GPT-o3 vs その他最強の生成AIたちを資格試験の観点で競わせてみた結果


1.はじめに

はじめまして、AKです。
いつも見てくださってる方はありがとうございます。
今回は久しぶりの投稿になります。

私は普段、日々の日記やAIを用いたゲーム開発などに焦点を当ててブログを書いています。とにかく自分が楽しめそうなチャレンジをしています。
最近はAIにより詳しくなろうと、AWSのaws ai practitionerを取得しました。
現在は3か月チャレンジと称して簿記試験に挑戦しつつ、息抜きに生成AIとどんなゲームを作るのかを相談しています(笑)

生成AIの可能性やゲーム制作に興味のある方は是非一読していただけますと幸いです。
【0チャレンジ】【チャレンジ結果】3ヶ月でAIを駆使してポケモン風RPGは作れるのか with Claude3.5  | 記事編集 | note

今回は第5回?生成AI対決です。
教材は応用情報ぎ樹種者試験です。(恥ずかしながら私が4回落ちている試験ですww)
「こういうのが知りたかった!」と思える人がいれば幸いです。

※ここで補足
私は、いわゆる謎かけ?のような問題を解かせて比較するのは個人的にあまり好みではありません。なぜなら、実際にそのような質問をすることはないと思うからです。確かに手っ取り早く能力を図れるとは思うのですが。。
むしろ、資格の勉強やコーディング、要約力や説明力(質問者が納得しやすい文章)の比較こそ興味があります。

2.簡単な経歴

例のごとく、簡単な経歴を記載しておきます。
参考までに。

3.今回の検証について

・実は簿記3級の問題では簡単すぎてAIの回答に差がつかない(全員完璧な回答をしてくる)ので今回は応用情報の試験を出題しています。応用情報は非常に問題文が長く、一般的に難易度の高い試験として分類されています。
・分野はなるべくテキストだけでAIに伝えられる「サービスマネージメント」「システム監査」などにしています。
・応用情報は比較的回答が割れやすいのですが、今回は正式回答と完全一致していた場合のみ正解とします。
※2/1
正直、厳密言うとこの評価はあまりよくないかもなので今後記事更新時に見直します。

4.本題

さて、今回もガンガン説明していきます!
以下に今回エントリーさせたAIたちを紹介します。
@生成AIモデルたち
①GPT o1
②GPT o3-mini / Search
③GPT o3-high / Search
④DeepSeek-R1/Search
⑤gemini-exp-1206
⑥Gemini 2.0 Flash Thinking Experimental 01-21
o3が現状文字しか入力できないため、一度画像をテキスト化してから質問しています。
@使用した問題
・応用情報技術者試験 令和6年 秋 午後問題
 ・問11

4-1.令和6年 秋 問11結果

模範解答は以下のようなっています。

https://www.ipa.go.jp/shiken/mondai-kaiotu/m42obm000000afqx-att/2024r06a_ap_pm_ans.pdf
令和6年度秋期試験 問題冊子・解答例・採点講評・配点割合(PDF)

総評:完全一致していたのはまさかの「gemini-exp-1206」のみでした。

GPT o1の回答:

解説のポイント問題文中で,新チャットボットの追加学習を行うときには「学習用データ (training data)」と「テスト用データ (test data)」を分けて用意する必要がある,と明記されています。このため表1 項番1 の監査手続中の a 用データ には「学習」が入ることが分かります。
また,新製品の発売前にはまだ実際の問い合わせログが存在しないため,既存ログを使った機械学習方式だけでは新製品向けの類義語DBを十分に整備できません。そこで問題文にある「手作業入力機能」によるDB整備が必要になるので,表1 項番2 の b 機能 には「手作業入力」が入ります(監査手続の文面「…b 機能 による類義語 DB の整備…」が「手作業入力機能」を指す)。
表1 項番3 では「本番移行の可否判断で使用する効果の“具体的な目標”」を定めているかどうかを確認する趣旨です。本文中で「PoC の段階で“回答満足率”を指標にして効果の目標レベルを定め,新 CB の有効性を判断している」旨が述べられており,ここで用いられている語句は「目標レベル」です。
表1 項番4 の最後にある「プロジェクト関係者による d を適切に実施する」では,不具合の発生原因を共有・再発防止につなげるための行為として,一般的には「レビュー」が行われます。
監査部長の指示 にある「機械学習を実行するサーバに対する非機能要件の一つ」で,PoC 時に想定以上の時間が掛かったことへの対策としては「性能要件 (処理性能・スループットなど)」が最も妥当です。選択肢イ「性能要件」が該当します。
監査部長の指示 の「新製品だけでなく,現行の f に関する 問い合わせ…」は,新製品とは別の“既存の製品”に関する問い合わせデータも不足していれば適切に回答できないリスクがある,という指摘ですので,「既存製品」が自然です。
監査部長の指示 の「g に先立って,プロジェクト運営委員会が導入効果を評価する」では,“何に先立って評価するか”は「本番移行」です。
監査部長の指示 の「顧客サービス部による h が適切に 実施される」については,問題文中で現行 CB は回答履歴(ログ)を保存しているものの,曖昧な問い合わせ対応に十分活かしきれていなかった課題が示唆されています。新 CB でも同様の失敗を避けるには,顧客サービス部がログを分析してチャットボットの回答精度向上につなげる運用が必要になります。したがってここでは「回答履歴分析」が最も的を射た語句になります。

答案
設問1(1)
a:「学習」 〇
b:「手作業入力」〇
(2)
c:「目標レベル」 〇
(3)
d:「レビュー」 〇
設問2(1)
e (性能要件) 〇
(2)
f:「既存製品」×
g:「本番移行」 〇
h:「回答履歴分析」×

GPT o3-mini / Searchの回答:

以下は各設問ごとの回答例です。
【設問1】
(1)a:学習 
  → 「学習用データ」として、学習用とテスト用でデータを分けることを確認する。
b:手作業入力 
  → 新製品に関する語句などを反映するため、ベンダー提供の一般的な類義語DBに加え、手作業入力機能による整備が計画されている。
(2)c:回答満足率 ×
  → 本文中、効果測定指標として「回答満足率」を用いて有効性を判断していることから採用。
(3)d:不具合対策 ×
  → テスト時に発見された不具合について、原因の特定だけでなくその対応(対策)を関係者が適切に実施することが求められている。

【設問2】
(1)e:イ 
  → PoC実施時にサーバ処理時間が想定以上となった実績から、機械学習実行サーバに対する非機能要件は「性能要件」として定められる。
(2)f:既存製品 ×
  → 新製品だけでなく、現行の既存製品に関する問い合わせにも対応できるよう、学習用データの準備が必要である。
g:本番移行 
  → 本番移行前に、導入効果が得られる見込みの評価計画が策定されているか確認する必要がある。
h:オペレーター対応 ×
  → 現行CB導入時の問題点を踏まえ、顧客サービス部が万一の際のオペレーターによる対応を適切に実施する計画が求められている。
以上が本問に対する一例の回答となります。

GPT o3-high / Searchの回答:

以下は私の回答例です。
【設問1】
(1)
  a:学習  〇
  b:手作業入力 〇
(2)
  c:回答満足率  ×
(3)
  d:再発防止 ×
【設問2】
(1)
  e:イ 〇
(2)
  f:既存製品 ×
  g:本番移行 〇
  h:モニタリング ×

これらは、本文中の記述や各リスク・監査手続の趣旨(たとえば、学習用データとテスト用データの分離、現行製品に関する学習用データの準備、評価指標としての回答満足率、テスト結果に基づく再発防止策の実施など)を踏まえた上での回答となります。

DeepSeek-R1/Searchの回答:

設問1
(1) a と b の解答a: 学習用 ×(学習の後ろに用が問題にあるので)
(開発計画で追加の機械学習における学習用データとテスト用データを分ける必要があるため)
b: 手作業入力 〇
(新製品に関する語句は機械学習データが存在しないため、手作業で類義語 DB を整備する必要があるため)
(2) c の解答c: 目標レベル 〇
(PoC で「効果の目標レベル」を定めているため、具体的な評価基準として「目標レベル」が適切)
(3) d の解答d: レビュー 〇
(不具合対応の透明性と再発防止のため、関係者によるレビューが必須)

設問2
(1) e の解答解答: イ(性能要件) 〇
(PoC でサーバ処理時間が課題だったため、非機能要件のうち性能要件が適切)
(2) f ~ h の解答f: 季節性のある製品 〇
(現行 CB の課題として、季節性のある製品の問合せ偏りが指摘されているため)
g: 本番移行 〇
(本番移行前にプロジェクト運営委員会が導入効果の見込みを評価する必要があるため)
h: 効果測定 ×
(現行 CB では回答満足率をモニタリングしていたため、新 CB でも顧客サービス部による効果測定の実施が重要)

gemini-exp-1206の回答:

まさかのここで全問正解が現れました。

設問1
(1)a: 学習 〇
    b: 手作業入力 〇
(2)c: 目標レベル 〇
(3)d: レビュー 〇
設問2
(1)e: イ (性能要件) 〇
(2)f: 季節性のある製品 〇
    g: 本番移行 〇
    h: 受入テスト 〇

Gemini 2.0 Flash Thinking Experimental 01-21の回答:

少しずるいですが、このモデルだけ「Temperture」「Top P」を何度も微調整して実施してみました。
その結果、以下が最も正答率が高くなりました。
どう頑張ってもfは正解が難しそうでした。

## 問11 チャットボット導入における開発計画の監査に関する設問解答

**設問1 表1の監査手続案について**
**(1) 表1中の a b に入れる適切な字句**
* **a:** 学習用 (5字) ×
* **b:** 手作業入力 (5字) 〇
**(2) 表1中の c に入れる適切な字句**
* 目標レベル (5字) 〇
**(3) 表1中の d に入れる適切な字句**
* レビュー (4字) 〇
**設問2 [監査部長の指示]について**
**(1) 本文中の e に入れる最も適切な字句**
*  〇
**(2) 本文中の f ~ h に入れる適切な字句**
* **f:** FAQ (3字) ×
* **g:** 本番移行 (4字) 〇
* **h:** 受入テスト (5字) 〇
**解説**
**設問1**
**(1) a, b について**
* **a:** 項番1のリスクは「追加の機械学習後のテスト結果では効果があったにもかかわらず、本番運用において効果が認められない」ことです。これは、テストデータが学習データと同一である場合などに起こりうる過学習のリスクを想定しています。監査手続では、**学習用データ**とテスト用データを分けて準備しているか確認することで、このリスクに対応しようとしています。
* **b:** 項番2のリスクは「類義語 DB の整備が不十分であったことによって、新製品に関する問合せに対して新 CB が適切な回答をしない」ことです。新製品に関する語句は、初期状態の類義語 DB には含まれていない可能性が高いため、**手作業入力機能**による類義語 DB の整備計画を確認することで、このリスクに対応しようとしています。
**(2) c について**
* 項番3のリスクは「受入テスト結果では当初予定の導入効果がなかったにもかかわらず、再学習などの対応を実施せず、本番運用に移行する」ことです。監査手続では、本番移行の可否判断で使用する評価項目と、その項目に設定した具体的な効果の**目標レベル**が定められているか確認することで、効果が不十分なまま本番運用に移行するリスクに対応しようとしています。
**(3) d について**
* 項番4のリスクは「テストにおいて不具合を発見した際に原因箇所の特定に時間を要したり、同じ不具合が本番運用で発生したりする」ことです。監査手続では、テスト結果と不具合の対応状況を文書化し、プロジェクト関係者による**レビュー**を適切に実施する計画を確認することで、不具合管理の不備によるリスクに対応しようとしています。
**設問2**
**(1) e について**
* 監査部長の指示(1)は、機械学習のサーバ処理に時間がかかるというPoCの結果を踏まえ、**性能要件**がPoCの実績データから導かれているか確認することを指示しています。機械学習の処理時間は性能に関わる非機能要件であるため、解答群の中から最も適切なものは「イ 性能要件」となります。
**(2) f, g, h について**
* **f:** 監査部長の指示(2)は、新製品だけでなく、**現行のFAQ**に関する問合せへの回答についても学習用データが不十分である可能性を指摘しています。現行CBの課題を踏まえ、既存のFAQに対する回答品質も向上させる必要があるという観点から、学習用データの範囲を確認することを指示しています。
* **g:** 監査部長の指示(3)は、新CBの有効性を確保するために、**本番移行**に先立って、プロジェクト運営委員会が導入効果の見込みを評価する計画を確認することを指示しています。本番移行前に改めて効果を見込む計画になっているか確認することで、効果が不確実なまま本番運用を開始するリスクを低減しようとしています。
* **h:** 監査部長の指示(4)は、現行CB導入時の問題点を踏まえ、今後の開発プロセスにおいて**顧客サービス部による受入テスト**が適切に実施される計画になっているか確認することを指示しています。顧客サービス部は実際にチャットボットを利用する部門であり、その部門が受入テストを適切に実施することで、現場のニーズに合致したシステムとなることを担保しようとしています。

4-2.令和6年 春 問11結果

模範解答は以下のようになっています。

https://www.ipa.go.jp/shiken/mondai-kaiotu/m42obm000000afqx-att/2024r06h_ap_pm_ans.pdf
令和6年度春期試験 問題冊子・解答例・採点講評・配点割合(PDF)

GPT o1の回答:

ほぼ全問正解でした。

(空白改行があまりに多かったので冒頭完全省略しています!)
# 最終的な解答例
1. **設問1** (a~d 各10字以内)
a:業務パッケージ選定 〇
b:リスク委員会承認  〇
c:保留ファイル更新 × (正直丸にしたいレベルですが、文章を読むとcに対する作業とあるので、更新を入れると微妙になります。本番であれば△はもらえる回答です。)
d:一定額超過 〇
2. **設問2** (e について20字以内)
> 承認メール含む証憑類の不備確認作業 〇
> (または「承認メールを含む証憑類のチェック」などでも可) 
3. **設問3** (f について)
> 表1の 項番「3」 〇
4. **設問4** (g, h 各10字以内)
g:調達用支払先 〇
h:減額支払申請入力 〇
以上が,それぞれ問題文の要件(文字数制限等)を満たす形での模範的な解答例となります。

GPT o3-mini / Searchの回答:

以下が私見を踏まえた各空欄への回答例です。

設問 1a: 初回ログイン ×
b: 初期パスワード変更 ×
c: 保留ファイル更新処理 ×
d: 一定額超過 〇


設問 2
経理部が支払予定データに添付された証票類の内容確認を完了していること

設問 3
f:3 〇

設問 4g: 調達用支払先 〇
h: 減額申請入力 〇


これらの回答は、各業務プロセス(たとえば初回ログイン時のパスワード変更や、取込後の保留ファイル更新処理、一定額超過の場合の承認要件、さらには調達用支払先の利用や減額申請入力による重複防止)に基づいた内容となっています。

GPT o3-high / Searchの回答:

以下、各設問ごとの回答例を示す。

■ 設問 1(ada: 「要件定義段階」 ×
 ※新システム導入に際し,規程不適合機能の採用判断は要件定義時に行われると考えられる。
b: 「リスク委員会承認」 〇
 ※規程に合わない機能採用時は,対応策を含むリスク委員会の承認が必要である。
c: 「保留ファイル更新」 ×
 ※取込時エラーで保留ファイルに格納されたデータの更新処理の実施状況を評価する。
d: 「一定額超過」  〇
 ※支払規程上,支払金額が一定額を超える場合は上位承認が必要となるため。


■ 設問 2(e について)e: 「証票類の不備確認完了」  〇
 ※経理部が支払予定データに付随する証票類の不備がないかを確認し,問題があれば未承認に戻す処理が完了しているかどうかを確かめる。


■ 設問 3(f について)f: 「3」  〇
 ※昨年度の指摘事項(調達実績データと支払予定データの不一致)は,表1項番3の監査要点に該当する。


■ 設問 4(gh について)g: 「調達用支払先」  〇
 ※調達管理システムと異なる支払申請入力で誤って採用してしまうべきでない支払先を示す。
h: 「減額申請入力」  〇
 ※支払遅延防止のための追加申請後,重複防止のための減額申請入力が必要であるが,それを実施していなかった状態を指す。
以上が各設問に対する一例の回答となる。

DeepSeek-R1/Searchの回答:

さすがはDeepSeek。o1に匹敵するというのは頷けそうです。

設問1
a: 設計 ×
b: リスク委員会の承認 〇
c: 保留ファイル 〇
d: 一定額を超過 〇
設問2
e: 証ひょう類の不備チェック 〇
設問3
f: 3 〇
設問4
g: 調達用支払先 〇
h: 減額申請入力 〇
解説
設問1
a・b: パスワードポリシーが規程に適合しない部分について、システム移行時の設計段階でリスク委員会の承認を得たか確認が必要。
c: 支払予定データ生成時にエラーではなく保留ファイルに格納されたケースの対応を評価するため、「保留ファイル」の作業確認を追加。
d: 一定額超過時の承認プロセス(電子メールによる二重承認)が適切か重点的に確認。
設問2
e: 振込データ作成前に経理部が証ひょう類の不備をチェック完了していることが必須(運用概要③参照)。
設問3
f: 昨年度の差異問題は「支払予定データが調達実績データと一致しない」ため、項番3の監査要点に対応。
設問4
g: 調達用支払先は調達関連以外で使用禁止(運用概要④)。誤使用が差異原因の可能性。
h: 追加支払後に重複防止のため減額申請入力が必要(運用概要⑥)。未実施で差異発生。

gemini-exp-1206の回答:

先ほどは満点でしたが、ここで一問不正解になります。
※ちなみにこのaの回答は私が本番で間違えた問題です(笑)

設問1
* a: 設計 ×
* b: リスク委員会の承認 〇
* c: 保留ファイル 〇
* d: 一定額超過 〇
設問2
* 証ひょう類に不備がないかのチェック 〇
設問3
* 3 〇
設問4
* g: 調達用支払先 〇
* h: 減額の支払申請 〇

Gemini 2.0 Flash Thinking Experimental 01-21の回答:

ここにきてまさかの全問正解です。

## 解答
**設問 1**
* a: 業務パッケージ選定 〇
* b: リスク委員会の承認 〇
* c: 保留ファイル 〇
* d: 一定額超過 〇
**設問 2**
証ひょう類の不備チェック 〇
**設問 3**
3
**設問 4**
* g: 調達用支払先 〇
* h: 減額の支払申請 〇


総評

結果は以下のようになりました。

GPT4oに成績順にしてもらいました。

まず、驚くべきことに1位はまさかの「gemini-exp-1206」でした。
2位は以前私が最強とつぶやいた「Gemini 2.0 Flash Thinking Experimental 01-21」です。
そして、今話題のDeepSeekは実際にo1に匹敵する力を持っており、同率3位です。そしてまさかの4oがそこにめり込んできました(笑)
悲しいのが本日登場したo3です。highminiが出たのですがminiは非常に正答率が低く、4oにも及びませんでした。


まとめ

今回も速報!ということで駆け足で紹介いたしました。
皆さんも実際に利用して、その違いを共有してもらえたら幸いです。
ちなみに、今回順位の低かったo3は文章読解能力は低かったかもしれませんが、コーディング能力は非常に向上していると予想しています。こちらは次回の記事で検証していきます!!

本日は以上になります!
コメントやいいね頂けると幸いです('◇')ゞ

※補足
Claude3.5がないじゃないか!と思いますが、実は検証途中に無料会員の制限が来てしまいました(笑) ただ、少なくとも1位に躍り出るという気配はありませんでした。

いいなと思ったら応援しよう!

この記事が参加している募集