見出し画像

リーディングスキルテストを最近のAIに解かせてみた②

イメージ同定をさせるにあたり

前回は、「イメージ同定のみ、図のテキスト情報が読み取れず、解答が生成されませんでした。そこを除いた結果となります。」という状況でした。
今回、イメージ同定用の図にテキスト情報を入れてAIに読み込ませてみた結果です。

イメージ同定とは?
文章の内容を適切な図やグラフと結びつける能力を測定します。テキスト情報を視覚的な表現と正確に対応させられるかを評価します。

イメージ同定の結果発表

1が正答 0が誤答

イメージ同定結果

易しい問題以外、全滅でした。
考察は、後段で。

総合結果発表

1が正答 0が誤答
イメージ同定の結果は、「イメージ易・普・難・超難」の所を見てください。

結果一覧
難易度別
分野別

イメージ同定の結果を入れると、リーディングスキルテストの正答率はかなり落ちてしまいます。
どこがだめだったかについては、この後述べていきます。

イメージ同定:各問題の解答について

世界の人口組成について、適当な帯グラフをすべて見つける。
ChatGPT君のみ、正解1つの所を2つ選んでしまいました。あとは、すべてのAIが正解しました。
ChatGPT君に間違っている図について「アジアが6割を超えていますか」と問い返したところ、

図をよく見ると、アジアの部分が全体の半分以上を占めていますが、6割には達していないように見えます。そのため、アジアが6割以上を占めているという条件には一致していません。

と間違いを素直に認めて正解に到達しました。


普通

冬の季節風の流れ方を表す図として適当なものをすべて選ぶ。(矢印で風の流れや水・水蒸気の流れが示してある。)
全滅でした。
問題文の意味は理解していました。しかし、図が読めません。どのAIも矢印の色や方向を読み違えていました。水・水蒸気の矢印の位置の特定もできないようでした。
この問題の正解番号を教えて、その理由を説明させたところ、すべてのAIが正しく説明しました。
では、選択肢ではなく、イメージ化させてみるとどうでしょうか。

AIは問題文のイメージ化ができるのか①?:プロンプト
冬の北西からふく季節風は、暖流の対馬海流が流れる日本海をわたるときに大量の水蒸気をふくむため、日本海側の地域に雨や雪を降らせる。太平洋側では、山脈をこえた乾いた風がふいて晴れの天気が続く。 これを模式図に表してください。


Gemini君
合っているような気がします。

冬の季節風: シベリア高気圧から日本に向かって北西の季節風が吹きます。
日本海側: 季節風が対馬海流の上を通過する際に暖流から大量の水蒸気を得て、湿った空気となります。この湿った空気が山脈にぶつかり上昇することで、雲が発達し、日本海側に雨や雪を降らせます。特に、山脈に近い地域では大量の雪が降る豪雪地帯となります。
太平洋側: 季節風が山脈を越える際に水蒸気を失い、乾燥した風となります。そのため、太平洋側では晴天となることが多いです。

ChatGPT君
DALL·E3という画像生成AIを使うので分かりにくいです。英語を日本語にしてもらおうとしたらますます意味不明な図を作りました。(載せません。)

こちらが、冬の北西から吹く季節風とその影響を模式図にしたものです。日本海側に雨や雪を降らせ、太平洋側では乾いた風が晴天をもたらす様子を示しています。

Claude君
説明を読むと合っているような気がします。対馬海流が変だけど。

日本海:図の上部に描かれています。
対馬海流:暖流を表す橙色の矢印で示されています。
冬の季節風:北西からの風を青い矢印で表現しています。
日本列島:中央に緑色で描かれています。
日本海側の雨や雪:列島の左側(日本海側)に描かれています。
太平洋側の晴れ:列島の右側(太平洋側)に太陽のマークで表現されています。
太平洋:図の右下に描かれています。
この図は、冬の季節風が日本海を渡る際に水蒸気を含み、日本海側に雨や雪をもたらす一方で、太平洋側では山脈を越えた乾いた風が吹いて晴れの天気が続くという現象を簡潔に表現しています。

Perplexity君
ネット上の参考となる図表を表示してくれました。賢い。


AIが、問題のイメージ化ができるということは、内容が理解できているということです。
このような問題を解ける年齢の人間は、それまで、教科書を含め多くの図を目にしてきています。問題文に書かれていないことも、簡単な図に自分の経験から得てきた情報を無意識に補って読んでいます。だから、悪文であっても読めるのです。
現状のAIはそういったトレーニングが足りないだけだと思われます。
ついでに、日本語が上手だといわれるClaude君に、問題文を小学生にも分かるように書き直してもらいました。

冬になると、北西から冷たい風が吹いてきます。この風は日本海を渡ってくるんだけど、その時に面白いことが起こるんだ。日本海には暖かい海流(対馬海流)が流れているから、冷たい風が暖かい海の上を通ると、たくさんの水蒸気を集めちゃうんだよ。
そうすると、日本海側の地域では、その水蒸気が雨や雪になって降ってくるんだ。だから、冬の日本海側はよく雨や雪が降るんだよ。でも、太平洋側はどうかな?風は山を越えてくるから、水蒸気を雨や雪として落としちゃって、乾いた風になるんだ。
だから、太平洋側ではお天気が良くて、晴れの日が多いんだよ。
このように、同じ日本でも場所によって冬の天気が違うんだね。

子どもたちに、難読の悪文の読み方を学習させるより、AIに分かりやすく書き直してもらった方が、有益ではないかと思わされますね。


領空・領土・領海・経済水域などがどのように決まるかを示した図として適当なものをすべて選ぶ。(矢印で範囲を示してある)
Gemini君、Claude君ともにまぐれ当たりでしたの不正解とし、全滅です。この2つについて、説明を見てみましょう。

Gemini君
間違っている図の説明が「経済水域が島を取り囲んでおらず、不自然な形になっています。」「 領海が島を取り囲んでおらず、不自然な形になっています」というものです。いやいや、全部島を中心に同心円で囲んであるんですけど。

Claude君
「領海の範囲が12海里ではなく200海里となっている。」「経済水域の範囲が200海里ではなく、別の数値になっている。」というものです。いやいや、そんな図一つもないんですけど。


この問題も正解の図の番号を教えて、正解の理由を説明させたところ、すべてのAIが正しく説明しました。
前の問題と同じく、図も書かせてみましょう。

AIは問題文のイメージ化ができるのか②
Gemini君

読み方間違ってるけど、よくできてます。

ChatGPT君

合ってないけど、それらしいものはできました。

Claude君

各エリアの説明を記します
中心の黄色い円:領土(島)-これが国の土地部分です。
水色の円領:海-島の周りの12海里(約22km)までの海です。
この海は完全にその国のものです。
ピンク色の曲線:領空-領土と領海の上にある空間です。
地上から上空まで国の空域となります。
薄い青色の大きな円:経済水域-島から200海里(約370km)まで広がる海域です。この海域では、魚や海底資源の管理ができます。
※この図を見ると、島を中心にして各ゾーンがどのように広がっているかが一目で分かります。内側から外側に向かって、領土、領海、経済水域と広がっており、領空は領土と領海の上にあることが示されています。

よくできています。分かりやすいです。

Perplexity君

図の説明
領土(陸地): 島そのものを表す。
領海: 島の周りの海で、海岸線から12海里(約22キロメートル)までの範囲。
領空: 領土と領海の上空の部分。
経済水域(EEZ): 領海の外側で、海岸線から200海里(約370キロメートル)までの範囲。沿岸国が水産資源や鉱産資源を優先的に利用できる。

プログラミングして出力しようとしたようですが、途中で力尽きたようです。いいところまでいっています。ただ、生成されたコードの中に「領空」という文字は見られませんでした。

先ほどの問題と同じように、同定する能力は低いですが、それはトレーニング次第だと思われます。何を求めればよいかは、分かっているように思えます。AIが描こうとしている図に近いものだったら、同定できるのかもしれません。


超難

各年齢の収支の棒グラフから「私の貯金総額は12歳の頃から毎年増えている。」の主張の根拠となる図として適当なものをすべて選ぶ。

全滅です。

それぞれのAIに解き方を問いました。

Gemini君
貯金が増えていることを示すには、何の推移を見るべきか?
貯金は、収入から支出を引いた残りの金額です。したがって、貯金が増えていることを示すには、収入が支出を上回っている状態が続いていることを確認する必要があります。

ChatGPT君
図を観察する
: 各年齢ごとの収入と支出の額を比べ、どの図が「毎年貯金が増える」状態を示しているか確認します。つまり、収入が支出を上回る状態が続いている図が正解です。
毎年増える状態を確認: 「毎年増えている」という条件を満たすためには、全ての年齢において収入が支出を上回っていなければなりません。これをグラフで確認します。

Claude君
貯金総額の増加を示す条件: 貯金総額が増えるためには、毎年の収入が支出を上回る必要があります。

Perplexity君
12歳から19歳までの各年齢において、収入が支出を上回っていることを示す必要があります。

みんな素晴らしい。解き方が分かっているじゃないですか。
でも、全滅でした。
AIのグラフの分析を見てみましょう。下のようなグラフです。

ChatGPT君の例です。
図③
12歳 (収入: 40千円, 支出: 20千円)収入が支出を20千円上回り、貯金が増加します。(本当は収入: 110千円, 支出: 100千円)
13歳 (収入: 50千円, 支出: 30千円)収入が支出を20千円上回り、さらに貯金が増加します。(本当は収入: 110千円, 支出: 80千円)
14歳 (収入: 60千円, 支出: 40千円)収入が支出を20千円上回り、貯金が増加します。(本当は収入: 100千円, 支出: 60千円)
15歳 (収入: 60千円, 支出: 60千円)収入と支出が同額で、貯金は増えません。(本当は収入: 100千円, 支出: 50千円)
16歳 (収入: 60千円, 支出: 70千円)支出が収入を上回り、貯金が減少します。(本当は収入: 100千円, 支出: 60千円)
17歳 (収入: 60千円, 支出: 80千円)支出が収入を上回り、さらに貯金が減少します。(本当は収入: 100千円, 支出: 70千円)
18歳 (収入: 60千円, 支出: 90千円)支出が収入を上回り、さらに貯金が減少します。(本当は収入: 100千円, 支出: 80千円)
19歳 (収入: 60千円, 支出: 100千円)支出が収入を上回り、さらに貯金が減少します。(本当は収入: 100千円, 支出: 90千円)

棒グラフの数値が、全然数字読めていません。
どのAIもこの例のごとく、棒グラフの数値をまったく読めていませんでした。

では、「AIは棒グラフを読むことができない」のでしょうか?
いくつか実験してみました。


実験その1
「数字は読まなくていいので、各年ごとの収入と支出の高さ比べをしてください」と指示
結果:できない。どちらが高いか分からない。もっといえば、どことどこを比べているのかさ分からない。

実験その2
「棒グラフの縦軸の目盛り20千円ごとに補助線を入れる」「年齢同士の間隔を広くする」というグラフ作成し読み込ませる
結果:できない。
その1とほぼ変わらない。

実験その3
「12歳から19歳までの棒グラフ」→「12歳から14歳までの棒グラフ」として、「年齢同士の間隔をかなり広くする」というグラフ作成し読み込ませる
結果:できない。

人間は2本の棒のどちらが高いかは一目で分かります。AIはそうではないらしいです。(指示の出し方で結果が違う可能性はありますが…。)
では、Excelで作って、データラベルを付けたグラフではどうでしょうか。

実験その4
Excelで作った下のグラフを読み込ませる。

結果:全AIが正解。グラフに数字を入れてあげるだけで読み込めるようになりました。AIに渡すデータを工夫すれば、イメージ同定の超難問もクリアできるようです。いわゆる「合理的配慮」というものです。

イメージ同定についての考察

全体的な印象としては、
・解き方の手順は分かる。
・正解が分かれば解説はできる。
・問われていることは分かっている。しかし、人間への説明用に描かれた図を正しく読む訓練はされていない。
・図を選ぶことはできないが、描くことはできる。(作図機能は、発展途上である。現時点では中途半端だが、合格点は出せる。)
・数値のない棒グラフは読めない。しかし、数値を付与するだけで、正しい正解を導き出すことができる。

他の分野に比べると、著しく結果は劣ります。
ただ、解答の内容を調べていくと、図形認識領域がトレーニングされていないだけのようです。大規模言語モデルですから、その通りの結果だともいえます。
今回、どうすれば正しい解答をするのかといろいろ試してみました。
そのうちに自分のやっていることが発達障害をもつ子どもへの対応とまったく同じことに気付きました。
現在のAIは、まだまだ発展途上です。間違えることもありますが「合理的配慮」をすることで、正解に導くことができます。これが「プロンプトエンジニアリング」につながるんだということが実感として理解できました。

5年前、新井紀子氏が「AIに負けない子どもを育てる」を執筆した当時、個人が複数のAIを使用して実験を行うことは困難でした。しかし現在では、1台のパソコンやスマートフォンで、そのような実験が可能になっています。AIの進化速度は驚異的で、最新情報を把握するには週単位でニュースをフォローする必要があります。

一方で、子どもたちのリーディングスキルの習得には時間がかかります。これは一朝一夕で身につくものではありません。

重要なのは、「リーディングスキルを身につけること」と「AIを使いこなすこと」が対立概念ではないという点です。AIは人間の仕事をサポートするツールであり、敵対するものではありません。

両者のバランスを取りながら、子どもたちの総合的な能力を伸ばしていくことが重要です。

ただ、AIの進化速度を考えたとき、リーディングスキルを9年間掛けて身に付けたところで、多くの子どもたちはAIには勝てないです。

堀江貴文氏は以下の投稿にあるように、
「人工知能は人間の知能を超えていく。AIの進化を恐れる必要はない。人間の脳の機能拡張と捉えて、AIを活用するべき。」
と最近いろいろなところで述べています。

私自身も、AIをどう活用するかという視点で、今後の教育は進んでいくべきだと考えます。

いいなと思ったら応援しよう!