見出し画像

リーディングスキルテストを最近のAIに解かせてみた

新井紀子氏とリーディングスキルテスト

新井紀子氏は、数学者であり、AIに対する深い洞察を持つ研究者です。彼女は人工知能(AI)がどのようにして人間の知能と異なるかを探求し、特に読解力に関するAIの限界を浮き彫りにしました。その研究の一環として、「リーディングスキルテスト(RST)」が開発されました。

このテストは、中学3年生レベルの教科書を正確に読み取る能力を評価し、推論、同義文判定、具体例同定などの問題で構成されています。RSTの結果は高校の偏差値と高い相関関係があり、生徒の将来の学業成績を予測する上で重要な指標となっています。

新井紀子氏の著書「AIに負けない子どもを育てる」の中にリーディングスキルテストの問題が28問載っています。この著書は令和元年の出版ですから、その時点でのAIの能力をもとに記述されています。
それから5年、生成AIのニュースは毎週のようにアップデートされています。
5年前と比べ、AIはどの程度限界を超えてきたのでしょうか。
手軽に試すことができる4つのAIに問題を解かせ、比較してみました。
※ いずれも無料版を使用しました。

リーディングスキルテストは、文章の読解力を測定・診断するツールで、6つの主要な分野から構成されています。これらの分野は、読解プロセスの異なる側面を評価するように設計されています。

リーディングスキルテストの6つの分野

  1. 係り受け解析
    この分野では、文章の構造を正しく理解する能力を測定します。「誰が」「何を」「どうした」のような基本的な文の構造を正確に認識できるかを評価します。

  2. 照応解決
    文章中の指示語や代名詞が何を指しているかを正確に理解する能力を測ります。文脈から適切に参照先を特定できるかを評価します。

  3. 同義文判定
    異なる表現で書かれた文が同じ意味を持つかどうかを判断する能力を測定します。言い換えや表現の違いを理解し、本質的な意味を把握する力を評価します。

  4. 推論
    文章に明示的に書かれていない情報を、常識や既存の知識を用いて推論する能力を測ります。文脈から適切な結論を導き出せるかを評価します。

  5. イメージ同定
    文章の内容を適切な図やグラフと結びつける能力を測定します。テキスト情報を視覚的な表現と正確に対応させられるかを評価します。

  6. 具体例同定
    抽象的な概念や説明に対して、適切な具体例を選択する能力を測ります。理論や一般的な説明を実際の事例と結びつけられるかを評価します。

これらの6つの分野を通じて、リーディングスキルテストは総合的な読解力を多面的に評価し、学習者の強みと弱みを特定することができます

選手紹介

Gemini君
Geminiは、Googleが開発したマルチモーダルAIモデルです。テキスト生成だけでなく、画像や音声の処理も可能です。Googleのサービスとの連携が強みで、論理的な文章生成や事実に基づいた回答が得意です。

ChatGPT君
OpenAIが開発したChatGPTは、創造的な文章生成や多様な質問への回答に優れています。常に最新のAI技術が搭載されており、詩やコードの作成など幅広いタスクをこなせます。

Claude君
Anthropic社が開発したClaudeは、安全性と倫理性を重視したAIモデルです。専門性の高い質問やプログラミングに関する質問に強く、高度な推論能力を持っています。

Perplexity君
Perplexityは、最新のウェブ情報を活用したリサーチ特化型AIです。引用元を明記した情報提供により高い信頼性を実現し、リアルタイムなウェブ検索機能を持っています。学術研究やジャーナリズムなど、正確な情報が求められる分野で特に有用です。

結果発表

※イメージ同定のみ、図のテキスト情報が読み取れず、解答が生成されませんでした。そこを除いた結果となります。
1が正答 0が誤答

結果一覧
難易度別
分野別

やってみた感想

AIに解かせてみた感想を述べます。(それぞれの問題には、言及しません。)
問題を解かせると、そのような解答をした経緯を説明してくれるので、それぞれ特徴が分かるんですよね。まるで、学級にいる子どものようです。
Claude君
正答率1位の優等生。文句なしです。誤答の説明をみると「そこまで、読んで間違えたの?君らしいね。先生も納得する間違え方だ。」という感じです。
Perplexity君
正答率2位です。でもね~、カンニング感丸出しなんですよ。
「先生、ほら、ここに書いてあるよ。見て、見て!」
リーディングスキルなのにほかの情報を参照しているの見せるなよ!他の子たちも確かにカンニングしてるんだけどさ。まあ、そういうモデルだから仕方ないんだけど。
ChatGPT君
うっかりさんでした。解答を見て、
「ここにこう書いてあるけど、その答えでいいの?」
と問い返すと、
「申し訳ありませんでした。見落としてました。改めて順を追って考えます。」
と言って、直してくれます。いくつかやりとりすると、きちんと正解までたどり着きます。
Gemini君
自分の考えを変えない頑固者です。解答傾向はChatGPT君に似ていますので、同じように指摘すると、
「申し訳ありませんでした。そのように捉えることができます。ただし、~なので、解答は〇番で変わりません。」
何度、説得しても直してくれないことがありました。
具体例同定(普通)の問題では、問題が悪いと言い出して、選択肢を作り替えてしまいました。「私は意味を正しく捉えていませんでした。」とか言いながら…。

まとめ

どれくらいの正答率が「高い」といえるのか基準がないのではっきりいえないのですが、Gemini君以外は、多くの人より高い正答率を示しているといえるのではないでしょうか。

リーディングスキルを身に付けさせる教育は、「AIが苦手な分野だから」として始まったと記憶しています。
さて、この結果から、AIはリーディングスキルが苦手といえるのでしょうか。優等生のClaude君にインタビューしてみましょう。

:Claudeはリーディングスキルをもっていますか?

:はい、私は高度なリーディングスキルを持っています。テキストを理解し、分析し、解釈する能力があります。様々な言語や複雑な文章も読み取ることができます。ただし、現在の会話の中で新しいテキストや外部リンクを読むことはできません。会話の中で直接提供されたテキストのみを読み、理解することができます。

リーディングスキルはもちろん大切です。文章が読めないと何もできないですから。でも、AIとの対立構造で考えるのはよくないと思います。
どんなに頑張ってもリーディングスキルが伸びない子どももいるのです。そういう子たちこそAIに手伝ってもらえばよいのです、
私は「AIを使いこなす子ども」を育てることも大切にした方がよいと思います。

いいなと思ったら応援しよう!