David Marr氏の３つのレベル

2025年2月21日 13:40

David Marrさんの話をしたいと思います。残念なことに30代半ばで夭折されてしまったのですが、ご存命ならば今のAIの画像認識等の技術をもっと発展させていたかもしれません。詳しくはググっていただければわかりますので簡単にご紹介しますと、「視覚」についての研究でインパクトのある仕事をされた方です。現在のAI界隈でも氏の影響を受けているところはあると思います。

これは「ニワトリと卵」という感じなのですが、Marr氏の提唱した考え方がコンピュータサイエンスに影響を与えたのか、コンピュータサイエンス的なものの考え方をMarr氏が視覚研究に持ち込んだのかは私には分かりません。

Marr氏が提唱した考え方とは、「視覚」研究において、
①　視覚の情報処理において解くべき問題の把握（計算論のレベル）
②　①の問題を解くための表現やアルゴリズムの考案（表現とアルゴリズムのレベル）
③　視覚情報処理システムをいかに実装するか（インプリメンタルなレベル）
の３つのレベルがあるということで、特に②については２ 1/2（２と２分の１、2.5次元とも言います）スケッチなどという表現が印象的です。これも詳しいことは他の方が書いておられるのでそちらに譲ります。

私が申し上げたいのは、この３つのレベルの考えには普遍性があるということなのです。あるコンピュータサイエンスの教授が、コンピュータサイエンス的な考え方は問題解決というもっと広い場面でも強力であるという趣旨の話をされているのを拝聴したことがありますが、Marr氏の３つのレベルの考え方にも同じようなことがいえます。

難関中学の入試問題をつまみ食いして強く感じたのは、入試問題なので①については既に明らかになっているわけですが、②のレベルの能力を専ら問うているのではないかということです。

2025年の開成中学の入試問題で東海道新幹線の列車種別名を人の名前にした問題がありました。再掲しましょうか。

この問題に対する解答案については既に投稿していますが、この問題を眺め直してみますと、ア、イ、ウの道の距離の比を時間の比（等速運動なので距離と時間は比例します）に読み替えてダイアグラムをかくという発想を得ました。下図のようになります。

グラフが交わるということは出会うということの必要条件で、十分条件ではありません。
この図によればのぞみさんとひかりさんは問題文にある地点Ｂでのぞみさんの２回目と
５回目に出会う以外に、道アで一回すれ違うことになりますが、問題文に書かれていない
だけだと判断してしまいました．．．(;^_^A　。こだまさんについては見にくくなるの
で途中でやめていますが、トップとボトムに着く時間をプロットしていくだけで速やかに
かくことができ、(5)を解くとき三角形の相似を利用して求めることが可能です。

のぞみをオレンジ、ひかりを青、こだまを緑で表してみました。ボトムが地点Aでトップが地点Ｂです。付した数字は作図の便宜のために書いただけですので重要ではありません。(3)で道の長さの比が求まった段階でこのような着想が得られます。普通のダイヤグラムと違うのは、グラフが交わっているからといって出会っているとは限らない、つまり必要条件であって十分条件ではないという点です。しかし、グラフのトップとボトムでグラフが重なる場合には必ず出会うことになるので、問題文の情報と照合するのに非常に便利です。速さの比を求めるときには非常にパワフルです。距離が3:1:1ですので移動時間も3:1:1になるということになりますが、このダイヤグラムでは傾き、つまり、速さが変わっているようにみえるという副作用も生じます。ア、イ、ウを移動する時間枠が3:1:1になるように折れ線をかくことの繰り返しです。ア、イ、ウを２巡すれば一つのパターンが完成し、以後はその繰り返しだということ（問題で示されているグラフの含意）も分かります。これなしで問題を解いていた時の不安もこれをかくことで解消しました。余談ながら、開成では、長方形の配列の大問といいこの大問といいルールやパターンが理解できたかをまず問うというケースが散見され、そこで一定程度得点できるという傾向も見てとれました。

また、灘中学の2025年第１日目の展開図からそれからできる立体図形を考えさせる問題（大問12）、以下に再掲しますが、

ここにおいても、完成された立体図形を考える上で、３次元を２次元で考えるためのツールとしての投影図を私は使いました。図工が半端なくできない私には正しい見取り図を描くことが不可能なので、２次元に落とさなければならないのです。

以上紹介したお話は、まさにMarr氏のいう表現とアルゴリズムのレベルでの議論だと思います。現在の生成AIを支え、あるいは今後支えていくのはやはり優れたアルゴリズムの考案でしょうからこれらの問題はそうした要請を察知してのものではないかと思ったりします。

解決しなければならない案件が生じたとき、
①　解決するためにはどのような問題を解かなければならないかを特定
②　その問題を解くのに必要な表現とアルゴリズムを考案
③　問題解決を実現するための手段の選定
ということを意識することが非常に役に立つと思います。

小学生にもこのことを認識させてトレーニングをすることが「入試対策」としても有効でしょう。変なテクニックを教えるよりもずっと充実した学習になるに違いありません。

締めくくりとしてDavid Marr氏の文献情報を書いておきます。いま読んでも色あせない名著だと思います。

Marr, D (1982)
Vision: A computational investigation into the human representation and processing of visual information. New York, NY: W. H. Freeman & Company.
乾敏郎，安藤広志　訳（1987）
『ビジョン－視覚の計算理論と脳内表現－』　産業図書

David Marr氏の３つのレベル

いいなと思ったら応援しよう！