サーベイ論文を書く意味

筆者:瀧川永遠希(Towaki Takikawa)

本記事ではコンピュータグラフィックスのサーベイ論文界隈のトップカンファレンスであるEurographics State of the Art Report(通称STAR)にニューラル場のサーベイ論文を投稿するまでの経緯を書きます。(まだ採択されたわけではないので、あしからず!)

はじめに

こんにちは!トロント大学のPhD課程に所属する瀧川永遠希と申します。
NVIDIAという謎の半導体企業の研究所のハイパースケールグラフィックスシステム部署でもリサーチサイエンティストとして所属しています。学部はウォータールー大学という奇妙な大学に通いました。今回の記事cvpaper.challenge 〜研究成果を世に送り出すまでのストーリー〜 Advent Calendar 2021という企画の一環として投稿させて頂いています。

研究のきっかけ

cvpaper.challengeに出会ったのは2019年B3の夏、Preferred Networks社さんで研究インターンとして人生で初めて長期来日していた時でした。ロクに日本語も話せない私でしたが、それでも日本での生活は毎日が楽しく、移住も考えました。神田や新橋の飲み屋街に集まるスーツ姿の働く方たちを見かけながらここでは本当にドラマで見た世界観が繰り広げられているのだな、などとアホな事を考えていました。

当時の私は大学の卒業が迫りくる中、進路についてかなり迷っていました。「やってみる」のノリではじめた研究でしたが、日本に来る直前に取り組んでいた研究が運良く(運悪く?)順調に進み国際会議に採択されてしまったのもあり、研究者という道を本気で検討していました。卒業前に日本に来ようと思ったのも自分の将来について考える一環でした。

同時に、研究するのみならず良い研究をする事の難しさや辛さもそれなりに理解しているつもりではありました。当時は自分にそれを乗り越える器量があるとはとても思えず、大学院に出願しても(成績の悪さなども考慮して)そもそも受かる事は無いと思い、研究に対して少し消極的になっていました。ビギナーズラックで進路を決めてもいけない、などとも考えていました。

​かかわらず、まあせっかく日本にいるのだし、自分の進路について考えるためにも日本の研究者と繋がろうと思っていました。早速ツイッターで見かけていて面白そうだなと思っていたcvpaper.challengeに連絡してみたら、片岡さんから早稲田大学での研究ミーティングに誘われました。

行ってみるとこれが楽しく、コンピュータビジョンという興味一つで世界中の人と繋がれるのは素晴らしいことだなと思いました。自分の基礎の理解の浅はかさ等も再認識し、分野の論文全てを読破しようとするcvpaper.challengeの意欲や志の高さには心打たれました。ミーティング後も井上さんや八木さんなどからためになる話をたくさん聞きました。

その後もcvpaper.challengeのミーティングで聞いた「早稲田大学と南カリフォルニア大学の連携による研究」の話をもとにICCV 2019でPIFuのポスターに立ち寄りニューラル場の研究に出会い、自分もこういう面白い研究がしたいなと思いました。そこで知り合った(サーベイ論文の共著者でもある)斎藤さんに後々、進路に関する相談を聞いてもらったりもしました。

人間関係は勉強と大変よく似ていると思います。日本に降り立った私は(少なくとも現実世界での)知り合いなどは殆どいなく、白紙からはじめてどこから勉強していいのかも分からない感覚と似ていました。

それがたった数人との繋がりがきっかけとなって指数的に繋がりが増え、それが機会へと変遷していく様は基礎を(再)学習する事で理解できる論文の広さや深さが指数的に増えたり、知らない分野を勉強することで思いもよらない繋がりを見つける現象を彷彿とさせました。研究は勉強や人間関係のように自分を指数的に成長させる事のできる素晴らしいものなのではないかと思い始めました。これからも基礎と人間関係を大事にしていきたいと思います。

cvpaper.challengeは自分が研究に対して本気になろうと思ったきっかけの確かな一部であったと見返してみて思います。cvpaper.challengeはそのコミュニティの大きさが大変な魅力でもあると思うので、若手の人ほど参加するべき!と思います。

座標(以下略)

私は昔から「形状」に興味があり、小中時代は3Dモデリングとゲーム制作、高校時代はCADとロボット制作にあけくれ、当初は大学でも機械工学を学ぶ予定でした。結局、工学は学費が高いので断念するも、大学でも部活やインターンを通して自動運転車開発、研究では画像から「形状」を推定する領域分割に取り組みました。畳み込み深層学習が台頭する中、古典的なグラフカットやレベルセット手法を領域分割の権威であるユーリ・ボイコフ教授の指導の元で学ぶことができたのがとても幸運でした。

PhD課程でも同じく「形状」の研究がしたいと思い、トロント大学では(CG寄りの)形状処理アルゴリズムの専門家であるアレク・ジェイコブソン教授、またNVIDIAでのインターンでお世話になったサーニャ・フィドラー教授の研究所に応募しました。

形状といっても色々なので、中でも「陰関数からなる表面」に特別な興味を持ち始めたのはまだB4だった2019年秋に履修したレンダリング研究セミナーがきっかけでした。

このレンダリング研究セミナーはPFNでインターン同僚だった島田さんから東大のCGの大先生である蜂須賀教授がウォータールー大学に移籍するという話を聞き、それでウォータールーのCG研究について調べていたら見つけたものでした。

セミナーの講師はウォータールー大学の特任教授でありながらNVIDIAの研究ディレクターでもあったモーガン・マクガイアー教授(現・ROBLOX社CSO)。セミナーでは「陰関数からなる表面」がデモシーンというCGのサブカルチャーにおいて主流であるという興味深い話を聞き、教授はDeepSDFやPIFuなどの「座標入力のニューラルネットワークを用いた陰関数による表面」にも強い興味を持っていました。これから形状のみならず色や物理パラメータを表現し、また微分可能レンダリングを用いたニューラル手法がコンピュータグラフィックスにおける改革をもたらすだろうと私に教示しました。(その数カ月後にNeRFが現れて現在変革が起きているようにも少し思えるので先見の明だなととても思います)。

元々領域分割におけるレベルセット手法やICCVで見たPIFuに興味があった私はマクガイアー教授の元でNVIDIAのインターンとして2020年春から研究を始め、大学院でも同じ研究を続けました。

それから「座標入力のニューラルネットワークを用いた陰関数からなる表面」の研究を初めて一年くらいたち、2021年春頃の三次元CV/CG研究界隈はNeRFの話題で持ちきりでした。

当時は(今も)私は「座標(以下略)」は形状の表現として実際のグラフィックスシステムで実用的であるか、の問いに答える為の研究を進めていていました。グリッドやメッシュ等の従来の表現と比べてニューラルネットワークを使う事が何を可能にするのか、という根本的な質問に納得のいく答えを出すことが出来ず、雪崩のように出てくる論文群を読んではフラストレーションを溜めていました。というのも、執筆のペースが早すぎるせいで論文間の引用や比較が甘かったり、古典的な手法が再発明されては学術的貢献として出されていたり、用語や概念などが体系化されていないせいで貢献が分かりにくかったり、なんか炎上していたりで、当時はレッドオーシャンに踏み込んでしまった事や体系化の必要性をツイッターで愚痴っていました。(この辺の批評は勿論、自分の論文にも適用します。)

距離関数や視点依存テクスチャを微分可能ボリュームレンダリングから学ぶ、という研究も当時はしていてそれが先を越されたりもしていて士気が下がっていました。

そんなこんなでPhDの一年目も終わりに差し掛かっていた頃、「サーベイ論文を書かないか」とのお誘いが職場の同僚(リタニーさん)から来ました。

サーベイ論文を書く

リタニーさんから話を聞いてみると、どうやら彼の元同僚であるブラウン大学のスリダール教授が最近の流行りであるNeRFのサーベイ論文を書くプロジェクトを始めていて、最近の論文を沢山読んでいそうな若手研究者である私を誘った、とのことでした。因みに、論文を沢山読んでいそうな印象を持たれていたのは恐らく私が社内のスラックグループに毎日、微分可能グラフィックスに関する論文を片っ端から投稿しているからだと思われます。日頃のフラストレーションを自分で晴らすためにも私は快諾しました。

サーベイチームに加入して私が最初にした事は”我々はNeRFのサーベイではなく座標(以下略)のサーベイをするべきである”との強い主張でした。
この主張は「NeRFは必ずしも表面を表現しているわけではない」、という反論にぶつかり議論を重ねた後、「我々はニューラル場のサーベイをするべきである」という結論に達しました。この方向転換は自らの研究における「ニューラルネットワークを使う事の意義」によく合致しました。

「ニューラル場」という言葉は議論をする上で「座標入力のニューラルネットワークを用いた陰関数からなる表面(や色や物理量など)」という用語はあまりにも冗長なので生まれた言葉でした。ニューラル場についてはこのブログ記事をご参考ください。

それからはひたすら論文を読み続け、引用に対し妥協したくないので過去の論文も含め徹底して調べました。参考までにサーベイする上で使ったリサーチ方法などを挙げます。

■ ​ACM Digital Libraryでニューラルネットワークに関する古いSIGGRAPH関連論文を読み漁る。ニューラル場は少なくとも2004年の時点で表面の表現に使われていた事が分かりました。
■ Google Scholarで関連論文の引用のメーリングリストに登録する。 
■ Google Scholarのサーチ機能を駆使して昔の論文を読み漁る。引用チェーンから関連論文を見つける。
■ ツイッターのDate Searchを駆使してニューラルネットワークがグラフィックス等の文脈で(流行る前に)語られていないかチェックする。
■ 職場や大学などの同僚から彼らはニューラル場に興味を持っているのか聞き出す。

サーベイを実際に書く上で難しかったのは、定義や方針の一つ一つにサーベイメンバーの間で意見の相違があり、全員が納得する結論に達するのに白熱した議論を要したことでした。沢山の論文を読み、ただ要約するだけでなく体系的に分類し、新規性や学術的な貢献を切り離す作業もとても大変でした。実際に論文を読む上で使ってみたリサーチ方法なども挙げます。

​■ 論文はまず応用や結果よりも手法を理解し、一番シンプルなアプローチと比べて何が違うかを調べる。論文はそのまま読むのではなく、ベースラインからのgit diffで読む。
■ 手法を理解すると段々と似たような手法が浮かび上がり、それらをクラス分けすることで体系が浮かび上がってくる。クラスが出来たら今度は古典や深層学習、機械学習全般の論文も調べ繋がりを理解する。(例えばPositional Encodingsの場合、なぜPositional EncodingsがNLPで使われていたのか、など。)
■ 体系が出来上がったら、今度は論文を再度読み論文をクラス分けする。体系が存在すると読みやすくなり、貢献も容易に浮かび上がってくる。

このプロセスをコンピュータビジョンで例えるとするとクラスタリングと調整を繰り返すLloyd's Algorithmでしょうか。モダンな手法だとPointwiseの計算とBlock-wiseの計算を繰り返すPVCNNでしょうか。

このサーベイ論文の執筆から期待される界隈全体への効果も挙げます:

​■ 分野を体系化する事で論文の査読の精度やコミュニティ全般の理解度が底上げされる。
​■ 用語や概念を統一する事で研究者間のコミュニケーションコストが下がり、解釈不一致を防ぐ。
■ ニューラル場の研究への参入敷居を下げ、未解決の問題を提言することで分野全体が盛り上がる。
■ 様々な応用例をハイライトすることで産業応用の敷居が下がる。
■ 従来は(CVやCGにおける)ニューラル場の研究とは別とされてきたPhysics-Informed Neural Networksなどの関連研究との繋がりを明らかにし、学際的な研究のエントリーポイントが作られる。
■ サーベイ論文を「基材」として、国際会議等でのチュートリアル用にプレゼン資料を作り、ゆくゆくはそれが大学の授業などでも使われる事への期待。
■ 手法や構造を体系化することでソフトェアライブラリなどでも同じ構造が使われ、システムインテグレーションの敷居が下がる。

このサーベイ論文を書いてからまだあまり時間がたっていませんが、この経験は自分の今の研究にも大きく役立っているような気がします。それはこのサーベイ論文を書くために読んだ論文から得た知識が役に立っているというよりも、古典からモダンな文献まで徹底的に調べて、混沌とする論文群の中から構造や識見を見つける能力、みたいなサーベイスキルが役に立っているのだと思います。最近は90年代の機械学習やマルチメディア論文を読むのにハマっています。

終わりに

視野を広げる事が面白い研究に繋がる、と私は信じています。これは金出教授の言う「素人発想」にも似ている、と思います。そんな訳でサーベイ論文を書くという行為は強制的に視野を広げさせられる、という意味でとても有意義だと思います。同時に視野を広げる、という行為は研究や勉強のみならず色んな人と話し、多種多様なバックグラウンドを取り入れながら、議論を繰り広げる事も含まれているので人間関係もとても大事だと思います。cvpaper.challengeの網羅的サーベイも大規模なコミュニティも視野を広げるのにとても良い機会だと思うのでみなさんもじゃんじゃん参加しましょう!

一つ、自分自身への戒めも含めて言うと、分野をサーベイして基礎や先行研究を知るのはとても大事だと思う反面、査読者に怒られるのが怖くて先行研究や基礎を学ぶ事に徹するのも建設的ではないのでバランスが大事だと思います。サーベイを交えた広い研究と蓄えた知識を使いながらも先行研究は無視して目の前の問題を解決する深い研究の繰り返しくらいがバランスが良いのかな、と最近試行錯誤しています。

最後に、大学院に進む前の私は適当な理解でも口の上手さ、勢い、そして下手な器用貧乏さでなあなあに物事を進める事が得意だった自分のその能力がある種のコンプレックスでもあり、なにかに対して広く深い理解を得る経験がとても欲しいと思っていました。実際に大学院を始めてみると勢いや下手な器用貧乏さは研究でも多いに役に立つ事に気づいてしまったので変に気負わずひたすら勢いで頑張っていくことが大事なんだと思います。ちなみに、もしニューラル場の研究や海外の大学院に興味がある場合、いつでも相談に乗るので連絡ください!

この記事が気に入ったらサポートをしてみませんか?