見出し画像

初国際会議発表(CVPR2023)


はじめに

こんにちは!研究コミュニティ cvpaper.challenge ~CV分野の今を映し、トレンドを創り出す~Advent Calendar 2023 12月11日を担当いたします、東京電機大学 中村研究室所属 修士2年の速水亮です。cvpaper.challengeには2021年から参加しており、今年でラスト(?)の3年目となります。
昨年(2022)も本イベントでは記事を書かせていただき、今回で2回目の投稿になります。昨年の記事はこちらになります!

今回私は、『VisualAtom』のCVPR2023投稿までの流れからバンクーバーでの発表まで、そしてVisualAtom関連の国内発表についてを記事にしようと思います。前回の記事ではまだVisualAtomが公表できない状態だったため、実質2022年の5月ごろからの話になります。

そもそもVisualAtomとは?

えー、昨年と同じ構成の書き出しです。笑
私が学部4年のとき、「ViTは輪郭に注目して画像を認識しているから輪郭特徴が事前学習用画像データセットには必要だ!」という仮説に基づき、Formula-Driven Supervised Learning (FDSL)のデータセットとしてRadial Contour DataBase (RCDB)を構築しました。そしてRCDBからさらに事前学習効果を高めるために構築したデータセットがVisualAtomになります。具体的には、RCDBのような多角形の再帰的描画図形の輪郭に正弦波による合成波を加えることで生成をしています。さらに詳しい内容についてはこちらの論文で説明しております。

実際に生成される画像はこちらです。(例によって閲覧注意!)

VisualAtomの画像例。

CVPR2023投稿まで

CVPRへ論文を投稿する運びとなったきっかけはRCDBの時から実験担当としてお世話になっていたMr. GPU むしゃむしゃの高島さんと「JFT-300Mを超えよう!」を目標に5月ごろからスタートしたプロジェクトでした。何がうまくいくかなんて本当にわからず、ひたすらに実験を重ねていました。また、問題設定を決めるまではなかなか研究が進まず、苦労したことを覚えています。cvpaperではメンターの方々に加えて博士、修士の先輩方も多くいらっしゃるので、たくさん相談できましたが、やはり世界に通用するレベルともなるとハードルの高さに苦しみました。夏休みもほとんど高島さんと連絡を取り合い、コロナ禍もあったためzoomをつなぎながら作業していました。この時は「Slackだと返事が返ってくるまで待つのはもったいないからちゃちゃっとzoom繋いで10分程度で済ませよう」といった気持ちで繋げていましたが、最終的には論文投稿締め切り前なんかは20時間以上(仮眠4時間を挟んだため途中で切りましたが、実際は20時間+数十時間繋げっぱなしで)作業していました!
実験自体も本当に膨大でPre-trainingは142回、Fine-tuningは393回、生成した画像は1.9億枚になっていました。GPU時間を算出すると眩暈がするのでやめておきます。夏休みの間もひたすら画像生成→実験→画像生成→実験の日々で思うような結果はなかなか出ませんでした。とにかくこの時期(2022年の10月くらいまで)は「何が事前学習効果をもたらす要因か?」についてひたすら探索的に実験していました。しかし、二人で励まし合い(?)ながらなんとか投稿まで頑張れました。(高島さん本当にありがとうございます。)

実はこの時、プロジェクトはVisualAtomだけでなく、京都大学博士の篠田さんと連携し、セグメンテーションタスク用のRCDB、『SegRCDB』の研究も進めていました。SegRCDBについては12月12日の記事を読んでいただけると幸いです。

wandbのスクリーンショット。長い。
Slackでのやり取り。プロジェクトが終わっても頻繁に連絡取り合ってます!

論文投稿直前の悲劇

高島さんとお互いに「うおおおおおお」とか「あうあうあ」とか言いながら論文を執筆し、締め切りの10日前くらいのこと。まさかのここで自分がコロナに罹患してしまいました。ここまできて何もできないのかと42℃の頭でぼんやりと考えながらSlackを眺めていました。少し熱が収まってきたころにやっぱり何か手伝いたい!と思い、論文の確認や図の作成を少しずつ布団の中からしていました。当時は喉を痛めたせいか、血痰を出しながら作業をして「これで血を吐くような努力をした経験があります!って胸張って言えるなー」なんて楽観的に自分の状況を捉えていました。もちろん高島さんも含め周りの方々は休んでて良いと声をかけてくださいましたが、自分としては何かしていた方が気持ち的に楽だったので、できる範囲で頑張っていました。

CVPR採択

年が明けて2023の1月ごろ、reviewの結果はborderline、weak accept、borderlineでした。rejectが付かなかったため、rebuttal次第ではacceptを狙える範囲でした。そして運命のFinal rateはaccept。当時はまた高島さんと東工大B4の近江さん、自分の3人でICCVに向けた実験&論文執筆をしていたため、zoomでお祭り騒ぎでした。それからはICCVに論文を投稿後、ポスター作成、動画作成、Githubへのコード公開、構築したデータセットの公開などなど、発表までまた忙しく準備に取り掛かっていました。発表者の登録では二人で震えながら必要事項を記入し、参加費を支払っていました。(たしか日本円でだいたい8万円。学生&新社会人には高額でした。)

CVPR…の前にSSIIポスター発表

CVPRの採択が決まり、ポスターやYoutubeにアップロードする動画を作成していたころ、CVPRの前にSSIIで発表しないかと片岡さんから声をかけられました。ちょうど英語Ver.の資料はできていたので日本語に戻すだけだし、せっかくだからやっちゃうかーっと結構軽いノリで発表準備をしてました。CVPRの投稿に比べれば軽いタスクに感じていましたが、よくよく考えるとしっかりポスター発表の準備をしていました。これがささっと終わるように感じたのは自分に力が付いたんだと思いました。ポスターに関してはせっかくなのでオーディエンス賞を狙うことにしました。オーディエンス賞は3日間ある発表のうち、各発表日から1人ずつ聴講者の投票によって選ばれます。何度も試行錯誤してこだわって作成した結果、ポスターは大胆な構成になり、よく目に留まったのか当日は大盛況でした。

SSIIのポスター資料。上部のほとんどがVisualAtomと実画像。

SSII最終日、オーディエンス賞受賞者の発表ではライバル(?)に中村さんがいたため、難しいと半分諦めていました。(こちらも本当に大盛況でした。)しかし、まさかのダブル受賞!!投票数が全く同じという奇跡が起きたことで異例の2人受賞が実現されました。

受賞後に取っていただいた写真。おそらくCVPR発表後で疲れ顔。

いざバンクーバー!

初の国際会議はCVPRでいざバンクーバーへ1週間。直前に国内学会もあり、どたばたしながら日本を発つまり深く考えずに飛行機に乗っていました。昨年の記事にあるように「えいやっ」と飛び込んだ形で現地入りしました。

Convention Center近くの街並み。ここでやっと海外を自覚しました。
会場へ向かう途中。
welcome to CVPR !

あたりまえのことではありますが、周りは全部英語。空き時間に少しずつ勉強してきたものの日常生活ですらままならない状態で己の英語スキルの無さを後悔しました。ちなみに私はセンター試験の英語リスニング4点でした。本番で4/50点です。鉛筆転がした方がマシなレベルです。

いざポスター発表!

ポスター発表は最終日のため、自分なりに頑張って失礼のないように会話をしてなんとか慣れようと試行錯誤しました。途中で高島さんからIntelの食事会に誘われたときはどうしようかと思いましたが、ここで結構話せた(?)気がします。(当時知り合った方とは日本に帰国した後も高島さん経由で連絡を取り、一緒に日本観光もしました。)

しかし、ポスター発表となると全然話せませんでした。聞くのでも精一杯な自分は無力感でいっぱいでした。(発表直前、いろいろとトラブルがあった際にはそれとなく話せていたりはしたのですが…)それでも最終日にもかかわらず多くの方がポスターにて質問をしてくれたことは正直嬉しく感じていました。

帰国後、MIRUにて招待講演

実はSSIIとは別にMIRUから招待講演の連絡も来ておりました。まさかの自分が招待講演。大きなホール、数百人の前で発表となるとCVPRとは違った緊張感がありました。この時はVisualAtomのほかにMIRUメンターシップ参加者の声として自分がどのように研究してきたか、どのような連携だったかについても話しました。せっかくなので、当時の発表スライドもこちらに載せます。ここまでくると発表に慣れてきたかも?と思い始め、ポスターでも「日本語だ…うれしい…」となりながら議論していました。今更ではありますが、自分は人前での発表は非常に苦手なタイプの人間で手とか震えて頭が真っ白になってしまう経験もありました。これはB4からポスター発表したり、cvpaperの企画として開催されていたcvpaper.challenge conference summer/winter (CCCS/CCCW)の司会を一部担当していたことによる特訓の成果だと思います。(CCCS/CCCWについてはResearchPortのこちらの記事から確認できます。)

大ホールでVisualAtomの発表。
高島さんとの神連携について言及。

おわりに

うわああああああ自分にもっと英語力があれば!!!!!
と、すごい思わされた初国際会議だったのですが、おかげで人脈が広がったり、有名人を見かけたりと刺激的なイベントでした。実は国内学会でも対面は修士2年になってからが初めてだったので、今年はバンクーバーに行ったり、MIRUで浜松に行ったりなど頑張って論文を投稿したからこそ得られるご褒美?が多い年でした。それまではオンラインで淡々と研究の説明をするだけでしたが、得られる経験は天と地ほどの差がありました。

ほとんど自身の経験を思い出した順につらつらと書いてしまいましたが、この記事を読んで少しでも国際学会に出してみたいな、cvpaperに参加してみたいなと興味を持っていただければと思います。

この記事が気に入ったらサポートをしてみませんか?