ICLR2024論文輪読会を開いた話

2024年12月20日 08:49

本記事は、Japan Digital Design Advent Calendar 2024 の20日目の記事になります。

はじめまして、三菱UFJフィナンシャル・グループ（以下MUFG）の戦略子会社であるJapan Digital Design（以下JDD）でMUFG AI Studio（以下M-AIS）に所属し、データサイエンティストをしている上野と林です。

我々が所属しているM-AISではR&Dにも注力しており、定期的にAIや機械学習に関する勉強会を開催していて、今年度はICLR 2024の論文輪読会を実施しました。今回の記事ではICLRの概要とICLR 2024のトレンド、その中で発表された興味深い論文についてご紹介いたします。

ICLR 2024概要

ICLR 2024　開催概要
開催期間：　2024年5月7日～5月11日
開催都市：　Vienna, Austria
公式HP：2024 Conference

機械学習や深層学習の研究は、近年急速に発展しており、その分野には数多くの国際的な学会が存在します。例えば、NeurIPS（Conference on Neural Information Processing Systems）、ICML（International Conference on Machine Learning）、CVPR（Conference on Computer Vision and Pattern Recognition）などが有名です。

そんな中、今回紹介したいICLR（International Conference on Learning Representations）は、深層学習や表現学習の応用に特化した学会であり、実務的な視点を大切にしつつ、革新性と実験的アプローチを重視しています。これまではGoogle、OpenAI、Microsoftなど有名なAI研究機関がICLRにて重要な成果（ViT、Adam、LoRAなど）を発表しており、学術界と実務界の両方に大きな影響を与えています。

ICLR 2024のトレンド

ChatGPTの普及により、今年は日常の業務中にRAG（Retrieval-Augmented Generation）、LLM（Large Language Model）などの言葉をよく耳にしますが、ICLRの学会では何がトレンドなのか興味深いので、採択された論文がどのような論文が多いのか分析してみたいと思います。

キーワード分析

OpenReview APIを用いてICLRで採択された論文のキーワードを抽出し、集計してみました。

予想通りと言いますか、LLM（large language models）に関する論文が最多数の結果になりました。他にも、diffusion modelやin-context learningなど生成モデルの表現学習に関連するキーワードが上位に来ているのがわかります。

昨年のICLR 2023のキーワードもカウントして上位20を可視化してみました。

昨年はreinforcement learningが1位を占めていたのですが、今年はlarge language modelsが1位の座を奪い、2位のreinforcement learningを大きく超えているのがわかります。キーワード取得の関係でlarge language modelsと5位のlarge language modelや13位のlanguage modelsが分かれていますが、それらを合わせてみるとICLR 2024でいかに言語モデル関連の論文が多かったかわかります。また、3位にきているdiffusion modelsと8位のdiffusion modelも分かれてしまっていますが、その二つを合わせると2位のreinforcement learningを越えるほど活発に研究が行われています。generative modelsといったキーワードも新しく上位に現れたことからもこれらの分野に関する研究が盛んに行われているように思われます。

注目度が高い論文は全てLLM関連の論文なのか？

採択された数が最も多いがLLM関連の論文だと、上記のキーワード分析でわかったのですが、LLM以外で注目度と評価が高い論文はどのような分野になるのか分析してみました。

ICLRの評価制度

ICLRの評価制度について、簡単に説明したいと思います。

ICLRでは、まず各査読者が論文に対して1から8の8段階(1が最も低く、8が最も高い)で評価(Rating)を行います。基本的にはWeak Acceptの6が採択するか否かの境界線となります。

また、ICLR 2024では採択された論文を注目度で下記のように3段階で発表形式の選定をしています：

1.オーラル発表（Oral）

採択論文の中でも特に優れた約1-2%程度が選ばれる。通常、最も注目される研究が選ばれ、一定時間（通常15〜20分）のオーラルセッションで研究内容を大会議場で詳細に説明、質疑応答の時間も設けられる。

2.スポットライト発表（Spotlight）

採択論文の約3-4%程度が選ばれる。ポスター発表の中でも注目された研究が、口頭で短時間（通常3〜5分程度）で紹介される。

3.ポスター発表（Poster）

採択論文の大多数（約94-95%）がこの形式。参加者が自分の研究を掲示したポスターを使って直接他の参加者に説明する。

研究の多様性の確保の観点から、各発表形式の選定（Oral、Spotlight、Poster）の際にはバランスよく色んな分野の研究が網羅されるように配慮されているらしいです。

発表形式毎の傾向

各発表形式毎の評価の分布を可視化してみました。

当然かもしれないですが、Poster→Spotlight→Oral順で平均評価が上がっていく傾向がわかります。

そこで気になったのが、PosterとSpotlightとして発表した高評価な論文と、Oralで発表したけど比較的低評価な論文の違いです。つまり下記の橙色の枠で囲んだ部分の論文です。

上記の橙色の枠で囲んだ部分の論文のキーワードクラウドを作ってみました。

Posterの発表形式から一つ一つみていきましょう。

Ratingが高い(>=7)Posterの論文

large language modelsが目立つ中、imbalanced multi-modal learningやdata type understandingなど比較的マイナーな分野のキーワードが挙がっていました。研究内容に対する評価は高いけど、まだ影響力が他と比べると足りていない分野としてICLR 2024では扱われたのかもしれません。

Ratingが高い(>=8)Spotlightの論文

time series analysisが上位に来ているのが気になります。他にはhumanoid control、communication compressionなどこれから注目度を浴び始めそうな分野のキーワードが現れました。

Ratingが低い(<=7)けどOralの論文

fairness、tabular dataに関する研究が多いようです。jailbreakingという物騒なキーワードもあります。これはおそらくLLMや画像生成モデルに関してのpromptを介した攻撃方法のことだと思われます。特にLLMの倫理面や脆弱性についての問題は以前から指摘されており、その攻撃方法についてもMembership Inference AttacksやAdversarial Triggersなど様々なものがあります。Ratingsが低いにも関わらずOralとして採択された公平性やモデルに対する攻撃についての研究は生成モデルが社会に普及していくにつれてますます盛んになると考えられます。

輪読会に向けた事前準備

輪読会の開催にあたって参加者の負担を軽減するために資料フォーマットの統一と和訳要約が含まれた論文リストの作成に取り組みました。

フォーマットの統一

今回の輪読会ではICLR2024で発表されている技術トレンドの概要を掴むことを目的としているため、概要がわかるような観点をまとめた資料フォーマットに統一するように取り組みました。フォーマットは筑波大学の落合陽一准教授が2015年の「先端技術とメディア表現」という講義で用いていたフォーマットをベースにしました。用いたフォーマットは以下です。

どんな研究か？(研究概要)
先行研究と比べてどこがすごいか？(研究の背景)
技術や手法のキモはどこにあるか？(提案手法について)
どうやって有効だと検証したのか？(実験について)
Discussionやlimitationがあるか？（論文内に明記してあれば）
この技術がどのように実務に活かせるか？(思いつけば)

これらの観点についてできる限り短くまとめ、図も含めスライド1枚程度に収まるように各メンバーで資料をまとめました。

論文リストの作成

ICLR 2024では2,200件以上の論文が発表されているため、これらの論文を各メンバーが論文の概要を読み、発表する論文を選択するのは負担が多いと考え、論文の絞りこみと概要の要約を事前に用意することにしました。

まず論文の絞りこみについてですが、ICLR 2024のSpotlight PosterとOralとして採択された論文のみを抽出しました。次にそれらの論文の概要として12月4日のAdvent Calendarで紹介している「ローカルLLMを活用！論文読み会の候補選択をもっと効率的に」で用いた方法で各論文のabstractの和訳要約を作成し、論文リストに加えることで発表論文の選択に対する負担が軽減するように取り組みました。

論文紹介

次にM-AISのメンバーが注目した論文をいくつか紹介いたします。

GENERATIVE LEARNING FOR FINANCIAL TIME SERIES WITH IRREGULAR AND SCALE-INVARIANT PATTERNS

どんな研究か？

金融時系列特有の問題を考慮した3つのプロセスを組み合わせて金融時系列のデータ生成を行う研究

先行研究と比べてどこがすごいか？

従来手法では特定のパターンを繰り返すような生成は行えるが、金融時系列のような不規則性とスケール不変性を持つ時系列データは難しいという問題に対処している

技術や手法のキモはどこにあるか？

金融時系列特有の問題に対して3つのプロセスに分けて対処している

パターン認識：データをセグメントごとに分けてパターンをクラスタリング

パターン生成：Denoising Diffusion Probabilistic Modelを用いてパターンのセグメントごとに生成

パターン進化：時系列データの長さと大きさに沿って次のパターンを予測するように学習されたマルコフ連鎖モデル用いて生成されたセグメントを繋いで完全な時系列データを合成

どうやって有効だと検証したのか？

数値的評価：生成されたデータが元となったデータとどの程度類似しているかを評価

資産リターンのスタイライズドファクトに基づいているか
コルモゴロフ・スミルノ(KS)検定
アンダーソン・ダーリング(AD)検定で検証

TMTR、TATRという下流タスクでの評価

TMTR：学習データセットにおいて実データと合成データの割合を変化させたときに予測モデルの精度がどう変わるか

TATR：限られた量のデータセットから段階的に合成データを追加していって予測モデルの精度がどう変わるか(100年分追加したら誤差が17.9%減少した)

この技術がどのように実務に活かせるか？

データ数が限られている時系列データに対して、データ拡張の意味で使えるかもしれない

金融時系列のクラスタリングなどでパターン認識が使えるかもしれない

Are Models Biased on Text without Gender-related Language?

どんな研究か？

言語モデルにおける性別バイアスの評価に関する研究で、特に非ステレオタイプ的な文脈におけるバイアスの存在を調査、評価フレームワークの提案

先行研究と比べてどこがすごいか？

先行研究では、ステレオタイプや特定のパターンといったLMに関する既知の弱点を利用して、不適切な振る舞いを検出してきた。この研究では文レベルで強いジェンダー相関を含まない評価用データセットを用いた非ステレオタイプ的状況下で検証をコントロールし、ステレオタイプが存在しない時にはモデルがバイアスを示さないという暗黙の前提を検証

技術や手法のキモはどこにあるか？

評価フレームワークのUnStereoEvalの導入

非ステレオタイプ的な文を生成する手法の開発&設計

28のモデルのうち22が非ステレオタイプ的な文において男性の代名詞を好むことを示した

どうやって有効だと検証したのか？

Llama-2やMistralなど、アーキテクチャが異なるさまざまな事前トレーニング済みモデルを網羅的に評価し、フレームワークの有効性を証明

Discussionやlimitationがあるか？

バイアスの原因が不明：バイアスの原因を明確に解明できなかった。トレーニングデータだけに起因するものではないはず。

性別のみに焦点を当てている：「she」と「he」の代名詞のみを使用。人種的偏見や文化的偏見など考慮できてない。

この技術がどのように実務に活かせるか？

暗黙的バイアスへの注意：たとえ訓練データが公平且つ網羅的なのが使われていたとしても、暗黙的なバイアスがモデルの出力に影響を及ぼす可能性があるため、LLMモデルを扱うときはバイアスを考慮する

データ生成のフレームワークは性別以外にも適用できるかもしれない

A Mutual Information Perspective on Federated Contrastive Learning

どんな研究か？

教師なしまたは半教師ありの連合学習 (federated learning) において，クライアントごとに分布が異なる状況を想定し，クライアント識別モデルを利用して精度向上した

先行研究と比べてどこがすごいか？

各データサンプルの表現や分布の情報を伝送する必要がなく，プライバシーの漏洩の心配が少なくなった

技術や手法のキモはどこにあるか？

SimCLRにおける2つのビューの相互情報量の下限を計算する際に、クライアントごとのローカルな損失に加え，クライアント識別モデルの損失を考慮する

どうやって有効だと検証したのか？

Label skew (クライアントごとに持っているデータのラベルが異なる), Covariate shift (クライアントごとに同じラベルに対する特徴量が異なる), Joint shift (Label skew, Covariate shiftが混ざっている) があるCIFAR 10/100で実験

各モデルに対し，ローカルな損失のみの場合とクライアント識別損失関数を加えた場合の精度 (Linear Probe Accuracy) を比較

教師なしの場合，半教師ありの場合 (ラベルありデータセットのみを評価に利用) を実験

Non-i.i.d.-ness，ローカルエポック数 (計算量固定の条件下)，教師ありサンプル割合への依存性を確認

Discussionやlimitationがあるか？

Covariate shiftに対する精度向上には課題あり

この技術がどのように実務に活かせるか？

複数の組織でのモデル構築に利用可能か

まとめ

輪読する学会(ICLR 2024)のトレンドの調査や資料フォーマットを統一することで、学会で注目を浴びている研究の可視化と資料作成と振り返りの負担軽減に取り組みました。

ICLR 2024で最も注目を浴びたのは大規模言語モデルLLM関連の研究でした。他にも時系列分析などのクラシックな研究もありながら、これから注目されていきそうな分野、例えばヒューマノイドコントロール（humanoid control）などのキーワードが挙がっていました。

輪読会では、論文のabstract要約や資料作成の観点を統一することで発表者と聴講者の負担を軽減しようと試みました。参加メンバーが選んだ論文テーマはある程度ばらついており、上記以外にもLLMだけでなく時系列データやテーブルデータ解析、Learning to rejectに関する研究などの発表があり興味深かったです。

最後までご覧いただきありがとうございました。

Japan Digital Design株式会社では、一緒に働いてくださる仲間を募集中です。カジュアル面談も実施しておりますので下記リンク先からお気軽にお問合せください。

この記事に関するお問い合わせはこちら

M-AIS
Michihiko　Ueno
Yuichi　Hayashi