HyenaDNA: ゲノム配列の長距離依存関係を解明する基盤モデル
大規模言語モデルはゲノムの言語を読み解けるのか?
2003年にヒトのゲノム配列が解読された。それはヒトDNAの配列解読競争の1つの終わりを意味したが、そのATGCの4文字の羅列が何を意味するか?というDNA配列の意味を解読する研究の始まりでもあった。そして、20年ほどたった今もその努力はDNA配列解析として続けられている。
ChatGPTに代表される大規模言語モデル(LLMs)は、大量の言語データを入力とし、トランスフォーマーに代表される大量のパラメーターを持つモデルを大量のマシンパワーで学習させたモデルで、文章の穴埋めや後続の単語予測などの自己教師あり学習で学習を行う。基盤モデルとはデータの普遍的なパターンを学習し、特定の分野へのファインチューニングを行うことで既存のモデルよりも多くの分野で高い性能を発揮するモデルのことである。
ゲノムは10万以上の配列について解読され、データが蓄積されているものの、多くの場合その機能解析が追い付いていないために、遺伝子機能、遺伝子発現量、進化的起源など意味は十分にはわかっていない。DNA配列はATGCの文字の連続でヒトにはさっぱり意味が分からないが、これだけ大量のデータがあれば、そこからパターンを見つけ出し意味を抽出することは、LLMsにとって得意そうである。しかし、ゲノム特有の問題もある。ゲノムは何百キロベースも離れたエンハンサーがタンパク質の発現に影響を及ぼすなど、長距離で相互作用することが知られている。一方で、既存のLLMsはあらかじめ入力できる文字数が数千トークン(ヒトゲノムの0.001%以下)と決まっているため、それを超える相互作用は出力に反映することができない。小説の前半で張られた伏線は、小説の1ページの文章が入力の限界のLLMsにとって、回収されても意味が分からない、という状況だ。
今回紹介するHyenaDNAはゲノム分野での基盤モデルで、最大100万トークン(既存のモデルの最大500倍)を1塩基解像度で入力できるのが特徴である。HyenaDNAは参照ヒトゲノムで事前学習され、DNA配列解析関連の多くのタスクでState-of-the-Art(SotA)を達成することが示された。DNA配列解析分野での基盤モデルの構築を促進するという目的で、モデルの実装はGitHubで公開され、Google Colabで動かすこともできる。
Nguyen, Eric, et al. "Hyenadna: Long-range genomic sequence modeling at single nucleotide resolution." arXiv preprint arXiv:2306.15794 (2023).
GitHub - HazyResearch/hyena-dna: Official implementation for HyenaDNA, a long-range genomic foundation model built with Hyena
本論文は査読を経ていないpreprintであることに注意する必要がある。
トランスフォーマーと“暗黙的な”畳み込み
一般的な自己注意機構に基づくモデルは、配列長Lの入力x、線形変換行列W、行に対するソフトマックス関数σを用いて以下の式で表される。
注意機構はすべてのトークンペアに対して比較を行うため、配列長Lに対して計算のオーダーが$${O(L^2)}$$で増加する。
HyenaDNAのもとになっているHyenaは、LLMsで一般的に用いられるトランスフォーマーと異なり大域的な畳み込みフィルターとデータ制御ゲート機構を用いている。配列長Lの入力xとフィルターhに対する離散的畳み込みは以下の式で表される。
Hyenaは注意機構と同様の性能を維持しながら、配列長Lに対する計算のオーダーが$${O(L\log_2L)}$$で、長い配列長を短い計算時間で扱うことを可能にする。
Methods
図1-1は、基盤モデルとしてのHyenaDNAの概要を示している。HyenaDNAは次のトークン予測でトレーニングしたHyenaをベースとしている。トレーニングを安定化するために入力シークエンスの長さを徐々に長くしていくスケジューリングを行った。長い入力文字数を生かして、学習可能なソフト・プロンプト・トークンを入力シークエンスの前に直接与えることで、ファインチューニングなしに新しいタスクを解くことを可能にした。
図1-3は、HyenaDNAのブロック構造を示している。HyenaDNAはデコーダーのみ(GPTなどと同様のグループ)のシークエンス入力・シークエンス出力のHyenaを積み重ねたものに、フィードフォワードニューラルネットワークが結合した構造をしている。Hyenaは大域的な畳み込みフィルターとデータ制御ゲート層からなる。ゲートには密な層と局所的畳み込み層で変換した入力が与えられる。大域的な畳み込み層は畳み込みフィルターを作るMLPによって暗黙的にパラメーターが決められている。畳み込み自体は計算オーダー$${O(L\log_2L)}$$の高速フーリエ変換畳み込みを用いて評価される。
図1-2では、参照ヒトゲノムのより長い入力シークエンスを用いて事前学習を行うことでより高い精度の次のトークン予測が達成されることが示され、LLMsを用いたゲノム配列解析での長期離依存関係の重要性を明らかにしている。
Results
図4-1では参照ヒトゲノムで事前学習した際のトランスフォーマーとHyenaDNAの入力シークエンスの長さとランタイムの関係を調べており、100万トークンを扱う際にはHyenaDNAが160倍高速であることを示している。
図4-3ではHyenaDNAと既存のモデル(DNABERT、Nucleotide Transformer)の潜在空間をt-SNEを用いて可視化し、Ensemblの遺伝子の種類によって色付けした図を示している。これにより、HyenaDNAが生物学的な特性を事前学習の段階で学習していることが分かる。
GenomicsBenchmarksという制御配列分類のベンチマークでは既存のモデルに比べて、8つの項目の内7つの項目でSotAを、Nucleotide TransformerというDNA配列からエンハンサー、プロモーター、メチル化部位やアセチル化部位などのエピジェネティックマーク、スプライシング部位を予測するベンチマークでは18項目中12項目でSotAを達成し、HyenaDNAのDNA配列解析での性能の高さが示された。
DNA自体に分類のラベルの情報などが含まれていないため、DNA配列の入力のみに依存して指定された機能分類などを自己教師あり学習で行うのは困難である。そこで、モデルのパラメーターを固定したのちに図1-1で説明したソフト・プロンプト・トークンを入力に加えるin-context learningを行い、HyenaDNAが分類結果を示せるようにした。図4-2はソフト・プロンプト・トークンの長さを長くすることで新しいタスクの性能が上がり、どのような分類が存在するかといったコンテキストの情報が新しいタスクへの適応を促すことを示している。
感想
ChatGPT等の最近の大規模言語モデルの発展がすさまじいことは言うまでもない。この研究の後には10億トークンを入力として扱えるLLMsが出てきており、一度エンハンサー予測やゲノムの由来する種の特定などタスクとして定式化し、数値的に評価することができてしまえば、多くの問いが解かれるのは時間の問題なのだろう。一方で、カテゴリーとしても今まで知られていなかったような新しい機能の発見をLLMsができるかが今後の課題のように思えた。ゲノム科学、さらには生化学のネットワーク解析、マルチオミクス解析など幅広い分野で多量のデータからLLMsにより様々な機能が明らかになり、創薬などの応用につなげられていく未来を想像させ、わくわくさせてくれるような研究だった。
参考文献
[2306.15794] HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution (arxiv.org)
Large models for genomics | Nature Methods
HyenaDNA: DNAの言語を読み解くLLMの新たなる応用 - GMOインターネットグループ グループ研究開発本部
RefSeq: NCBI Reference Sequence Database (nih.gov)
[2307.02486] LongNet: Scaling Transformers to 1,000,000,000 Tokens (arxiv.org)