「遺伝子変異と疾患発症の関連性」について高校生がノーコードツールで解析した話
こんにちは。ヒューマノーム研究所 次世代先端教育特命研究員の辻敏之と申します。普段は中学・高校の教員をしながら、ヒューマノーム研究所のお手伝いをさせていただいています。
勤務している学校では、一部の生徒が「研究活動」と称して各自が研究テーマをもって研究を行っています。そのジャンルは多岐にわたるのですが、ここではその中でHumanome CatDataを活用した事例について紹介させていただきます。
その生徒の研究テーマは「遺伝子変異と疾患発症の関連について」というものです。これだけだと全く分からないと思うので、今回はこのテーマの内容について説明させていただきます。
多少専門的な話になったりするのですが、できるだけわかりやすく、もしくはわからなくても大勢に影響がないように語りますので、どうぞ最後までお付き合いくださいますよう、よろしくお願いします。
DNAは生物の設計図
近年、遺伝子検査なるものがあることをご存じでしょうか。とても簡単にいいますと、皆さんのDNAの配列の一部を読み取ることでどんな体質を持っているのか検査しようというものです。体質というと太りやすいとかアレルギーとか、いろいろなことを想像されると思いますが、遺伝子検査では主に疾患に関連した遺伝的特徴に焦点を当てています。たとえば糖尿病などの生活習慣病やさまざまなガンが発症しやすい体質かどうかなどです。
「DNAは生物の設計図」という表現を聞いたことがある方は多いと思います。DNAには、生物の身体をつくるときや運用するときに使われる情報が書き込まれています。DNAは4種のヌクレオチドという分子の繋がったもので、ヌクレオチドの並び順がとても重要な情報になっています。4種の名称はアデニン(A), チミン(T), グアニン(G), シトシン(C)。これらをATGCの4文字で表記し、DNAはこの文字の配列パターンとして表現します(図1)。
DNAに封じ込められた遺伝情報は人によって少しずつ異なります。つまり、一部のDNA配列、ATGCの並び方がヒトによって異なるわけです。それが見た目や体質を決めています。他人とは見た目が似てない(可能性が高い)が、遺伝的に関係のある親族には似てる(可能性が高い)というわけです。
例えば、ガンになりやすい体質をつくる遺伝情報が継承されると家系としてガンになりやすい傾向が生じたりします。これを俗に「ガン家系」とか言ったりしますね。もちろんライフスタイルによって生じるものでもあるので、その見極めは科学的にしっかりと検証する必要があります。
DNAの基準があることでわかること
そんなわけで、ヒトのDNA情報と疾患の関連性はかなり広く深く研究されています。特にスタンダードなヒトのDNA情報がどんなものなのかという研究、つまり基準作りはとても慎重に行われています。生物の「遺伝情報すべて」のことを「ゲノム」と呼び、基準となるゲノムのことをリファレンスゲノムと呼んでいます。近年では民族ごと(例えば日本人)のリファレンスゲノムを決めようという動きも活発です。リファレンスゲノムがあると、ヒトの進化など生物学的な理解が深まることはもちろん、個人の体質を個人のゲノム情報と結びつけて議論することができるようになります。
ヒトのDNAは約30億個のヌクレオチドが結合してできています(厳密にはそれが23本に分かれていて、それぞれが染色体をつくります)。日本人の場合、約2,000万ヌクレオチドが個々人によって異なることが知られています。
ある場所のヌクレオチドが日本人のリファレンスゲノムでは「G」だったとしましょう。ゲノムは人によって異なるため、ある個人のゲノムではここが「A」だったりします(図2A)。このようにリファレンスゲノムが存在することで、リファレンスゲノムからのズレがあることと、ある個人の体質を比べることができるようになります。ヌクレオチドが人によって異なる部位のことをSNPs(Single Nucleotide Polymorphisms: 一塩基多型)と呼んでいます。
タンパク質の「ちょっとした変化」がもたらすもの
SNPsのパターンによって、体質や外見など(まとめて表現型といいます)が決定されると考えられています。しかしながら今のところ、人類はSNPsのパターンによって、表現型にどのような変化が生じるのか?については分かっていません。さらに驚くべきことに、SNPsがあることと疾患が生じることに因果関係があることが分かっていても、その理由も分かっていません。
SNPsと表現型の関係はとても難しい問題です。ここではシンプルな例を考えてみましょう。「ヌクレオチドが1個変わるとどんなことが起こるのか」という問題です。この回答は「最終的には体内で作られるタンパク質がちょっとだけ変化することがある」です。(そのほかにも影響がある可能性もありますが、簡略化のため割愛します。)
タンパク質がちょっとだけ変化するってどういうこと?って話になるんですが、タンパク質がどんなものなのかを紐解かなくてはなりません。タンパク質はアミノ酸が並んだ鎖状の分子です。平均的なタンパク質でアミノ酸が100-300くらい連なっているのですが、このうち1つのアミノ酸が異なるものになります(図2B)。
ここまで読んでいただいた粘り強い読者の方の中には「1つくらい良いじゃないか」と思う方もいらっしゃるかもしれません。もしくは「1つ変わる・・・ゴクリ。」と息をのんでいただいたかもしれませんね。最初に体質とか疾患とかの話をしているので、これらに重大な変化が生じるとお考えになる気持ちも分かります。じつはどちらも正解です。
DNAと体質の関係性は未だにわからないことが多い
多くの場合、アミノ酸が1つくらい変わったところで大した影響はありません。生物はかなりミスとかイレギュラーに対して寛容なシステム作りをしてきたことがよく分かるいい話です。 それでも「1つ変わると全然変わる」こともあったりするのです。
代表的な例がアルデヒドデヒドロゲナーゼ2(ALDH2)です。これはアルコールを摂取したときにそれを分解するために使われる酵素なんですが、こいつの性能によって「酒に強い」か「下戸」かが決定されます。つまりアルコールに対する体質を決定しているタンパク質だと言えるわけです。
もちろんこの設計図、DNA情報(ヌクレオチドの並び順)はご両親から引き継がれています。作られるタンパク質は517個のアミノ酸が並んだものになります。この504番目のアミノ酸がSNPsの位置にあり、現生人類の多数派はグルタミン酸(Glu)です。これがリジン(Lys)になっている場合があり、そうすると分解力が極端に下がってしまいます。
両親から504番目にグルタミン酸をコードしてる遺伝子を2つ受け継いでいるヒトの分解力を1とすると、片方の504番目がリジンだと1/16程度。2つとも504番目がリジンのものを受け継いでいるとほぼゼロになることが分かっています。
少し詳しく見てみましょう。ALDH2は2つペアで働きます。図3Aに示したのがALDH2です。白色で示したものと青色で示したものがそれぞれALDH2で、これらはくっついてはたらきます。バラバラにした図3Bをみるとかみ合ってがっちりくっついていることが想像できると思います。この結合に強く寄与しているのが、493番目のリジン(図3ABに緑色で示した)と504番目のグルタミン酸(図3ABに橙色で示した)です。この2つは図3Aをみると近くにいてしっかりとくっついていることが分かります。
リジンは正電荷を持ち、グルタミン酸は負電荷を持つので、電気的な力で引き合っています(図4A)。酒に弱くなるパターンは504番目のグルタミン酸がリジンになるという変化なので、正電荷を持つリジンの正面に正電荷を持つリジンが来るということで当然反発力が発生し、ペアが不安定になってしまいます(図4B)。このようにして構造が不安定化し、アルコールを分解する性能がグッと下がってしまうというわけです。
ここからが本題です
とまあ、DNAの変化と体質の関係は、こんな風にメカニズムが明らかになっているものもあれば、あるSNPsをもっているとガンになりやすいといった観察結果から推測されたものもあります。また前述したように変化が起きても何も起きないということも多々あります。例えばALDH2ではアミノ酸が変化するパターンが421種類ほど知られていますが、人間の体質に変化をもたらすことが明らかになっているのは504番目のグルタミン酸がリジンに変化するものだけです。
本研究ではタンパク質のアミノ酸が変化したとき、ALDH2の504番目のグルタミン酸のように、その変化によってヒトの体質に影響が及ぼされるかどうかを予測しようと考えました。特に疾患になりやすくなるかどうかに着目して、データ解析を行いました。この解析結果からHumanome CatDataを使って予測AIモデルを構築して、性能評価を行いました。細かい解析についてはザックリ割愛しますが、Humanome CatDataを用いてどんなことをしたのかなど、次回お話ししたいと思います。
関連記事
データ解析・AI構築の初学者向け自習テキスト
表データを利用したAI学習テキスト(Humanome CatData)
画像・動画を利用したAI学習テキスト(Humanome Eyes)
AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい!