【RでNGS】NGSの基礎〜次世代シークエンサーで出来ることとは?
日々のデータ解析を論文レベルにするためにR言語を勉強し始めて4ヶ月が経ちました。生命科学系研究者のえいこです。
最初にRのインストールから始まって、Rのコードについて、グラフの書き方、統計処理の仕方、など一歩一歩進んできました。
Rでできるようになりたいことである、NGSの解析。ほぼ知識が無の状態なのでRの勉強をし始める前に基礎知識をつけておきたいと思います。
NGSとは、次世代シークエンサー(Next Generation Sequencing)の略。どの論文にも必ずと言って良いほど、NGSの解析結果が載っています。このどこでも、誰でもやっている解析ができないなんて言えません。どんなメカニズムなのか?どうやって解析すれば良いのか?などをしっかり勉強しておかないと、これからの科学の流れに取り残されてしまいます。
NGSのことについて少しずつ勉強してまとめていきたいと思います。
—————
◇NGSでどんなことができるの?
次世代シークエンサーを作っているilluminaのHPによると...
・迅速な全ゲノムシークエンス
・ターゲット領域にフォーカスしたディープシーケンス
・RNAシークエンス(RNA-seq)
・エピジェネティック因子解析
・がんサンプルのシークエンス
・ヒトにおける微生物多様性
などなどサンプル調整のキットとデータ解析の仕方によって様々なことができるようです。
よく使われる上の三つについて軽くまとめておきます。
・全ゲノムシークエンスができるとどんな良いことがあるの?
全ゲノムシークエンスは、すべてのゲノムの塩基配列を解析する技術です。
今までのエクソソーム解析やターゲットシークエンスなどの特定のゲノム領域のみの解析とは異なり、全体の姿を捉えることができるようになります。
このため、今までわからなかった疾患の原因変異の同定(挿入・欠失・コピー数の変化、大規模な構造変異)が効率よくできるようになります。
例えば、医療用に使用するiPS細胞などは全ゲノムシークエンスをかけて異常がないかどうかを検査するなどの用途に使えます。
・ディープシーケンスって何?
DNA/cDNAを高重複度で塩基配列解析すること。特的の部位に限って解析する場合、数千〜数十万回の重複度で読むことも可能。腫瘍内細胞クローンの多様性を検定可能。(実験医onlineより)
ターゲットを絞って、何回もしつこく読むことで、DNA溶液中、cDNA溶液中に含まれる読まれる領域の違いを見分けることができます。
複数の細胞種や生物種が混在する溶液を使ってシークエンスをかけると、その溶液の中に含まれる細胞集団・生物集団の多様性を検出できるようになります。
◇ RNA-seq
いわゆるトランスクリプトーム解析。RNA-seq解析を行うと転写産物のアイソフォーム、遺伝子の融合、一塩基多型、アレル特異的遺伝子発現などの現象を検出できます。
主にやられているNGS解析はこちら。(私が解析しようとしていたデータもRNA-seqのデータ解析です)。
illuminaのHPにはビギナー向けのNGSチュートリアルページがあります。(動画は英語+日本語字幕です)
動画以外にもPDFの資料などがilluminaのHPに載っているので参考になりそうです。
次世代シークエンサーで全ゲノムシークエンスやトランスクリプトーム解析ができるのは知っていましたが、エピゲノム解析や微生物多様性解析(腸内フローラの解析だと思います)ができるのは知りませんでした。
とりあえずは、RNA-seqの解析ができるようになりたいのでそちら方面で掘り下げて行こうと思います。
それでは、また!