【RでNGS】RNA-seqの流れとは？

2020年8月24日 04:55

次世代シークエンサーを使った網羅的な解析、いわゆる「オーム(-ome)」解析は、現在の科学のスタンダードで、ある程度のインパクトのある論文雑誌だったら、どの科学論文でも必ずやられている解析です。

現在では、single cell〜が流行っていて単一だと思われていた細胞集団でもちょっとずつ違っていて、いくつかのグループ分けができるというのを見るのにも次世代シークエンサーは不可欠です。

さて、-ome解析の中でも最もよくやられているのが「トランスクリプトーム解析（RNA-seq）」。トランスクリプトームとは、ある特定の状態の組織や細胞内に存在するmRNA（転写産物）全体のこと。このトランスクリプトーム解析をするために、Rを勉強し始めたのですが...トランスクリプトームに関する基礎知識がまるでないので事前にちょっと勉強しておこう！というのが「【RでNGS】シリーズ」の趣旨です。

実はNGSについて大学で教えてもらえたわけでもなく、研究室でNGSの解析について詳しい人がいるわけでもないので手探り状態なのです。（今の学生さんの方がよく知っているのかもしれません）新しい技術は往々にしてそういうものなのです。

前回は、「次世代シークエンサーでできること」をまとめました。今回は、次世代シークエンサーを使ってどうやってトランスクリプトームを取得するのか？をまとめます。

—————

◇ トランスクリプトームを取得する流れ

まずは比較するサンプルを用意します。サンプルのmRNAを抽出しておきましょう。業者に発注する場合は、mRNAがある程度のクオリティ以上でないと解析してくれません。（RNAの濃度：1 μg/μL, 260/280 1.7〜2.0以上, 230/280 2.0〜2.2 など...）※mRNAだけを抽出するのは不可能なので、whole RNA（mRNAもtRNAもrRNAも）抽出します。

mRNAを抽出したら...

① cDNAの作製

mRNAの末端にポリA配列がある特徴を使ってOligo dT配列を使ってcDNAを作製。RT-PCRなどでもお馴染みですね。（この段階でrRNAは除去されるようです）

② cDNAの断片化

数百塩基程度に断片化。流石に全部の配列を読むのは難しいので熱やイオンの力を使ってバラバラにします。

③ アダプター付きライブラリーの作製

バラバラにしたcDNA断片を平滑化し、両端にアダプター（配列を読む目印になる配列）をつけます。

④ 配列を読む

配列を読む方法は「ペアードエンド（paired）」と「シングルエンド(single)」があります。「ペアードエンド」は両端から読むので2種類の配列が得られ、「シングルエンド」は片側からしか読みません。数百塩基の断片配列のうち、50〜250 bpほどの塩基配列情報しか得ません。

◇ FASTQ形式ってなに？

上のような流れでトランスクリプトームの情報を得るのですが...出力形式はFASTQ形式。よく知られているFASTA形式とどう違うんでしょう？

おなじみのFASTA形式は、
・「“>”で始まる一行のdescription行」と「配列情報」からなる

FSTQ形式は、
・四行からなる
・一行目：”@“で始まるdescription行
・二行目：配列情報
・三行目：”+”から始まる一行
・四行目：クオリティ情報

となっています。最小のFASTAQ形式はこんな感じ。（WIkipediaより引用）

四行目はバグったみたいになっていますが、すべてクオリティ情報です。

FASTQファイルを手にしたら、後は解析するだけ。

この後どんな流れで解析していくのか？はまた次回。

それでは、また！

参考文献

かなり基本的な情報は充実しているが、作成されたのが2013年であることに留意しなければならない。

いいなと思ったら応援しよう！

最後までお読みいただきありがとうございます。よろしければ「スキ」していただけると嬉しいです。いただいたサポートはNGS解析をするための個人用Macを買うのに使いたいと思います。これからもRの勉強過程やワーママ研究者目線のリアルな現実を発信していきます。