【ATAC-seq】超絶初心者が公共データベースからATAC-seq解析にトライする
今回はATAC-seqにトライしましたので、そのメモです。
主に参考にしたサイトは下記です。
①公共データベースからデータを探す
今回は野生型のPGP1細胞のATAC-seqデータが欲しかったので、ChIP-Atlasや
NCBI GEO (Gene Expression Omnibus)からデータを探します。
NCBI-GEOでよさげなデータを見つけます。
下図のように検索欄があるので、キーワードを入れて検索します。今回は「PGP1, ATAC」と入力。
検索すると、いくつかのデータベースを見つけることができました。これをクリックします。
*「GM23338」というラベルは、今回の解析しようとしているPGP1細胞の別名です。
下の方に「Samples」と書かれたところに、この研究で使われた全サンプルが表示されます。そのうちの1つをクリック。
ページが切り替わり、更に下の方にスクロールすると、今度は「SRA」と書かれた部位がでてくるので、クリックする。
更にページが移動します。
このページでは、サンプルの情報が記載されています。
ちゃんと「ATAC-seq」であること、Layoutがペアエンドかどうか等を確認し、下の方にある「SRR」から始まるIDをメモしておきます。
②SRAファイルのダウンロード
次にSRA toolkit の「fastq-dump」コマンドを利用して FASTQ を抽出する。
fastq-dump は、NCBIのSequence Read Archive (SRA) Toolkitの一部であるコマンドラインツール。このツールは、SRAデータベースに格納されているシーケンシングデータを、一般的に使用されるFASTQ形式に変換してダウンロードするために使用される。
a) SRA toolkitのインストール
下記のコマンドを入力して、SRA toolkitのインストールし、解凍およびパスを通す。
#SRA-toolkitのインストール
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
#解凍
tar xvzf sratoolkit.current-ubuntu64.tar.gz
#解凍したファイルの移動 (verによってsratoolのファイル名が異なるため注意)
sudo mv sratoolkit.3.0.10-ubuntu64 /usr/local/src/
#パスを通す(verによってsratoolのファイル名が異なるため注意)
sudo ln -s /usr/local/src/sratoolkit.3.0.10-ubuntu64/bin/* /usr/local/bin/
b) fastq-dumpを使用してgzip圧縮ファイルを取得する
下記コマンドで直接gzip形式で圧縮ファイルを作成する。
*すごく容量の大きいファイルがダウンロードされます。
#SRAファイル(ペアエンド)をgzip圧縮して直接ダウンロード
fastq-dump --gzip --split-files SRR14104174
③Trim Galoreを用いたトリミング
次にトリミングを行います。
Trim Galore!のインストールに関しては、下記ページに記載しております。
a) Trim Galore!のインストール
まずはconda経由でTrim Galore!をインストールする。
#conda経由でTrimGalore!のインストール
conda install trim-galore
b) cutadaptおよびFastQCのインストール
次に、brew経由でcutadaptとFastQCをインストールする。これらのアプリがないと、Trim Galoreが作動できない。
brew install cutadapt
brew install FastQC
c) Trim Galore!を用いたトリミング
上記をインストールし、Trim Galoreのパスを通したら、実際にトリミングを行う。
まずはトリミングを行いたいファイルが存在するディレクトリに移動する。そのフォルダ内で③で取得したgzip圧縮されたペアエンドfastqファイルに対して、下記のコマンドを実行する。
*なかなかに時間がかかるので注意!!
trim_galore --paired SRR14104174_1.fastq.gz SRR14104174_2.fastq.gz
④FastQCを用いてトリミングファイルのクオリティチェック
a) FastQCを用いてクオリティチェック(QC)を行う
できあがったトリミングファイルをFastQCを用いてクオリティチェックします。下記のコマンドを入力してラン。
fastqc --nogroup -o . SRR14104174_1_val_1.fq.gz
fastqc --nogroup -o . SRR14104174_2_val_2.fq.gz
b) QC結果をブラウザで確認
出来上がったファイルをクリックすることで、ブラウザでQC結果を確認することができる。
左のSummary欄がほとんど緑色の✔になればOK。
*今回は「Per base sequence content」が赤く×になっているが、サンプル処理の過程でDNaseIを使っているためと考えられる。
**FastQCに関する細かい解釈に関しては、下記サイトで確認可能。
⑤Bowtie2を用いてマッピング
a) Bowtie2のインストール
下記コマンドを入力して、brew経由でBawtie2をインストールする。
brew install bowtie2
b) リファレンスゲノムのダウンロード
次に、UCSC Genome Browserからリファレンスとなるヒトゲノムデータをアダウンロードします。
*ダウンロードできない場合は、UCSCのサイトから直接ダウンロードする。
mkdir -p ~/bowtie2_index/bowtie2_human
cd bowtie2_index/bowtie2_human/
wget ftps://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
tar -xzf hg38.chromFa.tar.gz
次に「random」や「unknown」配列などを切り捨て、残ったものを1つのファイルに再構成し、「human_rev.fa」というファイルで保存します。
cd -
cd bowtie2_index/bowtie2_human/chroms/
rm *random.fa
rm chrUn*
rm chrM.fa
cat *.fa > human_rev.fa
c) インデックスの作成
いよいよインデックスを作成します。
先ほど作成した「human_rev.fa」が存在するディレクトリに移動します。
下記コマンドを実施。30分くらいかかります。
cd -
cd bowtie2_index/bowtie2_human/chroms/
mkdir human_rev_index
bowtie2-build --threads 4 -f ./chroms/human_rev.fa ./human_rev_index/human_rev_index
実行後は、下図のよう6つのファイルが出来上がります。
d) マッピングの実施
次に、作成したインデックスを用いて、トリミングしたサンプルデータをマッピングします。
ランを実行する前に、下図の様に作成したインデックスファイルとサンプルデータが同じディレクトリに存在するように整理します。今回は「bowtie2_index/bowtie2_human」のディレクトリ内に置きました。
整理したら、下記のコマンドを実行します。
30-40分かかります。
cd -
cd bowtie2_index/bowtie2_human
bowtie2 -p 4 -x ./human_rev_index/human_rev_index -1 SRR14104174_1_val_1.fq.gz -2 SRR14104174_2_val_2.fq.gz -S SRR14104174.sam
できあがったファイルが下図。もの凄く大きいファイル容量…。
e) SAM → BAMファイルへの変換
出来上がったSAMファイルをsamtoolを使ってBAMファイルへ変換します。
samtools view -b -o SRR14104174.bam SRR14104174.sam
5-10分程でBAMファイルへの変換が終了します。
マッピングはこれで終わりです。
⑥bigWigファイルを作成する
a) deepToolsのインストール
まず「deepTools」をconda経由でインストールします。
conda install deeptools
b) bam.baiファイルの作成
次にsamtoolを使用して、まずはBAMファイルをソートします(特定の順番に並び変えます)。その後、BAMのインデックスファイル(bam.bai)を作成します。
*よく分かっていませんが…bigWigファイルに変換するために必要な工程らしい。
samtools sort SRR14104174.bam -o SRR14104174_sorted.bam
samtools index SRR14104174_sorted.bam
c) bigWigファイルの作成
続いて、bamCoverageを実行してbigWIgファイルを作成する。
*実行の前にsorted.bamファイルとbam.baiファイルが同じディレクトリに存在するようにする。
bamCoverage -b SRR14104174_sorted.bam -p 4 --normalizeUsing RPGC --effectiveGenomeSize 2913022398 --binSize 1 -o SRR14104174.bigwig
⑦IGVで可視化する
a) IGVのインストール
下記のサイトから、自分のPCに合ったIGV (Integrative Genomics Viewer)をインストールします。IGVを使用することで、ATAC-seqやChIP-seqのシークエンス結果を可視化することができます。
b) IGVにbigWigデータを取り込む
次にデータを取り込みます。
その前に、まずIGVを立ち上げます。
立ち上げたら、下図の赤枠をクリックして、リファレンスデータとなる「Human h38」をダウンロードします。
ダウンロードが終わったら、作成したbigWigファイルをドラッグ&ドロップして取り込ませます。
すると、下図のようなデータが表示されました。
…キリが悪いですが、今回は一旦ここで終了です!
この記事が気に入ったらサポートをしてみませんか?