見出し画像

RNA-seqデータをダウンロード

国際塩基配列データベースの総称が International Nucleotide Sequence Database Collaboration (INSDC) 。
統合された塩基配列データベースが International Nucleotide Sequence Database (INSD)

3つの機関で、Sequence Read Archiveが配布されている。DDBJ NCBI EMBL-EBI  の データベース間はsra ファイルでデータ交換している。ただし、DDBJは、 2017年4月7日から NCBI/EBI SRAとの SRA ファイルのftp ミラーリングを停止中。


EMBL-EBI  …  FASTQ ファイルを gz 形式で圧縮し配布。
NCBI   …  FASTQ ファイルメタ情報などを追加した SRA 形式のファイルを配布。

*SRA Sequence Read Archive シーケンスリードアーカイブ

NCBI(SRA)を使うと、sraのダウンロード -> fastq への変換 -> fastq.gz への圧縮と三段階必要。
fastqファイルの取得・変換には時間がかかるので、prefetchコマンドを使うと、sraファイルのダウンロードのみなので、たくさんダウンロードするときは後で変換・圧縮という方法もありだそうです。

EMBL-EBI(ENA)からのダウンロードは圧縮された fastq.gz でダウンロードされる。(高速にダウンロードできそう)

今回は「次世代シークエンサー DRY解析教本(秀潤社)」のとおりに
 fasterq-dumpコマンドで、ダウンロードしてみます。

というわけで、fasterq-dump

コマンド fasterq-dump --split-files SRR1551011 -p

-p を付けると実行状況が表示されます。

画像1

fasterq dump の How to はこちら
https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump

教本ではまとめてダウンロードする方法が出ていましたが、
エラーになってしまったので、1ずつダウンロードしました。

とりあえず、ダウンロードが完了したので、gzipで圧縮します。


1つの場合

コマンド gzip SRR1550989_1.fastq

画像3

複数の場合
(時間がかかるので、あまりたくさん指定しないほうがよさそう)

コマンド gzip SRR1550989_1.fastq SRR1551050_1.fastq SRR1551050_2.fastq

こんな風にスペースで区切って指定すればOK

画像3

これでRNA-seqデータは準備できました。

いいなと思ったら応援しよう!