RNA-seqデータをダウンロード
国際塩基配列データベースの総称が International Nucleotide Sequence Database Collaboration (INSDC) 。
統合された塩基配列データベースが International Nucleotide Sequence Database (INSD)。
3つの機関で、Sequence Read Archiveが配布されている。DDBJ、 NCBI 、 EMBL-EBI の データベース間はsra ファイルでデータ交換している。ただし、DDBJは、 2017年4月7日から NCBI/EBI SRAとの SRA ファイルのftp ミラーリングを停止中。
EMBL-EBI … FASTQ ファイルを gz 形式で圧縮し配布。
NCBI … FASTQ ファイルメタ情報などを追加した SRA 形式のファイルを配布。
*SRA Sequence Read Archive シーケンスリードアーカイブ
NCBI(SRA)を使うと、sraのダウンロード -> fastq への変換 -> fastq.gz への圧縮と三段階必要。
fastqファイルの取得・変換には時間がかかるので、prefetchコマンドを使うと、sraファイルのダウンロードのみなので、たくさんダウンロードするときは後で変換・圧縮という方法もありだそうです。
EMBL-EBI(ENA)からのダウンロードは圧縮された fastq.gz でダウンロードされる。(高速にダウンロードできそう)
今回は「次世代シークエンサー DRY解析教本(秀潤社)」のとおりに
fasterq-dumpコマンドで、ダウンロードしてみます。
というわけで、fasterq-dump
コマンド fasterq-dump --split-files SRR1551011 -p
-p を付けると実行状況が表示されます。
fasterq dump の How to はこちら
https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump
教本ではまとめてダウンロードする方法が出ていましたが、
エラーになってしまったので、1ずつダウンロードしました。
とりあえず、ダウンロードが完了したので、gzipで圧縮します。
1つの場合
コマンド gzip SRR1550989_1.fastq
複数の場合
(時間がかかるので、あまりたくさん指定しないほうがよさそう)
コマンド gzip SRR1550989_1.fastq SRR1551050_1.fastq SRR1551050_2.fastq
こんな風にスペースで区切って指定すればOK
これでRNA-seqデータは準備できました。