データの転送
NGSなどの大量のデータを扱っていると、ネットワーク経由でデータを転送する機会が多くあります。
また、NGS解析を小規模でやる分にはローカルマシンで作業しても問題はありませんが、大量に高速で計算させたい場合には、研究所や大学内のサーバー、スパコンなどに計算をさせた方が、一旦作業を投入してしまえば、ローカルマシンはデスクワークなど別の作業に使えるようになるので効率的です。
そこで、FTPでのファイルの転送の仕方についてメモをしておきます。
データの転送の仕方などは、転送速度の上限などそれぞれのサーバーによってお作法があるので、それに従いましょう。
サーバーが一般的なファイル転送ソフトに対応している場合、sftpクライアントソフトをインストールして利用するのが手っ取り早く便利です。
例えば、FileZilla
https://filezilla-project.org
ここでは、scpやaspera connectを利用してのファイル転送を紹介します。
ーー
データのダウンロードの方法
例)
[データ仮置きの場所]
xxx.yyy.or.jpサーバー上の
/data/gene/seq_data/test/
160801_M01534_0196_000000000-ANCRG
160802_M01534_0197_000000000-AN614
160803_M01534_0198_000000000-ANCN4
以上の3ラン分。
[FASTQの場所 ]
各フォルダ下 /Data/Intensities/BaseCalls
の場合、
ーー
例えば、デスクトップ上に'20160804'フォルダを作成して、そこにダウンロードします。
hananoshigeru-no-MacBook-Air:~ hanano$ cd Desktop
hananoshigeru-no-MacBook-Air:~ hanano$ mkdir 20160804 # '20160804'フォルダの作成
hananoshigeru-no-MacBook-Air:Desktop hanano$ cd 20160804 #'20160804'フォルダへ移動
以下、'20160804'フォルダの中にrunに対応する3つのフォルダを作成。
160801_M01534_0196
160802_M01534_0197
160803_M01534_0198
hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0196
hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0197
hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0198
以下、'20160804'の下の3つのフォルダにそれぞれのfastaqファイルをダウンロード。
# '160801_M01534_0196'フォルダへ移動
hananoshigeru-no-MacBook-Air:20160804 hanano$ cd 160801_M01534_0196
# '160801_M01534_0196'フォルダへfastaq.データをダウンロード
hananoshigeru-no-MacBook-Air:20160804 hanano$ scp hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160801_M01534_0196_000000000-ANCRG/Data/Intensities/BaseCalls/*.fastq.gz .
# '20160804'フォルダへ移動
hananoshigeru-no-MacBook-Air:160801_M01534_0196 hanano$ cd ..
# '20160804'フォルダの中身を確認
hananoshigeru-no-MacBook-Air:20160804 hanano$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198
同様に'160802_M01534_0197'、'160803_M01534_0198'もダウンロード。
hananoshigeru-no-MacBook-Air:20160804 hanano$ cd 160802_M01534_0197/ # '160802_M01534_0197'フォルダへ移動
hananoshigeru-no-MacBook-Air:160802_M01534_0197 hanano$ scp hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160802_M01534_0197_000000000-AN614/Data/Intensities/BaseCalls/*.fastq.gz . # '160802_M01534_0197'フォルダへfastaq.データをダウンロード
hananoshigeru-no-MacBook-Air:160802_M01534_0197 hanano$ cd ..
hananoshigeru-no-MacBook-Air:20160804 hanano$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198
hananoshigeru-no-MacBook-Air:20160804 hanano$ cd 160803_M01534_0198/
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160803_M01534_0198_000000000-AN614/Data/Intensities/BaseCalls/*.fastq.gz .
データをアップロードする方法(ここではDDBJのスパコンにアップロードしています)
Aspera Connectをダウンロードしてインストールします。
以下のサイトのSOFTWARE>Downloads and Documentation
https://downloads.asperasoft.com/downloads
vimエディタで Asperaを起動して、ddbjの自分のアカウントにアクセスするエイリアスの.bashrcファイルを作成(SSH 経由でのコマンド実行に必要な追加設定は ~/.bashrc に記述する)。
hananoshigeru-no-MacBook-Air:~ hanano$ vim .bashrc
alias ascp='/Users/hanano/Applications/Aspera\ Connect.app/Contents/Resources/ascp -P 33001'
ddbj=shanano@ascp.ddbj.nig.ac.jp
:wqとタイプして、ファイルを保存&vimエディタを終了。
bashrcを読み込む。
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ source .bashrc
上で所内サーバーからダウンロードしたシーケンスファイルをDDBJの自分のフォルダ’/data/RNA_Seq/20160804_RNA-Seq_reads’にascpでファイルを転送。
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160801_M01534_0196 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160802_M01534_0197 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160803_M01534_0198 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads
ddbjにアクセスして、/data/RNA_Seq/20160804_RNA-Seq/のディレクトリを確認すると、3つのフォルダがあり、それぞれのフォルダにfastaq.qzファイルがあることが確認できます。
hananoshigeru-no-MacBook-Air:~ hanano$ sshshanano@gw2.ddbj.nig.ac.jp
[shanano@gw2 ~]$ qlogin
[shanano@nt096 ~]$ ls
analysis data intel lang tools
[shanano@nt096 ~]$ cd data
[shanano@nt096 data]$ ls
RNA_Seq arabidopsis
[shanano@nt096 data]$ cd RNA_Seq
[shanano@nt096 RNA_Seq]$ ls
20160804_RNA-Seq_reads
[shanano@nt096 RNA_Seq]$ cd 20160804_RNA-Seq_reads/
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160801_M01534_0196/
[shanano@nt096 160801_M01534_0196]$ ls
1B2_S2_L001_R1_001.fastq.gz 1Ca2_S3_L001_R2_001.fastq.gz
1B2_S2_L001_R2_001.fastq.gz 1Ca4_S7_L001_R1_001.fastq.gz
1B4_S6_L001_R1_001.fastq.gz 1Ca4_S7_L001_R2_001.fastq.gz
1B4_S6_L001_R2_001.fastq.gz 1Fe2_S4_L001_R1_001.fastq.gz
1C2_S1_L001_R1_001.fastq.gz 1Fe2_S4_L001_R2_001.fastq.gz
1C2_S1_L001_R2_001.fastq.gz 1Fe4_S8_L001_R1_001.fastq.gz
1C4_S5_L001_R1_001.fastq.gz 1Fe4_S8_L001_R2_001.fastq.gz
1C4_S5_L001_R2_001.fastq.gz Undetermined_S0_L001_R1_001.fastq.gz
1Ca2_S3_L001_R1_001.fastq.gz Undetermined_S0_L001_R2_001.fastq.gz
[shanano@nt096 160801_M01534_0196]$ cd ..
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160802_M01534_0197/
[shanano@nt096 160802_M01534_0197]$ ls
2B2_S2_L001_R1_001.fastq.gz 2Ca2_S3_L001_R2_001.fastq.gz
2B2_S2_L001_R2_001.fastq.gz 2Ca4_S7_L001_R1_001.fastq.gz
2B4_S6_L001_R1_001.fastq.gz 2Ca4_S7_L001_R2_001.fastq.gz
2B4_S6_L001_R2_001.fastq.gz 2Fe2_S4_L001_R1_001.fastq.gz
2C2_S1_L001_R1_001.fastq.gz 2Fe2_S4_L001_R2_001.fastq.gz
2C2_S1_L001_R2_001.fastq.gz 2Fe4_S8_L001_R1_001.fastq.gz
2C4_S5_L001_R1_001.fastq.gz 2Fe4_S8_L001_R2_001.fastq.gz
2C4_S5_L001_R2_001.fastq.gz Undetermined_S0_L001_R1_001.fastq.gz
2Ca2_S3_L001_R1_001.fastq.gz Undetermined_S0_L001_R2_001.fastq.gz
[shanano@nt096 160802_M01534_0197]$ cd ..
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160803_M01534_0198/
[shanano@nt096 160803_M01534_0198]$ ls
3B2_S2_L001_R1_001.fastq.gz 3Ca2_S3_L001_R2_001.fastq.gz
3B2_S2_L001_R2_001.fastq.gz 3Ca4_S7_L001_R1_001.fastq.gz
3B4_S6_L001_R1_001.fastq.gz 3Ca4_S7_L001_R2_001.fastq.gz
3B4_S6_L001_R2_001.fastq.gz 3Fe2_S4_L001_R1_001.fastq.gz
3C2_S1_L001_R1_001.fastq.gz 3Fe2_S4_L001_R2_001.fastq.gz
3C2_S1_L001_R2_001.fastq.gz 3Fe4_S8_L001_R1_001.fastq.gz
3C4_S5_L001_R1_001.fastq.gz 3Fe4_S8_L001_R2_001.fastq.gz
3C4_S5_L001_R2_001.fastq.gz Undetermined_S0_L001_R1_001.fastq.gz
3Ca2_S3_L001_R1_001.fastq.gz Undetermined_S0_L001_R2_001.fastq.gz
例えば、ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads/160803_M01534_0198/に移動したファイルを数える。
[shanano@nt096 160803_M01534_0198]$ ls -F | grep -v / | wc -l
18
解凍する。
[shanano@nt096 160803_M01534_0198]$ gunzip *_R1_001.fastq.gz
ddbjからデスクトップにファイルをダウンロード
[shanano@nt096 160803_M01534_0198]$ ascp -P 33001 -l 10M $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads/160803_M01534_0198/ /Users/hanano/Desktop/