データの転送

NGSなどの大量のデータを扱っていると、ネットワーク経由でデータを転送する機会が多くあります。
また、NGS解析を小規模でやる分にはローカルマシンで作業しても問題はありませんが、大量に高速で計算させたい場合には、研究所や大学内のサーバー、スパコンなどに計算をさせた方が、一旦作業を投入してしまえば、ローカルマシンはデスクワークなど別の作業に使えるようになるので効率的です。

そこで、FTPでのファイルの転送の仕方についてメモをしておきます。
データの転送の仕方などは、転送速度の上限などそれぞれのサーバーによってお作法があるので、それに従いましょう。

サーバーが一般的なファイル転送ソフトに対応している場合、sftpクライアントソフトをインストールして利用するのが手っ取り早く便利です。

例えば、FileZilla
https://filezilla-project.org


ここでは、scpやaspera connectを利用してのファイル転送を紹介します。

ーー

データのダウンロードの方法

例)

[データ仮置きの場所]
xxx.yyy.or.jpサーバー上の
/data/gene/seq_data/test/
 
160801_M01534_0196_000000000-ANCRG
160802_M01534_0197_000000000-AN614
160803_M01534_0198_000000000-ANCN4
 
以上の3ラン分。
 
[FASTQの場所 ]
各フォルダ下 /Data/Intensities/BaseCalls
 
の場合、

ーー
 
例えば、デスクトップ上に'20160804'フォルダを作成して、そこにダウンロードします。

hananoshigeru-no-MacBook-Air:~ hanano$ cd Desktop
hananoshigeru-no-MacBook-Air:~ hanano$ mkdir 20160804   # '20160804'フォルダの作成
hananoshigeru-no-MacBook-Air:Desktop hanano$ cd 20160804   #'20160804'フォルダへ移動

以下、'20160804'フォルダの中にrunに対応する3つのフォルダを作成。
160801_M01534_0196
160802_M01534_0197
160803_M01534_0198

hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0196
hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0197
hananoshigeru-no-MacBook-Air:20160804 hanano$ mkdir 160801_M01534_0198

以下、'20160804'の下の3つのフォルダにそれぞれのfastaqファイルをダウンロード。

# '160801_M01534_0196'フォルダへ移動

hananoshigeru-no-MacBook-Air:20160804 hanano$ cd  160801_M01534_0196 

# '160801_M01534_0196'フォルダへfastaq.データをダウンロード

hananoshigeru-no-MacBook-Air:20160804 hanano$ scp hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160801_M01534_0196_000000000-ANCRG/Data/Intensities/BaseCalls/*.fastq.gz .    

# '20160804'フォルダへ移動

hananoshigeru-no-MacBook-Air:160801_M01534_0196 hanano$ cd .. 

# '20160804'フォルダの中身を確認

hananoshigeru-no-MacBook-Air:20160804 hanano$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198

同様に'160802_M01534_0197'、'160803_M01534_0198'もダウンロード。

hananoshigeru-no-MacBook-Air:20160804 hanano$ cd 160802_M01534_0197/ # '160802_M01534_0197'フォルダへ移動
hananoshigeru-no-MacBook-Air:160802_M01534_0197 hanano$ scp hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160802_M01534_0197_000000000-AN614/Data/Intensities/BaseCalls/*.fastq.gz .     # '160802_M01534_0197'フォルダへfastaq.データをダウンロード

hananoshigeru-no-MacBook-Air:160802_M01534_0197 hanano$ cd ..
hananoshigeru-no-MacBook-Air:20160804 hanano$ ls
160801_M01534_0196 160802_M01534_0197 160803_M01534_0198

hananoshigeru-no-MacBook-Air:20160804 hanano$ cd 160803_M01534_0198/
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ hanano@xxx.yyy.or.jp:/data/gene/seq_data/test/160803_M01534_0198_000000000-AN614/Data/Intensities/BaseCalls/*.fastq.gz .



データをアップロードする方法(ここではDDBJのスパコンにアップロードしています)

Aspera Connectをダウンロードしてインストールします。
以下のサイトのSOFTWARE>Downloads and Documentation
https://downloads.asperasoft.com/downloads

vimエディタで Asperaを起動して、ddbjの自分のアカウントにアクセスするエイリアスの.bashrcファイルを作成(SSH 経由でのコマンド実行に必要な追加設定は ~/.bashrc に記述する)。

hananoshigeru-no-MacBook-Air:~ hanano$ vim .bashrc
 
alias ascp='/Users/hanano/Applications/Aspera\ Connect.app/Contents/Resources/ascp -P 33001'
ddbj=shanano@ascp.ddbj.nig.ac.jp

:wqとタイプして、ファイルを保存&vimエディタを終了。
 
bashrcを読み込む。

hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ source .bashrc


上で所内サーバーからダウンロードしたシーケンスファイルをDDBJの自分のフォルダ’/data/RNA_Seq/20160804_RNA-Seq_reads’にascpでファイルを転送。


hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160801_M01534_0196 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160802_M01534_0197 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads
hananoshigeru-no-MacBook-Air:160803_M01534_0198 hanano$ ascp /Users/hanano/Desktop/20160804/160803_M01534_0198 $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads


ddbjにアクセスして、/data/RNA_Seq/20160804_RNA-Seq/のディレクトリを確認すると、3つのフォルダがあり、それぞれのフォルダにfastaq.qzファイルがあることが確認できます。

hananoshigeru-no-MacBook-Air:~ hanano$ sshshanano@gw2.ddbj.nig.ac.jp
[shanano@gw2 ~]$ qlogin
 
[shanano@nt096 ~]$ ls
analysis  data  intel  lang  tools
 
[shanano@nt096 ~]$ cd data
 
[shanano@nt096 data]$ ls
RNA_Seq  arabidopsis
 
[shanano@nt096 data]$ cd RNA_Seq
 
[shanano@nt096 RNA_Seq]$ ls
20160804_RNA-Seq_reads
 
[shanano@nt096 RNA_Seq]$ cd 20160804_RNA-Seq_reads/
 
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196  160802_M01534_0197  160803_M01534_0198
 
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160801_M01534_0196/
 
[shanano@nt096 160801_M01534_0196]$ ls
1B2_S2_L001_R1_001.fastq.gz   1Ca2_S3_L001_R2_001.fastq.gz
1B2_S2_L001_R2_001.fastq.gz   1Ca4_S7_L001_R1_001.fastq.gz
1B4_S6_L001_R1_001.fastq.gz   1Ca4_S7_L001_R2_001.fastq.gz
1B4_S6_L001_R2_001.fastq.gz   1Fe2_S4_L001_R1_001.fastq.gz
1C2_S1_L001_R1_001.fastq.gz   1Fe2_S4_L001_R2_001.fastq.gz
1C2_S1_L001_R2_001.fastq.gz   1Fe4_S8_L001_R1_001.fastq.gz
1C4_S5_L001_R1_001.fastq.gz   1Fe4_S8_L001_R2_001.fastq.gz
1C4_S5_L001_R2_001.fastq.gz   Undetermined_S0_L001_R1_001.fastq.gz
1Ca2_S3_L001_R1_001.fastq.gz  Undetermined_S0_L001_R2_001.fastq.gz
 
[shanano@nt096 160801_M01534_0196]$ cd ..
 
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196  160802_M01534_0197  160803_M01534_0198
 
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160802_M01534_0197/
 
[shanano@nt096 160802_M01534_0197]$ ls
2B2_S2_L001_R1_001.fastq.gz   2Ca2_S3_L001_R2_001.fastq.gz
2B2_S2_L001_R2_001.fastq.gz   2Ca4_S7_L001_R1_001.fastq.gz
2B4_S6_L001_R1_001.fastq.gz   2Ca4_S7_L001_R2_001.fastq.gz
2B4_S6_L001_R2_001.fastq.gz   2Fe2_S4_L001_R1_001.fastq.gz
2C2_S1_L001_R1_001.fastq.gz   2Fe2_S4_L001_R2_001.fastq.gz
2C2_S1_L001_R2_001.fastq.gz   2Fe4_S8_L001_R1_001.fastq.gz
2C4_S5_L001_R1_001.fastq.gz   2Fe4_S8_L001_R2_001.fastq.gz
2C4_S5_L001_R2_001.fastq.gz   Undetermined_S0_L001_R1_001.fastq.gz
2Ca2_S3_L001_R1_001.fastq.gz  Undetermined_S0_L001_R2_001.fastq.gz
 
[shanano@nt096 160802_M01534_0197]$ cd ..
 
[shanano@nt096 20160804_RNA-Seq_reads]$ ls
160801_M01534_0196  160802_M01534_0197  160803_M01534_0198
 
[shanano@nt096 20160804_RNA-Seq_reads]$ cd 160803_M01534_0198/
 
[shanano@nt096 160803_M01534_0198]$ ls
3B2_S2_L001_R1_001.fastq.gz   3Ca2_S3_L001_R2_001.fastq.gz
3B2_S2_L001_R2_001.fastq.gz   3Ca4_S7_L001_R1_001.fastq.gz
3B4_S6_L001_R1_001.fastq.gz   3Ca4_S7_L001_R2_001.fastq.gz
3B4_S6_L001_R2_001.fastq.gz   3Fe2_S4_L001_R1_001.fastq.gz
3C2_S1_L001_R1_001.fastq.gz   3Fe2_S4_L001_R2_001.fastq.gz
3C2_S1_L001_R2_001.fastq.gz   3Fe4_S8_L001_R1_001.fastq.gz
3C4_S5_L001_R1_001.fastq.gz   3Fe4_S8_L001_R2_001.fastq.gz
3C4_S5_L001_R2_001.fastq.gz   Undetermined_S0_L001_R1_001.fastq.gz
3Ca2_S3_L001_R1_001.fastq.gz  Undetermined_S0_L001_R2_001.fastq.gz


例えば、ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads/160803_M01534_0198/に移動したファイルを数える。

[shanano@nt096 160803_M01534_0198]$ ls -F | grep -v / | wc -l
18

解凍する。

[shanano@nt096 160803_M01534_0198]$ gunzip *_R1_001.fastq.gz

ddbjからデスクトップにファイルをダウンロード


[shanano@nt096 160803_M01534_0198]$ ascp -P 33001 -l 10M $ddbj:/data/RNA_Seq/20160804_RNA-Seq_reads/160803_M01534_0198/ /Users/hanano/Desktop/


いいなと思ったら応援しよう!