見出し画像

【研究】RNA-seq01.5:納品データ確認編

こんにちは!あるいは、こんばんは?
8月末に案内がありましたRNA-seqキャンペーンに、サンプルを出してみました。
納期は「年内に」とお願いしておりましたところ、きっちり納めてくださいました!!
なかなか解析に手が付けられなかったのですが、息抜き・気分転換も必要なので確認だけでもすることにしました。

※ 関連記事は備忘録ですので、
   詳細は 他の記事・市販書籍をご確認いただくことをオススメ します。


キャンペーンの内容

キャンペーンの内容ですが(決して宣伝しているわけではないです)、某社のNovaSeqシステムによる解析を依頼しました。
事前に担当者の方と打ち合わせが必要で、解析条件はよく分からなかったので提案されたものを採択しました。

キャンペーンの締切、サンプルの保管状況、調製試薬の残量、そして予算とじっくり相談し、今回はスクリーニングを主体としてコストを抑え、サンプルプールを解析してもらうことにしました。
納品はデータダウンロード形式、データ解析は自分たちで行うことで、コストを抑えました。後からデータ解析のみを依頼することも出来るようです。

10月中旬からtotal RNA抽出と吸光度測定を行い、濃度と純度のリストを作成して、「1 μg以上 かつ 10 μL以上」のtotal RNAプールを準備しました。

データ納品

データの納品はメールにて案内がありました。
リンク先から一つ一つ、データをダウンロードし、ダウンロードリストとデータ内容の照合を行う必要があるようでした。

Transcriptome Resequencing Report

レポートには、以下の情報がありました。
(詳細は省略しますが、レポート例確認の方法の案内がありました)

  • 解析のワークフロー

  • 生データの基本統計情報

  • ダウンロードリスト

  • ファイルの確認方法

ダウンロード納品の場合は、2週間以内にダウンロードを行い、データの破損などが無いかを確認する必要があります。
(期間を過ぎても、3か月以内であれば担当の方に連絡すれば、ダウンロード出来るように対応してくださるようです)

Checking md5 hash in a Windows/Linux system

レポートのFAQに、WindowsとLinuxにて納品されたデータの確認を行う方法が記載されていました。

私はMacを使用しておりますので、Linuxの方法を参考にしてみました。
まずはダウンロードしたデータ「〜.fastq.gz」を1つのフォルダに格納しておきます。
次に、ダウンロードサイトから、データファイルの情報「<OrderNumber>_#samples_md5sum_DownloadLink.txt」をダウンロードしておき、データと同じフォルダ内に格納しておきます。
※ ファイル名は解析ごとに異なりますので、「info.txt」など単純なものにしても良いかもしれません。。。

md5sha1sum」をインストールする必要がありましたので、前回の記事にて「Homebrew」を導入されていましたら、以下のコードを入力してインストールしておきましょう。

brew install md5sha1sum
md5sum --version

① まずは、各データ・ファイルが格納されているフォルダにディレクトリを変更しておきます。
(余談ではありますが、最近、1TBのSDカードを入手しましたので、そちらにデータを格納してDropboxとGppgleDriveでバックアップを取るようにしてみました)
② つぎに、FAQの手順のとおりに「cat」コマンドでデータファイル情報を確認してみます。
③ そして、データファイル情報から「md5sum.txt」を作成します。
④ 「cat」コマンドで確認してみます。
⑤ 最後に、「md5sum」コマンドでファイルの確認をします。
  全て「OK」と返ってくれば、データ解析に進めるようです。

cd "/Volumes/1TB/rawdata"
cat <OrderNumber>_#samples_md5sum_DownloadLink.txt
awk '{print $3 " " $1}' <OrderNumber>_#samples_md5sum_DownloadLink.txt | grep -v File > md5sum.txt
cat md5sum.txt
md5sum -c md5sum.txt

ようやくデータの準備ができました。
サンプル調製の段階で少し気になっていることがあるのですが、まずはスタンダードな解析を進めてみたいと思います。



いいなと思ったら応援しよう!