Suzuki Atsuko

次世代シークェンサーデータ解析を始めます。とりあえず、Windows Subsyste…

Suzuki Atsuko

次世代シークェンサーデータ解析を始めます。とりあえず、Windows Subsystem for Linux(WSL)で環境を作ってテストしてみます。環境構築から実際のデータ解析まで備忘録としてまとめています。どなたかの参考になれば幸いです。

マガジン

  • ubuntu 20.04 解析用PC セットアップ(備忘録)

    NGSデータ解析用にubuntu20.04バージョンをベースに環境をセットアップしました。 備忘録として書いたものですが、同じような環境をセットアップする方の参考になれば幸いです。

最近の記事

Samtoolsのインストール

下記のページからソースをダウンロード Samtools Current releases http://www.htslib.org/download/ ダウンロードしたファイルを適当な場所に置いて、解凍します。 tar xfv samtools-1.11.tar.bz2 解凍したフォルダに移動 cd samtools-1.11 ./configureを実行します。 (インストールするマシンOSのCPUやバージョンを調べたり,必要な関連ツールを調査し、これらの状況を

    • FastQC インストール

      次世代シーケンサーが出力するリードのクオリティチェックするプログラム。 下記のサイトからダウンロードしてインストールします。 Babraham Instituite http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Javaで書かれているので、Javaランタイム環境(JRE)がインストールされているか確認します。 java -version バージョンが表示されればインストールされている。 表示されなか

      • Rのインストール

        ubuntuのバージョン確認コマンド cat /etc/lsb-release 下記を参考にインストールします。 UBUNTU PACKAGES FOR R https://cran.r-project.org/bin/linux/ubuntu/README.html#secure-apt vi が苦手なので、 geditで/etc/apt/sources.listを編集します。 sudo gedit /etc/apt/sources.list エディターが開いた

        • pip3とcutadapt,HTseqのインストール

          pip は、The Python Package Index に公開されているPythonパッケージのインストールなどを行うユーティリティ。 pipを使ってcutadapt,HTseqをインストールします。 (cutadapt,HTseqはpythonで書かれています) ubuntuには最初からpythonがインストールされているので、 バージョンを確認します。 python3 --version ubuntu20.04.1は、python 3.8.5 でした。 pipを

        Samtoolsのインストール

        マガジン

        • ubuntu 20.04 解析用PC セットアップ(備忘録)
          9本

        記事

          SRAToolkitのインストール

          下記のサイトを参考にインストールします。 Installing SRA Toolkit https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit ubuntuの場合は、 https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit#1-fetch-the-tar-file-from-the-canonical-location-at

          SRAToolkitのインストール

          Seqkitのインストール

          下記のサイトからSeqkitをダウンロードする。 SeqKit - Ultrafast FASTA/Q kit https://bioinf.shenwei.me/seqkit/download/ ubuntuなので、seqkit_linux_amd64.tar.gzをダウンロード Downloadディレクトリに落とされているのを確認 (cdコマンドでDownloadディレクトリに移動) 確認できたら解凍する。 sudo tar -zxvf seqkit_linux_am

          Seqkitのインストール

          bowtie2のインストール

          bowtie2 リファレンスゲノム配列にリードをマッピングするためのソフトウェア アップデートして、パッケージマネージャーでインストール sudo apt update sudo apt install bowtie2 bowtie2 --help このコマンドでヘルプが表示されたらOK インストール完了。

          bowtie2のインストール

          ubuntu 20.04.1 lts インストール後、wifiトラブル

          無事にインストールが終わったので、 パッケージのアップデートをしたところ、表示されていたwifiのマークが消えて認識されなくなりました。 ubuntu Documentation 無線接続のトラブルシューティング https://help.ubuntu.com/lts/ubuntu-help/net-wireless-troubleshooting-hardware-check.html.ja ここを参考に ワイヤレスアダプターが認識されているのか確認します。 lshw

          ubuntu 20.04.1 lts インストール後、wifiトラブル

          解析用PCにubuntu20.04.1 LTSをインストール

          研究室の解析用PCをセットアップしています。 まずはubuntu20.04.1LTSをインストール。 マシンスペック マザーボード ASUS製 PRIME X299-AⅡ 無線LAN           ASUS製 PCE AC68        (Wi-Fi 802.11 a/b/g/n/ac PCI-Express x1接続) グラフィック NVIDIA GeForce RTX 2070 SUPER /8GB ISOファイルをダウンロードします。 64-bit PC

          解析用PCにubuntu20.04.1 LTSをインストール

          RSEMで遺伝子発現の定量をします

          RSEMをRSEM (RNA-Seq by Expectation-Maximization)からダウンロードします。(toolsディレクトリに入れます) コマンド tar -zxvf RSEM-1.3.3.tar.gz 解凍が終わったら、インストール コマンド make install RSEMもインデックスファイルを作ります。 まず、RSEM_referenceディレクトリを作って コマンド ../tools/RSEM-1.3.3/bin/rsem-perpar

          RSEMで遺伝子発現の定量をします

          STARでRNA-seqデータのマッピング2

          さて、いよいよマッピング。 paired-endの1サンプル分をマッピングします。 コマンド STAR --runMode alignReads --genomeDir ../ref/STAR_reference --readFilesCommand gunzip -c --readFilesIn ../seq/SRR1551011_1.fastq.gz ../seq/SRR1551011_2.fastq.gz --outSAMtype BAM SortedByCoord

          STARでRNA-seqデータのマッピング2

          STARでRNA-seqデータのマッピング1

          まず、インデックスファイルを作ります。 この処理はメモリをたくさん使うので、哺乳類は16GB以上、推奨は32GB以上だそうです。 時間がかかることを覚悟して実行してみます。 (実行するPCは、16GB) まず、インデックスファイルを出力するSTAR_referenceディレクトリをつくります。 いよいよ、インデックスファイルを作ります。 コマンド STAR --runMode genomeGenerate --genomeDir ..ref/STAR_reference

          STARでRNA-seqデータのマッピング1

          STARをインストールする

          STARは RNA-Seq をマッピングするツール。まずは、これを使ってデータを処理してみます。 ということで、STARをインストールします。 expressionフォルダの中にToolsディレクトリを作ってその中にSTARをダウンロードします。 現在のディレクトリの状況 STARの公式サイトを見ると、2.7.4aが最新でした。 コマンド wget https://github.com/alexdobin/STAR/archive/2.7.4a.tar.gz コマン

          STARをインストールする

          biomaRtで遺伝子IDと遺伝子名の対応情報を取得する

          biomaRtでENSEMBLデータベースから遺伝子IDと遺伝子名の対応情報を取得します。 Rを起動して、データベースから条件に合わせてデータを取得します。 今回は、ENSEMBLデータベースのhsapiens_gene_ensemblデータセットから ensembl_transcript_id, ensembl_gene_id, ensembl_gene_nameを取得します。 まず、getBM()関数でデータを取得するためにuseMart()関数を使用して、利用するB

          biomaRtで遺伝子IDと遺伝子名の対応情報を取得する

          もう一度BiomaRtインストール

          biomaRt パッケージは、R を利用してデータベースに対してデータの検索だけではなくID マッピングができるものらしい。 R4.0にしたので再インストールします。 コマンド if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") こんなメッセージが出ます。 Warning in install.packages("Biocmanager") :

          もう一度BiomaRtインストール

          Rのバージョンアップ

          インストールしたubuntuは、Bionic Beaver 18.04 LTSなのでバージョンアップが可能でした。 RをダウンロードするにはCRAN(Comprehensive R Archive Network)のミラーサイトからダウンロードします。 The R Project for Statistical Computing UBUNTU PACKAGES FOR R こちらのサイトにインストールの仕方が書いてあります。 ということで、この手順に沿ってバージョン

          Rのバージョンアップ