見出し画像

シーケンスリードのペアを自動検出し、サンプル名付きでリスト化するPythonプログラム


🛠️ プログラムの機能概要

自動ファイル検出:

• _R1 または _1 を first read として検出

• _R2 または _2 を second read として検出

サンプル名の自動付与:

• 各リードの絶対パスの前に フォルダ名をサンプル名として1列目 に追加

• フォルダ名に - を含む場合は _ に変換

出力形式:

• ファイル名は フォルダ名_output_reads.txt

• 出力内容はタブ区切り形式

プログラムのダウンロード


⚙️ 使い方

1. プログラムの保存:

上記リンクからプログラムをダウンロードし、list_reads_with_sample.py として保存します。

2. プログラムの実行:

ターミナルまたはコマンドプロンプトを開き、次のように実行してください。

python list_reads_with_sample.py /path/to/your/directory

出力例:


ファイル名: sample_data_output_reads.txt

sample_data	/path/to/sample1_R1.fq.gz	/path/to/sample1_R2.fq.gz
another_sample	/path/to/another_R1.fq.gz	/path/to/another_R2.fq.gz

おわりに


このPythonプログラムを使えば、NGSデータの整理が効率化され、手作業のファイル整理が不要になります。自動化によって時間を節約し、データ解析をよりスムーズに進めましょう!

#Python #NGS解析 #シーケンス解析 #バイオインフォマティクス #Pythonプログラミング #データ解析 #自動化 #研究者のツール #Genomics #次世代シーケンシング #データ整理 #プログラム共有 #コードスニペット #Python開発


いいなと思ったら応援しよう!